OpenAI最近發(fā)布了一款名為Sora的新型文生視頻大模型,這個模型能夠根據(jù)文本指令生成長達60秒的高清視頻。Sora不僅能夠創(chuàng)造逼真和充滿想象力的場景,而且還能夠在視頻中包含多個角色、展現(xiàn)特定的動作類型,以及對對象和背景的精確細節(jié)描繪。例如,在一段演示視頻中,Sora展示了從天空俯瞰的東京街道,跟隨一對牽手的情侶走過日本風格的街道。
Sora的工作原理基于擴散模型,這種模型從類似于靜態(tài)噪聲的視頻開始,通過多個步驟逐漸去除噪聲,視頻也從最初的隨機像素轉化為清晰的圖像場景。此外,Sora還使用了Transformer架構,具有極強的擴展性。在訓練方面,OpenAI利用了DALL·E 3的重述提示詞技術,為視覺模型訓練數(shù)據(jù)生成高描述性的標注,從而使模型能更好地遵循文本指令。
盡管Sora的能力令人印象深刻,但它也存在一些弱點。例如,Sora可能難以準確模擬復雜場景的物理原理,并且可能無法理解因果關系。例如,在某個視頻中,一個人咬了一口餅干后,餅干卻沒有留下咬痕。
目前,Sora還未向公眾開放使用,OpenAI擔心深度偽造視頻的濫用問題?,F(xiàn)在只有一部分視覺藝術家、設計師和電影制作人有內部試用機會。此外,OpenAI還在與第三方安全測試人員共享該模型,進行紅隊測試,以確保其安全性和可靠性。
總的來說,Sora的出現(xiàn)代表了AI視頻生成領域的一大突破,它不僅能夠生成長達60秒的視頻,還能在視頻中展現(xiàn)豐富的細節(jié)和情感,從而為內容創(chuàng)作和媒體制作帶來新的可能性。
未經(jīng)允許不得轉載:445IT之家 » OpenAI震撼發(fā)布Sora 60秒高清視頻 一觸即發(fā)