行業分析 | 刷屏科技圈!還不了解Sora是什么?看完這篇你就懂了
2024-03-13來源:廣發基金
在中國的農歷年期間,AI行業也仿佛進入了辭舊迎新之際,人們見證了一系列引人注目的進步。其中,OpenAI團隊發布的Sora模型,猶如一顆璀璨的星辰,它高效的降維處理能力讓人不禁遐想其是否迎來了向通用人工智能(AGI)的加速轉變。
01 Sora是什么?
Sora采用先進的深度學習架構,將視頻數據轉換為低維度的潛在空間表示,再通過空間-時間圖塊(Spacetime latent patches)對其進行分解。
這種方法受到了大規模語言模型成功經驗的啟發,將多樣化的視覺數據統一為一個可處理的格式。Sora可以通過壓縮網絡將原始視頻數據降維,然后將這些壓縮后的表示分解為一系列圖塊(patches),再將這些圖塊(patches)轉變為令牌(tokens)輸入到模型中。Sora進一步利用這些圖塊(patches)在多種分辨率、持續時間和縱橫比的視頻和圖像上進行訓練,是一個以擴散模型為基礎、結合transformer架構的生成模型,能夠從噪聲輸入圖塊(patches)中預測出原始的“干凈”圖塊(patches)。
該模型具備了以下7項獨特的優勢:
(1)視頻生成長度可達1分鐘,遠超其他文生視頻模型。熱門的runway gen2一次生成4秒,可向后每次擴展4秒(最多到20秒);pika 3秒,可向后每次擴展4秒到15秒;開源的stable video diffusion 能生成3秒。
(2)能夠向前或向后擴展視頻,以及連接視頻。人們可以使用Sora在兩個輸入視頻之間逐漸插值,在完全不同主題和不同場景構圖的視頻之間創建無縫過渡。這一視頻擴展和連接的能力,將有望用于長視頻制作。
(3)鏡頭控制能力,3D空間的一致性。Sora可以生成具有動態鏡頭運動的視頻,隨著攝像機的移動和旋轉,人物和場景元素在三維空間中能保持連貫的運動。
(4)長期連續性和物體持久性。Sora通常能夠有效地對短期和長期依賴關系進行建模,例如可以保留人、動物和物體,即使它們被遮擋或離開鏡頭;它還可以在單個樣本中生成同一角色的多個鏡頭,在整個視頻中保持外觀。OpenAI官網稱Sora解決了一個具有挑戰性的問題,即確保一個主題即使暫時離開視野也能保持不變。
(5)模擬真實世界交互。Sora有時可以模擬簡單的影響真實世界狀態的動作。例如,一位畫家可以在畫布上留下持續一段時間的新筆觸,或者一個人吃漢堡并留下咬痕。
(6)模擬數字世界。Sora能夠模擬人工過程,例如視頻游戲,Sora可以同時通過基本策略控制 Minecraft游戲中的玩家,同時還可以高保真地渲染世界及其動態。
(7)語言理解,遵循指示。OpenAI在視頻上使用了在Dall E3引入的re-caption技術,首先訓練一個高度描述性的標題生成模型,然后使用它為訓練集當中的所有視頻生成文本標題。OpenAI發現,基于高度描述性視頻標題的培訓可以提高文本保真度以及視頻的整體質量。OpenAI還利用GPT將簡短的用戶提示轉換為更長的詳細標題,讓Sora能夠準確遵循用戶提示生成高質量的視頻。
02 Sora的局限性?
盡管Sora在視頻生成領域展現了前所未有的能力,但它仍存在一些局限性。
例如,Sora在模擬一些基本物理交互(如玻璃破碎)時并不總是能夠準確捕捉其物理特性,且在某些情況下對物體狀態的改變(如食物被吃掉)的模擬也不總是正確的。
此外,盡管Sora在處理短視頻和長視頻時通常能夠有效地模擬短期和長期依賴關系,但在長視頻樣本中,仍可能存在一些不連貫性或物體突然出現等問題。
03 Sora誕生的啟示?
即使有一些缺陷,Sora大模型的問世仍舊是AI領域的一大飛躍,其對我國AI行業的啟示是多維的。
首先,它強調了創新在推動技術進步中的核心作用,鼓勵我國AI企業加大研發投入,尤其是在深度學習和計算機視覺領域。
其次,Sora的成功利用了數據的多樣性和質量,這提示中國可以利用其龐大的數據資源,培育適應本土市場的AI應用。
此外,Sora的誕生也凸顯了建立AI倫理規范和法規政策體系,以確保技術健康和可持續發展的必要性。
同時,國際合作與競爭的日益加劇,提醒中國需要在全球AI競技場上積極布局。人才是關鍵,Sora的出現進一步說明了高級AI技術人才的重要性,將促使教育體系加大對相關專業人才培養的力度。
最后,Sora在視頻生成方面的應用潛力為多個行業提供了創新思路,特別是內容創造和媒體傳播,這為未來的行業應用革新開辟了道路。
(作者:廣發基金研究發展部 吳鵬)
風險提示:基金有風險,投資需謹慎。本資料不構成本公司任何業務的宣傳推介材料、投資建議或保證,也不作為任何法律文件。本基金管理人承諾以誠實信用、勤勉盡責的原則管理和運用基金資產,但不保證基金一定盈利,也不保證最低收益。基金過往業績和獲獎情況不預示未來表現。投資者在投資基金前應認真閱讀《基金合同》和《招募說明書》等基金法律文件,全面認識基金產品的風險收益特征,在了解產品情況及聽取銷售機構適當性意見的基礎上,根據自身的風險承受能力、投資期限和投資目標,對基金投資作出獨立決策,選擇合適的基金產品。
相關閱讀