幕後幾乎看一個由人工智能模型產生的視頻?您可能會認為該過程類似於定格動畫,其中創建和縫合了許多圖像,但是對於諸如Openal的Sora和Google的VEO 2之類的“擴散模型”並不是完全如此。
這些系統不是逐幀(或“自動攝取”),而是立即處理整個序列。所得的剪輯通常是逼真的,但是該過程很慢,不允許進行直接更改。
麻省理工學院計算機科學和人工智能實驗室(CSAIL)和Adobe Research的科學家現在已經開發了一種稱為“ Causvid”的混合方法,以在幾秒鐘內創建視頻。就像一個快速的學生向一位熟練的老師學習一樣,一個完整的擴散模型訓練自回歸系統,以迅速預測下一個框架,同時確保高質量和一致性。然後,Causvid的學生模型可以從簡單的文本提示中生成剪輯,將照片變成移動的場景,擴展視頻或使用新的輸入中的新輸入更改其創作。
該動態工具可以快速,交互式內容創建,將50步的過程切成幾個動作。它可以製作許多富有想像力和藝術的場景,例如紙飛機變成天鵝,羊毛猛mm像在雪中冒險,或者一個孩子跳到水坑里。用戶還可以發出初始提示,例如“生成一個人過馬路”,然後進行後續輸入以在現場添加新元素,例如“當他到達對面的人行道時,他在筆記本上寫了寫作。”
Causvid製作的視頻說明了其創建光滑,高質量內容的能力。
AI生成的動畫由研究人員提供。
CSAIL研究人員說,該模型可用於不同的視頻編輯任務,例如通過生成與音頻翻譯同步的視頻來幫助觀眾了解不同語言的直播。它還可以幫助在視頻遊戲中渲染新內容,或者快速製作培訓模擬來教機器人新任務。
Tianwei Yin SM ’25,PhD ’25,最近畢業於電氣工程和計算機科學和CSAIL分支機構的學生,將模型的強度歸因於其混合方法。
“ CAUSVID將基於預訓練的擴散模型與自回歸體系結構相結合,通常在文本生成模型中找到,”有關該工具的新論文的共同領導作者Yin說。 “這個由AI驅動的教師模型可以設想未來的步驟來訓練逐框系統以避免造成錯誤。”
Yin的共同領導作家Qiang Zhang是XAI的研究科學家,也是前Csail訪問者。他們與Adobe研究科學家Richard Zhang,Eli Shechtman和Xun Huang以及兩名CSAIL首席研究人員合作:麻省理工學院教授Bill Freeman和FrédoDurand。
因果(vid)和效果
許多自迴旋模型都可以創建一個最初流暢的視頻,但是質量往往會在序列中下降。跑步的人的剪輯起初似乎栩栩如生,但是他們的腿開始向不自然的方向揮舞,表明框架到框架的不一致(也稱為“錯誤積累”)。
在先前的因果方法中,容易發生的視頻生成很常見,該方法學會了自己獨自一人預測框架。 Causvid相反,使用高功率擴散模型來教授更簡單的系統其一般視頻專業知識,從而使其能夠創建光滑的視覺效果,但要快得多。

播放視頻
Causvid可以實現快速,交互式視頻創建,將50步的過程切成幾個動作。
視頻由研究人員提供。
當研究人員測試其製作高分辨率10秒長的視頻的能力時,Causvid展示了其視頻製作能力。它的表現優於“ Opensora”和“ Moviegen”等基線,在製作最穩定,高質量的剪輯的同時,其工作速度比比賽快100倍。
然後,Yin和他的同事們測試了Causvid發行穩定的30秒視頻的能力,在那裡它也超出了質量和一致性的可比模型。這些結果表明,Causvid最終可能會產生穩定的長時間視頻,甚至是不確定的持續時間。
隨後的一項研究表明,用戶更喜歡Causvid的學生模型而不是基於擴散的老師產生的視頻。
Yin說:“自迴旋模型的速度確實有所不同。” “它的視頻看起來和老師的視頻一樣好,但是隨著時間的製作時間更少,其視覺效果是其視覺效果的多樣性較小。”
Causvid在使用文本到視頻數據集對超過900個提示進行測試時也表現出色,最高總分為84.27。它吹噓了成像質量和現實的人類行為等類別中最好的指標,越來越黯然失色的視頻生成模型,例如“ vChitect”和“ gen-3”。
雖然AI視頻生成邁出了高效的一步,但Causvid可能很快就能使用較小的因果建築,甚至可以立即更快地設計視覺效果。 Yin說,如果該模型是在特定領域的數據集上訓練的,則可能會為機器人和遊戲創建更高質量的剪輯。
專家說,這種混合動力系統是擴散模型的有前途升級,目前通過處理速度陷入困境。 “(擴散模型)比LLM(大型語言模型)或生成圖像模型要慢,” Carnegie Mellon大學助理教授Jun-Yan Zhu說,他不參與該論文。 “這項新作品改變了,使視頻發電更有效。這意味著更好的流速度,更具交互式應用程序和較低的碳足跡。”
該團隊的工作得到了亞馬遜科學樞紐,Gwangju科學技術研究所,Adobe,Google,美國空軍研究實驗室和美國空軍人工智能加速器的支持。 Causvid將在6月的計算機視覺和模式識別會議上介紹。