關鍵要點:
- Google DeepMind,密歇根大學和布朗大學的研究人員開發了“運動提示”,這是一種使用特定運動軌跡控制視頻生成的新方法。
- 該技術使用“運動提示”,這是一種可能是稀疏或緻密的運動的靈活表示,以指導預先訓練的視頻擴散模型。
- 關鍵創新是“運動提示擴展”,它將高級用戶請求(例如鼠標拖動)轉化為模型的詳細運動指令。
- 這個單一的統一模型可以執行各種任務,包括精確的對象和相機控制,從一個視頻到另一個視頻的運動傳輸以及交互式圖像編輯,而無需為每個特定功能進行重新訓練。
隨著生成AI的不斷發展,對視頻創作的精確控制是其在廣告,電影製作和互動娛樂等市場中廣泛採用的關鍵障礙。雖然文本提示是控制的主要方法,但它們通常在指定使視頻引人注目的細微動態動作方面缺乏。一篇新論文,由Google DeepMind,密歇根大學和布朗大學推出,並在CVPR 2025上發表並突出顯示,引入了一種突破性的解決方案,稱為“運動提示”,該解決方案通過允許用戶將動作引導在視頻中使用運動軌跡,從而提供了前所未有的控制水平。
這種新方法超出了文本的局限性,該文本難以準確描述複雜的運動。例如,像“熊迅速轉過頭”這樣的提示對無數的解釋開放。 “快速”有多快?頭部運動的確切路徑是什麼?運動提示通過允許創作者定義運動本身來解決這一問題,從而為更具表現力和有意的視頻內容打開大門。
引入運動提示
這項研究的核心是“運動提示”的概念。研究人員確定,時空稀疏或密集的運動軌跡(實際上可以隨著時間的流逝跟踪點的運動)是表示任何類型運動的理想方式。這種靈活的格式可以捕獲從微妙的頭髮到復雜的相機運動的任何東西。
為了實現這一目標,團隊在強大的,預訓練的視頻擴散模型(稱為Lumiere)上訓練了一個控製網絡適配器。控製網絡在220萬個視頻的大量內部數據集上進行了訓練,每個數據集都有由稱為BootStap的算法提取的詳細運動軌道。這種多樣化的培訓使模型可以理解並產生各種動作,而無需為每個任務進行專門的工程。
從簡單的點擊到復雜的場景:運動提示擴展
在為用戶指定複雜場景的每個運動點還是不切實際的同時,研究人員開發了一個稱為“運動及時擴展”的過程。這個聰明的系統將簡單的高級用戶輸入轉化為詳細的半密度運動,促使模型需求。
這允許各種直觀的應用程序:
與圖像“互動”: 用戶可以在靜止圖像中單擊並將其鼠標拖到對像上以使其移動。例如,用戶可以將鸚鵡的頭拖動以使其轉彎,或者用一個人的頭髮“玩”,並且該模型會生成一個真實的視頻。有趣的是,這個過程揭示了出現的行為,該行為將產生物理上合理的運動,就像光標“推動”時的沙子實際散射一樣。
對象和相機控制: 通過將鼠標運動解釋為操縱幾何原始的說明(例如無形的球體),用戶可以實現細粒度的控制,例如精確旋轉貓的頭。同樣,系統可以通過估計場景的深度從第一個幀並將所需的相機路徑投射到它上來產生復雜的相機運動,例如繞場景。該模型甚至可以將這些提示組合在一起以同時控制對象和相機。
運動轉移: 該技術允許將源視頻的運動應用於靜態圖像中完全不同的主題。例如,研究人員表明,將一個人的頭部運動轉移到獼猴上,實際上是“偽造”的動物。
將其進行測試
該團隊進行了廣泛的定量評估和人類研究,以驗證其方法,並將其與圖像導體和拖動等最新模型進行比較。在幾乎所有指標中,包括圖像質量(PSNR,SSIM)和運動精度(EPE),它們的模型表現優於基準。
人類研究進一步證實了這些結果。當要求在運動提示和其他方法生成的視頻之間進行選擇時,參與者始終偏愛新模型的結果,理由是更好地遵守運動命令,更真實的運動和更高的整體視覺質量。
限制和未來的方向
研究人員對系統的當前局限性透明。有時,該模型可能會產生不自然的結果,例如如果某些部分被錯誤地“鎖定”到背景上,則不自然地伸展對象。但是,他們認為這些失敗可以用作探測基礎視頻模型並確定其物理世界中的弱點的寶貴工具。
這項研究代表了創建真正的交互式和可控的生成視頻模型的重要一步。通過關注運動的基本要素,該團隊解鎖了一種多功能和強大的工具,有一天可以成為希望利用AI在視頻製作中的全部潛力的專業人士和創意的標準。
查看 紙 和 項目頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 100K+ ml子雷迪特 並訂閱 我們的新聞通訊。

讓·馬克(Jean-Marc)是一位成功的AI業務主管。他領導並加速了AI Power的解決方案的增長,並於2006年創立了一家計算機視覺公司。他是AI會議的公認發言人,並擁有斯坦福大學的MBA學位。
