自 Sora 亮相以來,AI 視頻的真實感突飛猛進,但可控性仍是瓶頸:模型像才華橫溢卻隨性的攝影師,難以精準執行 “導演指令”。我們能否讓 AI 做到:
- 僅憑一張靜態照片,就能 “腦補” 出整個 3D 空間,生成一段圍繞主體的 360° 環繞視頻?
- 現有的視頻能否進行重新運鏡,實現推、拉、搖、移等復雜的電影級鏡頭調度?
這些需求在影視制作、游戲開發、虛擬現實等領域至關重要,但實現起來卻困難重重。現有的技術路線往往顧此失彼:要么通過微調(Fine-tuning)模型來實現,但所需算力昂貴,且易損害模型內在的 “世界知識”,導致生成質量下降;要么采用“扭曲 - 重繪”(Warp-and-Repaint)的策略,但引導信號帶有的噪點和偽影,往往會誤導模型,造成幾何結構錯亂和細節失真。
有沒有第三條路?一條既能實現精準控制,又不犧牲生成質量,還無需重新訓練的優雅路徑?
西湖大學 AGI 實驗室的研究團隊給出了他們的答案。他們提出了名為WorldForge的全新框架,以一種 “即插即用” 的推理時引導方式,在不改動任何權重的前提下,為視頻擴散模型裝上了一個 “導演大腦”,成功實現了單圖到 360° 世界生成和電影級視頻軌跡重運鏡。
