上個月 OpenAI 在發布 Sora 2 的同時將其作為獨立應用發布,產品一經上線便登頂蘋果應用商店榜首的現象級產品。本篇內容是對 Sora 2 的三位核心負責人的訪談:研發負責人 Bill Peebles、產品負責人 Rohan Sahai 以及工程與產品負責人 Thomas Dimson,Dimson 還參與過 Instagram 產品的搭建。
Sora 的病毒式傳播離不開它獨有的 Cameos 功能(即用戶可將自身形象融入 AI 生成視頻),這使得 Sora 并不是單純的視頻生成產品,而更像是一個社交工具:
• Sora 產品設計始終將人類創造力置于核心位置,而非鼓勵被動的內容消費;
• Sora 的各種玩法創新以及信息流推薦算法將更多圍繞社交關系鏈展開,團隊認為這是 Sora 和其他短視頻工具最不一樣的地方;
• 把 Sora 作為獨立產品推出一方面是看到了之前一系列圖片生成產品的爆火和病毒式傳播,另一方面則是考慮到 ChatGPT 作為生產力工具的生態定位和用戶體驗;
• 視頻模型長期的目標是 “世界模擬器”(world simulator),它的下一個突破點是可以生成數小時長度的視頻內容,并且可以基于“模擬”能力在科研領域創造價值;
• LLMs 和視頻生成模型本質上都是在學習“世界模型”,只不過路徑和方式并不相同。
01.
Sora 其實是一個社交產品
Jacob Effron: 你們有預料到 Sora 的爆火嗎?
Bill Peebles: 我其實完全沒想到它能在應用商店霸榜一個月,這個成績遠超預期。不過,我們的研發團隊表現出色,產品本身也具備病毒式傳播特質,這是成功的基礎。
Jacob Effron:把 Sora 作為獨立應用的想法是什么時候產生的?
Bill Peebles:項目初期并沒有明確規劃,開始想要將 Sora 獨立出來是因為之前推出的 ImageGen 效果很超預期,這種體驗讓我們決定把 Sora 獨立。
雖然將不同產品界面合并這件事并不難,但目前 ChatGPT 還是保留了它的今天的“單人特點”,因為 ChatGPT 這種模式下用戶在 ChatGPT 里的創作和交互不一定希望被公開,我們也不希望讓用戶因此產生顧慮。
Jacob Effron:Sora 從最初的想法到現在的成熟,經歷了怎樣的演變?你們是如何逐步開發出這些 prototype 的?
Thomas Dimson:我一直在思考“社交”在 AI 領域的意義,也做過很多原型探索。
ImageGen 發布前,我們曾在 ChatGPT 內部測試 social media stream 功能,想探索社交與 ChatGPT 的結合點。測試中出現了很多 Reddit threads 類似的交互形態,比如有人上傳圖片后,其他人會陸續提出修改需求,讓圖片不斷演變。這種動態變化讓我意識到這是 GenAI 獨有的創作方式,因為人工很難完成這類即興的創意生成。
在這個過程中伴隨著 Sora 模型不斷完善,我們覺得可以基于這類交互把 Spra 推向大規模應用,因為圖像生成雖然效果同樣很驚艷,但在部分場景下,尤其是社交場景中,視頻的表現力要更震撼。
Bill Peebles:我們其實沒有預料到 Cameos 會成為核心亮點。直到有一天,我們團隊的工程師 Bobo 想玩一玩,便在 Slack 發起請求,收集成員含“嘿,Sora,我是 XX。嘿,Sora,讓我活過來”話術的視頻并上傳后臺,并進行人物標記功能。這一現象起初不顯眼,直至幾天后大家發現動態全是 Cameos 內容,我們才意識到該功能的強大吸引力。
Cameos 是 Sora 2 推出的“真人出鏡”功能,它允許用戶通過錄制驗證視頻,將自己的面部、體型、聲音特征提取并融合到 AI 生成的任意場景中,實現“真人演員+虛擬場景“的混合視頻生成。
Jacob Effron:開發 consumer 應用最有趣的點在于用戶總會用我們意想不到的方式去使用。Sora 有沒有遇到過這樣的情況?
Thomas Dimson:當然。舉個例子,有個簡單的小視頻被翻拍了很多次 —— 內容是一個孩子拆圣誕禮物,結果拆出的是 Bill Peebles 的動作人偶,而且這個人偶和 Bill Peebles 本人幾乎一模一樣。僅憑幾個數字,模型就能呈現出這個人偶,把觀看者帶入一個完全陌生的場景。
我每天刷動態時,總能看到類似的作品,有的是黏土動畫形式,有的是電子游戲主題,雖然表現形式不同,但核心技術是一樣的。
但我覺得現在大家的創意還遠沒把 Sora 的潛力挖透。比如是不是可以把 LucasArts adventure(注:1986年發行的一個經典冒險游戲)里的換成 你的信息或者別人的 Camoes,肯定會很有趣。所以未來更多更新的創意肯定會源源不斷。
Rohan Sahai:Storyboard 功能可以生成長達 25 秒的片段,這才是質量標準真正實現飛躍的時刻。這個模型一次生成就能產出這么連貫的故事,哪怕在 Sora 1 上試上百次,也很難達到這種效果。這在 Sora 2 里算得上革命性突破,也充分體現了智能水平的提升。
Storyboard 是 Sora 2 推出的“將自然語言轉化成視頻”功能,它能自動將創作者的敘事內容或腳本轉化為連貫的視覺場景,并且每個場景都具備逼真的景深、風格與基調。
Jacob Effron: Sora 剛發布時,Stratechery 的 Ben Thompson 寫過一篇文章表示質疑 ,認為基于其他現有產品來看大多數用戶只想消費內容、不愿創作,但后來他改變了態度。怎么看待這一變化?你覺得 Sora 創作熱度能持續下去嗎?
Rohan Sahai:我們從一開始設計這款應用時,就把創作功能當作核心,這是我們最初的核心假設。
現有的社交媒體平臺確實不錯,但用戶在其中獲得的樂趣通常來自內容消費而不是創作,連續不斷的刷屏對用戶來說也并不好事,所以我們其實很想解決今天算法推薦帶來的問題。
最關鍵的突破還是 Cameos 功能。Cameos 真正給生成內容賦予了個性化溫度,讓內容有了人性化特質,這是單純的文本轉視頻或簡單模型提示做不到的。