如何建立一個足以控制超級智能并使其為人類服務(wù)的技術(shù)治理體制,同時使其成為國家治理體系的有機組成部分,同樣需要人們在未來找到確切的答案
◆ “大世界模型”之所以引發(fā)關(guān)注,在于其直接面對了當前人工智能的一個關(guān)鍵難點:如何令A(yù)I認識和理解世界
◆ 當前,智能體研究的兩大領(lǐng)域——強化學(xué)習(xí)與機器人——都在關(guān)注一個關(guān)鍵問題:如何形成一個足夠準確的“世界模型”
文 | 譚笑間
2024年,人們看到了Sora、Germini、GPT-4o等新的大模型問世,國產(chǎn)大模型也在技術(shù)水平上不斷接近OpenAI。雖然過去一年并未等來GPT-5這樣的重磅產(chǎn)品,但人工智能(AI)的應(yīng)用仍在不斷加速演進,呈現(xiàn)百花齊放之勢。2025年,通用人工智能之后的新紅線、具身智能和大世界模型的研發(fā),將獲得各方更多的關(guān)注。

浙江省寧波市江北區(qū)甬港幼兒園的孩子們在科普活動現(xiàn)場近距離觀察人形機器人(2025年1月2日攝)江漢攝/本刊
超級人工智能:
通用人工智能之后的新紅線
2024年9月,OpenAI總裁薩姆·奧爾特曼在以自己名字命名的網(wǎng)站上發(fā)表了一篇隨筆性質(zhì)的文章《智能時代》,認為超級人工智能(ASI)可能會在幾千天或更長時間內(nèi)到來。一時間,關(guān)于什么是超級智能及其與此前廣泛討論的通用人工智能(AGI)的區(qū)別,引發(fā)了各方討論。
被提到最多的,莫過于牛津大學(xué)哲學(xué)家尼克·博斯特羅姆的專著《超級智能:路徑、危險、策略》中的定義——“在幾乎所有人類感興趣的領(lǐng)域都大大超過人類認知能力的智能體”。該書曾在2014年《紐約時報》最暢銷科普書籍榜單上排名第17位,其封面上畫著一只大大的貓頭鷹。據(jù)博斯特羅姆解釋,“貓頭鷹”的意象來自一則歐洲寓言,雖然年代久遠,卻生動地映照著當前人類面對ASI時的兩難處境:“一只麻雀找到一個貓頭鷹蛋,將它帶回麻雀一家共同棲息的巢,想讓長大后的貓頭鷹幫它們筑巢并抵御外敵。麻雀們意見不一:有的認為應(yīng)當先考慮好如何不讓長大后的貓頭鷹吃掉它們,否則便不應(yīng)將它養(yǎng)大;有的則認為不把貓頭鷹養(yǎng)大便永遠無法知道馴服它的方法。”
這則寓言并未給出麻雀一家的結(jié)局,而今人類正如故事里的麻雀一家一樣,無法確定自身在面對知識儲備、認知能力和反應(yīng)速度均大大超過人類的ASI時,是否有辦法控制其不對人類造成危害。
從過去一年全球各界的討論來看,將ASI代替AGI作為劃定人工智能給人類帶來存亡危機的紅線,已經(jīng)在一定程度上成為新共識。
一方面,學(xué)界在不斷反思當前人工智能安全的紅線是否設(shè)置得過低。在2022年的一項針對AI領(lǐng)域?qū)I(yè)人士的問卷調(diào)查中,受訪者認為出現(xiàn)超級智能的中位年份(即有50%的可能性出現(xiàn)在該年)可能在2061年左右,顯示ASI可能不會馬上到來。與此同時,大模型的推廣速度超乎預(yù)期。當前大模型不僅可以對圖片、音視頻等做出擬人反應(yīng),而且可以通過自發(fā)的分析和推理幫助人完成種類繁多的在線任務(wù)。盡管各方未能就大模型是否應(yīng)當被認為是AGI達成共識,但從定義的出發(fā)點來看,一個能夠完成多種任務(wù)的智能體,若其智能水平基本與人類相當,則未必會擁有足以威脅到全人類的能力。故此,使人工智能安全的紅線由AGI提升至ASI,更有利于學(xué)者們保持自身理論的說服力。
另一方面,現(xiàn)實中監(jiān)管部門對人工智能安全威脅的反應(yīng),以及歐美民間不斷高漲的“停止GPT-5”等反人工智能的呼聲,正使AI企業(yè)在西方國家面臨逆水行舟的窘境。為了應(yīng)對監(jiān)管、安撫歐美民眾,AI企業(yè)推廣新的安全概念與標準,將人工智能造成威脅的紅線由AGI提高到ASI,就成為心照不宣的選擇。
然而,紅線的提高并不意味著風險不復(fù)存在。如何建立一個足以控制超級智能并使其為人類服務(wù)的技術(shù)治理體制,同時使其成為國家治理體系的有機組成部分,同樣需要人們在未來找到確切的答案。
具身智能:
語言模型之外的路徑
具身智能(Embodied AI),是一種將AI融入機器人等物理實體的AI技術(shù),目的是使其具備從環(huán)境中感知和學(xué)習(xí)并與環(huán)境進行動態(tài)交互的能力。該概念首次出現(xiàn)在1991年羅德尼·布魯克斯發(fā)表的論文《無需表征的智能》中,其主要觀點是:智能行為可以直接從自主機器與環(huán)境的簡單物理交互中產(chǎn)生,而無需復(fù)雜的算法或內(nèi)部表征。
具身智能不只是“AI+機器人”,如果對具身智能的理解僅限于給AI一副身體,那么就會忽視其與語言模型的不同。
第一,具身智能相對于語言模型包含的智能范疇更廣。生活中人們或多或少有過想要傳達的“意”難以用“言”來表達的體驗。從智能的范疇來看,智能經(jīng)由語言表達出的部分,僅占所有智能的一小部分。因此,具身智能相對于語言模型,在理論上就具有得天獨厚的優(yōu)勢。
第二,具身智能的智能獲取方式更接近于人類。譬如,人類的智能主要來源于自身通過雙眼、雙手及其他器官習(xí)得的經(jīng)驗,以及人類在傳承進化過程中不斷積累形成的生物本能。在漫長的進化過程中,人類與環(huán)境互動所產(chǎn)生的信息之多,遠遠超出人類迄今為止用語言記載的一切。相比于語言模型只讀取文字,具身智能可使智能體通過與人基本相同的感官來感知外界,其發(fā)展出的智能在理論上具有同人類智能更為相似的特點。
第三,具身智能更為接近智能發(fā)展的終極目標。近年來已有不少AI領(lǐng)域的學(xué)者指出,語言模型并非AI的終極發(fā)展方向,充其量只是一個階段性成果。由于語言模型只能通過學(xué)習(xí)人類的語言文字材料來獲取智能,其輸出的結(jié)果,究竟應(yīng)當算作對人類語言的模仿,還是實實在在的來自機器智能的“思考”,學(xué)界尚無定論。無論如何,大模型都無法繞開人類語言這一中介,其即使從中獲得了智能,也只是一鱗半爪,存在著較為明顯的上限。
當然,具身智能目前也面臨著尚待突破的難題。
一方面,具身智能要通過與現(xiàn)實環(huán)境的互動來獲取智能,但即使一個理論上能夠完美感知周遭世界并進行無監(jiān)督學(xué)習(xí)的具身智能,也面臨著學(xué)習(xí)效率受環(huán)境制約的問題,對于當前零樣本學(xué)習(xí)能力尚不完備的具身智能來說,這將大大限制其發(fā)展速度。
另一方面,以仿真環(huán)境為依托的具身智能雖然能夠藉由計算機仿真出的環(huán)境來進行非實時的高速訓(xùn)練,但面臨著仿真環(huán)境無法完全“還原”現(xiàn)實世界的問題,導(dǎo)致該智能體難以在現(xiàn)實環(huán)境中實用化,也難以在短時間內(nèi)積累出如同大模型訓(xùn)練語料庫那樣的大規(guī)模數(shù)據(jù)集。
如何解決上述難題,將是具身智能未來發(fā)展的關(guān)鍵。