具身人工智能 (EAI) 將人工智能集成到機器人等物理實體中,賦予它們感知、學習和動態(tài)交互環(huán)境的能力。這篇文章簡要回顧了EAI的歷史,其當前發(fā)展,并討論了其未來前景。
1. EAI的早期基礎(chǔ)
1991年,Rodney Brooks在研究論文《沒有表征的智能》[1]中首次廣泛探討了EAI的概念,該論文提出了一個激進的觀點,即智能行為可以直接來自自主機器與其環(huán)境的簡單物理交互,而不需要復雜的算法或內(nèi)部表征。
1999年,羅爾夫·菲弗(Rolf Pfeifer)和克里斯蒂安·謝爾(Christian Scheier)撰寫了《理解智能》(Understanding Intelligence)一文,認為智能并不局限于大腦或某些算法,而是智能體整個身體結(jié)構(gòu)和功能的綜合表現(xiàn)[2]。根據(jù)這種觀點,作者反對傳統(tǒng)的以大腦或計算為中心的智力理解,強調(diào)身體對智力形成的根本影響。
琳達·史密斯(Linda Smith)從認知科學出發(fā),于2005年提出了“具身假說”,強調(diào)身體與環(huán)境的相互作用在認知過程中的核心作用[3]。根據(jù)具身假說,我們的思維、感知和能力是通過我們的身體和物理環(huán)境之間的持續(xù)相互作用而形成的。特別是,具身假說強調(diào)環(huán)境的基本作用,認為它不僅提供感官輸入,而且還參與形成身體行為和認知結(jié)構(gòu)。
這些基礎(chǔ)研究強調(diào)了開發(fā)EAI系統(tǒng)的三個原則。首先,EAI 系統(tǒng)不能依賴預定義的復雜邏輯來管理特定場景。其次,EAI系統(tǒng)必須納入進化學習機制,使其能夠不斷適應(yīng)其操作環(huán)境。最后,環(huán)境不僅在塑造身體行為方面起著舉足輕重的作用,而且在塑造認知結(jié)構(gòu)方面也起著舉足輕重的作用。
2. EAI的最新發(fā)展
大型語言模型(LLM)、視覺語言模型(VLM)等基礎(chǔ)模型的最新進展,以及ChatGPT等技術(shù)在人形機器人中的應(yīng)用[4],導致了一種普遍但不正確的信念,即EAI只是讓這些基礎(chǔ)模型在機器人中執(zhí)行推理任務(wù),以增強機器人的認知能力。
GPT-4、BERT、CLIP 和 DALL-E 等基礎(chǔ)模型增強了機器人解釋視覺和文本信息的能力,從而顯著改善了它們的感知能力。這些模型允許機器人通過理解更類似于人類交互的上下文、對象和指令來執(zhí)行復雜的任務(wù)[5]。此外,這些基礎(chǔ)模型確實滿足 EAI 系統(tǒng)設(shè)計的原則一,因此這些基礎(chǔ)模型的推理不依賴于預定義的邏輯來管理特定場景。
但是,僅靠這些基礎(chǔ)模型并不能概括 EAI 系統(tǒng)的全部要求。這些模型必須與進化學習框架集成,才能從它們與開放環(huán)境的物理交互中有效地學習。此外,我們需要開發(fā)一個虛擬環(huán)境來有效地與EAI系統(tǒng)進行交互,因為獲取真實世界的交互數(shù)據(jù)非常昂貴且效率低下[6]。
原則二的一個示范是開發(fā)深度進化強化學習(DERL)框架[7],該框架允許探索和測試各種智能體形態(tài)以應(yīng)對環(huán)境挑戰(zhàn),顯著增強智能體的形態(tài)和行為適應(yīng)性。此外,隨著新形態(tài)的出現(xiàn),新的數(shù)據(jù)也隨之而來,以提高基礎(chǔ)模型適應(yīng)新環(huán)境的能力。因此,除了利用基礎(chǔ)模型進行推理之外,建立有效的反饋循環(huán)也至關(guān)重要,該反饋循環(huán)有助于持續(xù)增強,使機器人能夠動態(tài)地適應(yīng)其操作環(huán)境。
有了擴展機器人認知能力的基礎(chǔ)模型,以及適應(yīng)新環(huán)境的進化學習框架,一個能夠有效模擬現(xiàn)實世界并與EAI系統(tǒng)交互的虛擬環(huán)境是滿足原則三的必要條件。最近的一個例子是 Habitat 平臺 [8],它通過提供高效、逼真的 3D 模擬環(huán)境來訓練虛擬機器人,從而促進了 EAI 的開發(fā)。Habitat 已在改進 EAI 系統(tǒng)方面得到證明,特別是在點目標導航等任務(wù)中,該平臺提供大規(guī)模、可擴展的培訓環(huán)境的能力可以顯著提高傳統(tǒng)方法的學習成果。
3. 未來展望
通過整合上述三個原則,我們可以構(gòu)建一個功能齊全的EAI系統(tǒng),能夠動態(tài)適應(yīng)不同的操作環(huán)境。自然而然的下一步是教機器人理解物理世界,例如重力的概念。我們相信,通過數(shù)據(jù)向機器人傳授物理定律是機器人在我們?nèi)粘I钪袕V泛采用的直接障礙。
盡管人工智能和機器人技術(shù)取得了重大進展,但目前的機器人系統(tǒng)仍然缺乏對物理世界的深刻、直觀的理解。研究表明,雖然機器人可以執(zhí)行某些任務(wù)或模仿人類行為的某些方面,但它們并不具有真正的類人理解[9]。這個問題可以通過生成與虛擬環(huán)境的精確物理交互數(shù)據(jù)來解決,并通過進化學習機制改進這些交互數(shù)據(jù)的基礎(chǔ)模型。
已經(jīng)探索了幾種方法來向機器人傳授物理定律。解決這個問題的一種方法是柏拉圖,它被提議通過觀看模擬視頻來學習物理,這些視頻描繪了物體根據(jù)物理定律相互作用[10]。該系統(tǒng)可以區(qū)分現(xiàn)實和荒謬的場景,例如物體消失或以不可能的方式執(zhí)行。通過用視頻訓練PLATO對象遵循可預測的物理定律,人工智能學會了預測和理解基本的物理概念,從而增強了其對物理世界的一般推理。
第二種方法探索生成神經(jīng)網(wǎng)絡(luò)如何學習物理概念,并將這些學習軌跡與兒童的學習軌跡進行比較[11]。該研究評估了關(guān)于發(fā)育過程的兩個假設(shè):隨機優(yōu)化和復雜性增加。研究發(fā)現(xiàn),雖然神經(jīng)網(wǎng)絡(luò)可以獲得廣泛的物理概念,但它們學習這些概念的順序與在兒童中觀察到的發(fā)展軌跡不一致。這種差異表明,盡管這些模型很復雜,但并不能完全捕捉到人類發(fā)展物理理解的微妙方式。
4. 結(jié)論
這篇文章追溯了 EAI 從其概念基礎(chǔ)到現(xiàn)代應(yīng)用和未來挑戰(zhàn)的演變。特別是,我們強調(diào)了開發(fā)EAI系統(tǒng)的三個原則。首先,EAI 系統(tǒng)不得應(yīng)用預定義的復雜邏輯來管理特定場景。其次,EAI系統(tǒng)需要結(jié)合進化的學習機制,以持續(xù)提供反饋。第三,交互數(shù)據(jù)生成需要與 EAI 系統(tǒng)交互的虛擬環(huán)境。最近的研究進展已經(jīng)分別滿足了這三個原則,但我們還沒有看到一個包含所有三個原則的完全商業(yè)運作的系統(tǒng)。當這樣的系統(tǒng)準備就緒時,一個迫在眉睫的挑戰(zhàn)是教EAI系統(tǒng)理解物理定律,以便它們在物理世界中順利運行。