對(duì)具身智能而言,開(kāi)發(fā)環(huán)境感知和理解是核心能力。視覺(jué)感知作為機(jī)器和物理世界交互的基礎(chǔ),自Transformer架構(gòu)誕生后,視覺(jué)模型與之結(jié)合、走上一條“從小變大,從N變1”之路,帶來(lái)了全場(chǎng)景視覺(jué)感知能力的提升,為技術(shù)落地拓寬空間。
11月22日,2024 IDEA大會(huì)在深舉辦,IDEA研究院現(xiàn)場(chǎng)發(fā)布了最新的DINO-X通用視覺(jué)大模型,它具備物體級(jí)別理解能力,無(wú)需用戶提示,即可實(shí)現(xiàn)對(duì)開(kāi)放世界(Open-world)目標(biāo)檢測(cè);同時(shí)還推出行業(yè)平臺(tái)架構(gòu),通過(guò)大模型基座結(jié)合通用識(shí)別技術(shù)結(jié)合,實(shí)現(xiàn)模型不需重新訓(xùn)練就可邊用邊學(xué),以支持多種應(yīng)用需求。
以具身智能為代表新一輪落地浪潮中,技術(shù)路徑更強(qiáng)調(diào)泛化性,追求現(xiàn)實(shí)場(chǎng)景適配。會(huì)上,IDEA研究院宣布達(dá)成了三大合作:與騰訊,在深圳福田區(qū)、河套深港科技創(chuàng)新合作區(qū)落地建設(shè)福田實(shí)驗(yàn)室,聚焦人居環(huán)境具身智能技術(shù);與美團(tuán),探索無(wú)人機(jī)視覺(jué)智能技術(shù);與比亞迪,拓展工業(yè)化機(jī)器人智能應(yīng)用。
IDEA研究院創(chuàng)院理事長(zhǎng)、美國(guó)國(guó)家工程院外籍院士沈向洋
此前,機(jī)器人已進(jìn)入工廠制造、汽車生產(chǎn)車間、物流倉(cāng)儲(chǔ)碼頭等場(chǎng)景,可在半結(jié)構(gòu)化領(lǐng)域中完成基礎(chǔ)性工作,但仍缺乏對(duì)真實(shí)場(chǎng)景的認(rèn)知能力,應(yīng)用空間局限;比如住宅區(qū)域地面車輛的物流配送,需要克服復(fù)雜的地面環(huán)境。
IDEA研究院計(jì)算機(jī)視覺(jué)與機(jī)器人研究中心負(fù)責(zé)人張磊就指出,“機(jī)器人有不同的形態(tài),有雙臂機(jī)器人、移動(dòng)機(jī)器人,如果移動(dòng)機(jī)器人分室內(nèi)、室外,室外更像是無(wú)人駕駛,需要面對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化的道路環(huán)境,高速公路更結(jié)構(gòu)化,進(jìn)到城市再到小巷,面對(duì)的問(wèn)題更復(fù)雜。”
而AI大模型的到來(lái),大幅度提升了機(jī)器人認(rèn)知和決策能力。騰訊Robotics X實(shí)驗(yàn)室智能體中心負(fù)責(zé)人韓磊表示,“語(yǔ)言作為人類知識(shí)或是思維的高度抽象,符號(hào)化的語(yǔ)言可進(jìn)行長(zhǎng)期且慢速的高維思考。而機(jī)器人是站在第一人稱視角看待這個(gè)世界的Agent,所以首要的是從視覺(jué)理解這個(gè)世界。”
《從視覺(jué)到行動(dòng):具身智能的挑戰(zhàn)和機(jī)遇》圓桌
當(dāng)機(jī)器人進(jìn)行運(yùn)動(dòng)時(shí),一個(gè)紙盒子的折疊、向某一方向的行進(jìn),往往難以用簡(jiǎn)單的語(yǔ)言進(jìn)行步驟描述,而有了多模態(tài)加入后,融合物理世界認(rèn)知的具身智能可以有效增強(qiáng)機(jī)器人對(duì)世界的理解角度。
在落地方面,美團(tuán)副總裁兼無(wú)人機(jī)業(yè)務(wù)部負(fù)責(zé)人毛一年認(rèn)為,機(jī)器人首要的應(yīng)用場(chǎng)景,應(yīng)該以人類的高風(fēng)險(xiǎn)任務(wù)作為切入點(diǎn),如上山巡檢、 深海檢測(cè)、油田鉆井、高樓清潔等,“隨著全身控制、行動(dòng)控制、手、視觸協(xié)同,從小場(chǎng)景做進(jìn)去、用起來(lái),用戶不會(huì)說(shuō)它好,也不會(huì)罵它,不會(huì)一腳把它清出去。我們希望看到它不砸鍋,這件事很重要。”
IDEA大會(huì)上,IDEA研究院創(chuàng)院理事長(zhǎng)、美國(guó)國(guó)家工程院外籍院士沈向洋指出,在技術(shù)大爆發(fā)時(shí)期開(kāi)展創(chuàng)新,對(duì)技術(shù)的深度理解尤為重要。而“深圳是一座用迭代軟件的速度迭代硬件的城市。”
除上述提及的福田實(shí)驗(yàn)室外,IDEA與前海深港合作區(qū)共建IDEA前海創(chuàng)新院,與深圳龍崗區(qū)合作建設(shè)IDEA低空經(jīng)濟(jì)分院,與橫琴粵澳深度合作區(qū)共建IDEA-橫琴數(shù)字技術(shù)及人工智能測(cè)評(píng)中心。初創(chuàng)生態(tài)方面,IDEA也孵化有識(shí)淵科技、AI玩伴機(jī)器人愛(ài)小伴、GPU加速電影工業(yè)渲染器Smaray慧光追等生態(tài)企業(yè)。