AI 能動性的時代要求系統不僅能思考,更要能干活:包括協同編程(人機協作開發)和自動化科學研究。LIMI 僅用 78 個樣本就超越 GPT-5 達 14.1%,并發現了能動性效率原則: AI 能動性不僅來源于數據豐富性,更來自于戰略性構建。
本文來自于上海創智學院和上海交大劉鵬飛老師團隊,團隊專注于構建最前沿 AI 系統。核心作者來自于香港理工大學,上海交通大學,以及中國科學技術大學。
從 ChatGPT 到 Claude,從 Codex 到 Claude Code,全球科技公司正在 "能動性" 領域展開激烈競爭。這一趨勢反映了產業界的關鍵認知:能動性能力正成為 AI 系統的核心競爭力,決定著 AI 能否從簡單的對話工具演進為真正的工作伙伴。具備能動性的 AI 系統將重新定義人機協作模式,成為推動各行各業智能化轉型的關鍵技術。
什么是 "能動性"?它是 AI 系統主動發現問題、制定假設,并通過與環境和工具的自主交互執行解決方案的能力。這種能力的重要性在于,它使 AI 從被動響應工具轉變為主動執行的智能助手,能夠獨立完成復雜的知識工作任務。例如,讓模型從零開始開發一個完整的五子棋游戲需要模型具備需求理解、架構設計、代碼實現、調試優化等完整的自主執行能力。這種協作編程場景代表了現代知識工作的典型需求,而具備這種能力的 AI 系統將能夠承擔大量現實世界的復雜任務
同樣,在科研工作流程中,模型需要完成從文獻調研到實驗設計,從數據分析到洞察生成的完整鏈路。能動性使 AI 能夠獨立推進科學研究進程,這對于加速科學發現具有重大意義。
能動性能力的培養難度遠超傳統 AI 能力,因為它要求模型具備長期規劃、多步推理、工具協調和自主糾錯等高階認知能力。當前主流方法普遍認為復雜的能動性能力需要大量訓練數據支撐,遵循傳統的規模化定律。這導致了資源密集型的訓練流程:收集數萬甚至數十萬個訓練樣本,消耗大量計算資源,但效果往往不盡如人意。
LIMI 的研究結果表明,僅使用 78 個復雜多輪交互軌跡樣本,模型就能在能動性基準測試 AgencyBench 上達到開源模型的最佳表現,還超越了 GPT-5 的性能。相比使用 10,000 個樣本訓練的模型,LIMI 實現了 53.7% 的性能提升,數據使用量卻僅為其 1/128。
