一、發布即引爆:AI界的“屠榜時刻”
2025年11月19日,谷歌DeepMind正式發布Gemini3模型,以“全球最智能模型”的定位攪動行業格局。發布當日,該模型便以1501分的Elo評分登頂LMArena大模型競技場,同時斬獲WebDev競技場1487分的桂冠,被網友稱為“屠榜式碾壓”。更罕見的是,OpenAICEO薩姆?阿爾特曼發推稱“看起來很不錯”,馬斯克也轉發點贊“干得不錯”,競爭對手的公開認可更凸顯其影響力。
作為谷歌首款發布即接入搜索功能的模型,Gemini3已同步落地Gemini應用、GoogleAIPro訂閱服務及VertexAI企業平臺,開發者可通過Antigravity平臺調用其能力。在微博“谷歌Gemini3發布”話題下,相關討論量快速突破300萬,技術博主@AI前線拆解的“3D游戲生成演示”視頻播放量超500萬,網友熱議“AI真能把想法變現實了”。
二、性能拆解:1501分背后的三大技術支柱
Gemini3的“最智能”定位,根植于三大硬核技術突破,且均有權威測試數據支撐。
原生多模態架構是其核心競爭力。與拼接式多模態模型不同,Gemini3從底層實現文字、圖像、音頻的同步處理,在MMMU-Pro多模態測試中獲81%得分,Video-MMMU測試更是達到87.6%。實際場景中,它能解讀手寫食譜并生成可視化教程,分析匹克球比賽視頻后制定訓練計劃,甚至同步處理學術論文與配套講座視頻,生成交互式學習工具。
百萬級token上下文窗口依托谷歌TPU訓練集群實現。這一能力讓模型可處理超長文本與復雜任務:在Vending-Bench2模擬測試中,它能維持一整年的自動售貨機運營決策連貫性;開發者借助其可一次性解析整份軟件開發文檔,直接生成端到端代碼。對比前代模型,其上下文處理能力提升近10倍,為長周期項目提供可能。
“氛圍編程”與深度推理能力重構開發范式。該模型在SWE-benchVerified編程測試中表現遠超Gemini2.5Pro,能自主規劃航班追蹤應用開發流程,從代碼編寫到瀏覽器驗證全程自動化。在“人類終極測試”中,其深度思考模式得分達41.0%,GPQA鉆石級測試更是斬獲93.8%的高分,展現出博士級問題解決能力。
三、機遇與爭議:AI軍備競賽再升級
Gemini3的發布標志著AI競爭進入新階段,但爭議與挑戰并存。谷歌CEO皮查伊“讓想法變現實”的承諾引發期待,但其商業變現路徑尚未明確——目前僅向付費訂閱用戶開放核心功能,企業級服務定價未公布,被業內質疑“技術領先但商業化滯后”。
模型“減少奉承”的交互風格成為討論焦點。測試顯示,面對模糊問題時,它會直接提示“信息不足無法解答”,而非生成模棱兩可的內容,這種嚴謹性獲科研人員認可,但也有用戶反饋“缺乏人性化溫度”。谷歌回應稱,這是為平衡準確性與交互性做出的選擇,未來將推出風格自定義功能。
對行業而言,Gemini3的突破加劇了軍備競賽。微軟已緊急宣布GPT-5測試版提速,Anthropic也透露Claude5將強化長上下文能力。中國科學院自動化研究所研究員王亮指出:“1501分的高分是重要里程碑,但AI的終極價值仍需在產業落地中驗證。”目前,Gemini3已在核聚變研究、3D開發等領域展開試點,其實際效能有待時間檢驗。