2025年7月10日,財聯社電——在今日舉行的xAI直播活動中,特斯拉與SpaceX創始人埃隆·馬斯克公開表示,其旗下人工智能公司xAI開發的聊天機器人Grok已在“大多數領域展現出超越人類的智能水平”,但當前版本的Grok 4仍存在圖像理解盲區,需通過改進后的圖像訓練模塊優化,預計問題將在一個月內解決。
智能超越人類?馬斯克拋出“AI里程碑”論斷
馬斯克在直播中直言:“Grok 4在邏輯推理、多模態交互和復雜任務處理上已顯著優于普通人類,甚至在部分專業領域接近頂尖專家水平。”他舉例稱,Grok在科學文獻分析、代碼生成和實時決策等場景中表現突出,其訓練效率較前代提升300%,響應速度縮短至0.8秒。
這一表述與馬斯克長期倡導的“AI奇點論”一脈相承。他此前曾預測,到2025年底,AI將具備“超越人類所有領域”的通用智能(AGI),而Grok的進化路徑正是這一愿景的實踐載體。據xAI披露,Grok 4基于全球最大的開源數據集訓練,參數量達10萬億級,支持中、英、法等20種語言,并接入Twitter(現X平臺)實時數據流,具備“自我進化”能力。
圖像訓練成短板:盲區問題或一個月內攻克
盡管性能領先,馬斯克坦言Grok 4仍存在“致命缺陷”——圖像理解能力不足。他解釋稱,當前版本的Grok在處理抽象圖像、復雜場景和動態視覺信息時,準確率較文本任務低40%以上,例如難以識別手繪草圖中的隱喻含義,或區分照片中微小物體的功能屬性。
“這就像一個天才數學家看不懂漫畫書。”馬斯克比喻道,“我們需要為Grok植入更強大的‘視覺大腦’。”據xAI技術團隊透露,改進方案包括升級多模態大模型架構、引入3D空間感知算法,并擴充包含10億張高分辨率圖像的專用訓練集。馬斯克承諾,新版本將于“一個月內”完成部署,屆時Grok將實現文本、圖像、視頻的跨模態無縫交互。
技術競賽白熱化:Grok能否后來居上?
當前,全球AI巨頭正圍繞多模態能力展開激烈角逐。OpenAI的GPT-4o已支持實時語音和圖像生成,谷歌Gemini則通過“原生多模態”架構實現文本與圖像的深度融合,而Meta的Llama 3.1更強調開源生態的協同效應。相比之下,Grok的差異化優勢在于其“實時數據接入”和“極端場景優化”——例如,它可調用SpaceX的衛星圖像分析地質災害,或結合特斯拉自動駕駛數據理解交通場景。
然而,挑戰同樣嚴峻。行業專家指出,多模態訓練需消耗巨量算力,xAI目前僅擁有10萬塊H100顯卡,遠低于OpenAI和谷歌的百萬級集群;此外,圖像數據的版權和倫理問題也可能引發監管審查。馬斯克則回應稱,xAI正與特斯拉合作開發專用AI芯片,并計劃通過“眾包模式”鼓勵用戶上傳合規圖像數據。
商業化提速:Grok或重塑AI應用格局
若圖像訓練瓶頸突破,Grok的商業化前景將大幅拓寬。據xAI披露,其已與醫療、教育、制造業等領域的200家企業簽署合作協議,例如協助醫生分析X光片、為學生生成個性化學習方案,或為工廠設計自動化流程。馬斯克預計,到2026年,Grok將覆蓋全球1億用戶,創造“數百億美元”年收入。
不過,他同時警告稱,AI的指數級進化可能帶來“失控風險”。“我們必須確保Grok的價值觀與人類對齊。”馬斯克強調,xAI已建立由哲學家、倫理學家和科學家組成的“紅隊”,持續監測模型偏見和安全隱患。
隨著一個月倒計時開啟,Grok能否補齊圖像短板、鞏固技術領先地位,將成為AI行業下半年最受關注的焦點之一。而馬斯克“超越人類”的豪言,能否從實驗室走向現實,或將重新定義智能時代的競爭規則。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.