新智元報道
編輯:KingHZ 英智
【新智元導(dǎo)讀】2025年,ChatGPT依舊領(lǐng)跑,但DeepSeek、Qwen等開源勁敵正加速追趕。從「推理革命」爆發(fā)到 DeepSeek開源,一場圍繞算力、架構(gòu)與生態(tài)的戰(zhàn)爭已悄然打響,開源勢力正以星星之火之勢挑戰(zhàn)閉源巨頭。
2025年,AI江湖風云再起!
第一季度過去了,OpenAI仍然處于全球領(lǐng)先地位。
但其他公司正在迅速追趕,尤其是國內(nèi)開源AI模型緊追不舍,且接近頂尖水平。
獨立機構(gòu)Artificial Analysis,發(fā)布了2025年第一季度AI報告,總結(jié)了六大趨勢,涵蓋技術(shù)突破與市場格局演變。
報告亮點如下:
過去兩年中,GPT-4級別推理成本下降了1000倍。
三大驅(qū)動力引發(fā)AI成本革命:更小的模型、推理優(yōu)化和新一代硬件。
目前,智商天花板全是推理模型,但非推理模型還是性價比之王。
現(xiàn)在的AI能自主瀏覽代碼庫、創(chuàng)建文件、寫代碼、跑測試,不止補全代碼。
多模態(tài)和智能體讓AI從「單一工具」變成「全能助手」,離日常生活越來越近。
根據(jù)Artificial Analysis的官方分析,2025年初的AI有六大定義性結(jié)論:
1.前沿AI競賽持續(xù)升溫:頂級實驗室正以每8-12周的速度推出新模型。
OpenAI仍處于領(lǐng)先地位;在其身后,不僅有谷歌和Anthropic等傳統(tǒng)挑戰(zhàn)者,xAI、DeepSeek和阿里也已加入,形成了緊密的追趕梯隊。
2.推理模型投入實際應(yīng)用:那些「先思考后回答」的模型,犧牲了一定的速度和成本,換取了更高的智能水平,使用的token數(shù)量和成本是非推理模型的10倍左右。
3.MoE模型已無處不在:混合專家模型(MoE)在為每個生成的token進行計算時,僅激活其總參數(shù)不到10%。目前,大多數(shù)頂級的開源權(quán)重模型均采用了MoE架構(gòu)。
4.中國頂級實驗室差距顯著縮小:DeepSeek等中國公司正紛紛推出極具競爭力的模型,并常常選擇公開模型權(quán)重。
5.AI智能體走向?qū)嵱没?/strong>:由LLM驅(qū)動、能自主行動并使用工具端到端完成任務(wù)的系統(tǒng),正開始在實際工作中顯現(xiàn)成效。新興的AI智能體類別包括編程智能體、深度研究智能體(Deep Research Agent)以及計算機輔助使用智能體。
6.大語言模型原生支持多模態(tài):大語言模型如今的輸出已遠不止于文本。GPT-4o目前在圖像生成方面獨占鰲頭,同時各類語音到語音(Speech to Speech)模型也已相繼問世。
AI大洗牌
推理模型稱王
2024年末,OpenAI利用大規(guī)模強化學(xué)習(xí)訓(xùn)練的推理模型o1,將性能差距徹底拉開,顛覆了全球AI格局。
OpenAI全球領(lǐng)先,但競爭對手緊追不舍
如今,Llama Nemotron Ultra、Qwen3等開源模型,已成燎原之勢。
私有模型和開源模型的差距變化
推理模型能夠逐步拆解任務(wù)、自我校驗,尤其在復(fù)雜問題如數(shù)學(xué)推理、研究輔助中表現(xiàn)出明顯優(yōu)勢。
比如,Gemini 2.5 Pro遇到問題會先拆解步驟、自我糾錯,像解數(shù)學(xué)題一樣一步步來,雖然花21秒,輸出1967個token,但答案準;而非推理模型(如GPT-4o)4秒輸出185個token,結(jié)果答錯了。
可以看到,在目前的Artificial Analysis智能指數(shù)中,最聰明的全是推理模型。
其中,o4-mini(high)排名第一,谷歌Gemini 2.5 Pro和Grok 3緊隨其后。
開源模型(如DeepSeek R1、Qwen 3、Llama 3.1)性能雖然落后閉源模型,但兩者非常接近。
「高情商」的推理模型,背后是高成本:要達到相同的性能,推理模型要使用非推理模型10倍以上的輸出token!
盡管在效率方面取得了顯著進展,推理速度比過去更快,但推理模型和智能體應(yīng)用每次請求生成的token是過去一年平均水平的10多倍。
綜合下來,用戶反而要等待更長的時間。
LLM輸出速度變化
非推理模型也沒被淘汰,需要快速響應(yīng)或省錢的場景,還是性價比之王。
開發(fā)者不能僅看單token定價,還需綜合考慮token總使用量,才能準確評估推理成本。
實際上,如今的頂級AI模型參數(shù)規(guī)模更大,每次請求需要的token數(shù)總更多,現(xiàn)在的AI應(yīng)用需要更多的算力。
因此,最新的模型開始探索如何在智能和成本之間取得平衡。
其中,最引人注目的進展來自架構(gòu)上的權(quán)衡優(yōu)化。
Epoch AI對每種算法進步的計算等效增益的估計
混合專家
省錢又提速
DeepSeek-V3的混合專家(MoE)架構(gòu),如今已無處不在。
DeepSeek-V3基本架構(gòu)
傳統(tǒng)模型像全科醫(yī)生,不管啥問題都調(diào)動全部知識;MoE像專科門診,遇到不同問題找對應(yīng)的專家(激活部分參數(shù))。
如果說全連接模型是「廣撒網(wǎng)捕魚」,MoE則是「精準出擊」,不僅能減少參數(shù)激活量,還大幅提升推理效率。
近期開源的前沿模型越來越多地使用MoE架構(gòu),每次輸入僅激活部分參數(shù)。
前沿模型采用更稀疏的MoE設(shè)計,僅激活不到10%總參數(shù),早期模型通常激活約25%的參數(shù)。
在推理和訓(xùn)練上,參數(shù)規(guī)模相同的MoE模型比稠密模型更高效。
此外,英偉達是算力領(lǐng)導(dǎo)者,Cerebras、SambaNova、Groq這些新玩家將「芯片+云服務(wù)」打包賣,通過垂直整合提供高性能推理,輸出速度更快。
但開發(fā)者需要在性能、成本和上下文窗口之間權(quán)衡。
雖然服務(wù)速度更快,但這些芯片新玩家有時比其他服務(wù)商價格更貴,且上下文窗口更短。
智能體
自主干活的「虛擬員工」
智能體是2025年AI領(lǐng)域的重要趨勢。
憑借LLM的推理能力,通過高效的工具使用和自主流程管理,大幅提升了任務(wù)完成的效率和智能化水平。
它們能自主完成復(fù)雜任務(wù),尤其是編程、深度研究、操作計算機和客戶支持。
從自動補全(2021年)到現(xiàn)在能自主瀏覽代碼庫、創(chuàng)建文件,比如讓它搭個OAuth認證系統(tǒng),它能自己寫代碼、跑測試,還能告訴你改了哪些文件。
比如問「AI對就業(yè)的影響」,它會自己拆分問題、查資料、整合答案。還能批量處理表格,打工人看了想流淚。
原生多模態(tài)
圖像、視頻、語音全面升級
OpenAI的GPT-4o畫出的圖又逼真又貼合需求。
字節(jié)跳動的Seedream 3.0、MiniMax的HiDream-I1-Dev一發(fā)布就沖進第一梯隊。
以前OpenAI的Sora是視頻界扛把子,現(xiàn)在谷歌Veo 3超越了它,MiniMax和快手也推出了能追上Sora的模型。
ElevenLabs的Scribe模型把語音轉(zhuǎn)文字的錯誤率降到8%,比OpenAI的Whisper還準;文本轉(zhuǎn)語音也更像真人了。
大型科技公司持續(xù)在所有領(lǐng)域全面發(fā)展,而較小的競爭者通常專注于特定的AI領(lǐng)域。
谷歌是AI價值鏈中垂直整合度最高的企業(yè)(從TPU加速器到Gemini模型);NVIDIA、微軟、亞馬遜等在硬件、云推理和應(yīng)用層各有側(cè)重。
未來AI會怎么發(fā)展?大概率會更全能、更聰明,也更接地氣。
說不定下次開會,你的會議紀要就是AI智能體幫忙寫的。
開源
大勢所趨
隨著越來越多的企業(yè)在業(yè)務(wù)中構(gòu)建和部署AI驅(qū)動型解決方案,日益豐富的開源技術(shù)正成為首選,包括Meta的Llama系列、谷歌Gemma系列、艾倫人工智能研究所Ai2的OLMo系列、英偉達的NeMo系列、DeepSeek-R1等眾多選擇。
Mozilla基金會等機構(gòu)聯(lián)合開展了一項開創(chuàng)性調(diào)研,覆蓋41個國家700多位技術(shù)負責人和資深開發(fā)者。
調(diào)研結(jié)果顯示,企業(yè)在AI工具選擇上日益偏向開源方案:
總體而言,超過四分之三的受訪者預(yù)計他們的組織將在未來幾年內(nèi)增加對開源人工智能技術(shù)的使用。
這在一定程度上得益于開源工具在企業(yè)軟件生態(tài)中的活躍表現(xiàn),且長期以來始終是開發(fā)者社區(qū)的基礎(chǔ)資源。
在Sequoia合伙人Lauren Reeder主持的一場圓桌討論,揭示了關(guān)于開源AI模型當前狀況和未來趨勢的諸多關(guān)鍵見解。
目前在OpenRouter平臺上運行的推理任務(wù)中,只有大約20%-30%使用的是開源模型。盡管如此,與會者對未來的增長充滿信心。
本月OpenRouter的token使用總量排行榜
當被問及五年后開源與閉源模型在推理任務(wù)中的占比預(yù)估時,Jeffrey和Dmytro認為開源AI將和閉源AI分庭抗禮。
Jeffrey預(yù)測開源與閉源將各占一半,但也提到可以在開源與閉源模型之間智能切換的技術(shù)。
Dmytro也傾向于50/50的預(yù)測,但他指出開源生態(tài)將更加多樣化:「閉源可能仍由少數(shù)幾家主導(dǎo)……而開源則不會只有一個模型,會是更多的模型家族、微調(diào)版本和定制化方案。」
獨立機構(gòu)Artificial Analysis最近的報告,也印證類似的AI發(fā)展趨勢。
Artificial Analysis認為雖然閉源推理模型整體上領(lǐng)先,但開源模型和閉源模型與2022年相比,差距已經(jīng)變小。
而在非推理模型方面,開源模型反而比閉源的商用模型更具優(yōu)勢。
特別是國產(chǎn)開源AI模型,已經(jīng)成為一股不容忽視的力量。
參考資料:
https://x.com/ArtificialAnlys/status/1924845419315777572
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.