網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

李飛飛團(tuán)隊(duì)發(fā)布《2025人工智能指數(shù)報(bào)告》中美大模型性能差距抹平

2025-04-14 17:00:12　來源: 至頂AI實(shí)驗(yàn)室

北京舉報(bào)

分享至

曾幾何時(shí)，中國(guó)的AI大模型普遍被認(rèn)為落后美國(guó)半年到一年，甚至一些悲觀主義者認(rèn)為時(shí)間或許更長(zhǎng)，更多的人認(rèn)為差距隨著時(shí)間還正在擴(kuò)大…

但實(shí)際上，中美頂級(jí)AI大模型的性能差距已經(jīng)縮至0.3個(gè)百分點(diǎn)，接近抹平。

這個(gè)論斷來自前不久AI教母李飛飛所領(lǐng)銜斯坦福大學(xué)人工智能研究中心（HAI）發(fā)布的《2025年AI指數(shù)報(bào)告》。

這份報(bào)告由斯坦福大學(xué)人機(jī)中心（HAI）所屬的AI Index團(tuán)隊(duì)在2025年4月正式發(fā)布，延續(xù)了自2017年開始編制的“人工智能一百年研究”項(xiàng)目（AI100）的傳統(tǒng)。報(bào)告覆蓋研究、經(jīng)濟(jì)、政策、教育、公眾態(tài)度等多維度內(nèi)容，也得到學(xué)術(shù)、產(chǎn)業(yè)與政府機(jī)構(gòu)的廣泛支持。其撰寫團(tuán)隊(duì)包括來自斯坦福大學(xué)、硅谷科技企業(yè)及國(guó)際組織的研究人員，并且在數(shù)據(jù)收集和分析方面與多家知名技術(shù)公司、咨詢機(jī)構(gòu)展開合作，獲得了來自學(xué)術(shù)基金、政府專項(xiàng)和產(chǎn)業(yè)贊助等多方資源支持。

細(xì)讀這份456頁(yè)的報(bào)告，我們發(fā)現(xiàn)機(jī)構(gòu)關(guān)鍵的轉(zhuǎn)折：傳統(tǒng)以算力堆砌為主導(dǎo)的發(fā)展模式正在發(fā)生質(zhì)變。

在技術(shù)性能層面，開源模型與閉源系統(tǒng)的差距已縮小至1.7%；在地緣格局上，中國(guó)模型的MMLU測(cè)試成績(jī)僅落后美國(guó)0.3個(gè)百分點(diǎn)；而在商業(yè)應(yīng)用端，推理成本在18個(gè)月內(nèi)驟降280倍。這些數(shù)據(jù)共同指向一個(gè)核心問題——當(dāng)技術(shù)紅利開始普惠化，人工智能的競(jìng)爭(zhēng)范式將轉(zhuǎn)向何處？

逆襲：從追隨到并跑

2025年AI指數(shù)報(bào)告揭示了研究與開發(fā)領(lǐng)域的顯著變革。產(chǎn)業(yè)界在AI模型開發(fā)中的主導(dǎo)地位進(jìn)一步鞏固，近90%的知名AI模型來自產(chǎn)業(yè)界，較2023年的60%有大幅提升。這一趨勢(shì)表明，隨著AI技術(shù)的商業(yè)價(jià)值日益凸顯，企業(yè)正加大對(duì)AI研發(fā)的投入。與此同時(shí)，學(xué)術(shù)界仍然是高影響力研究的主要來源，在過去三年中，美國(guó)學(xué)術(shù)機(jī)構(gòu)貢獻(xiàn)了最多的被高度引用的AI論文。

在全球AI研究格局方面，中國(guó)繼續(xù)領(lǐng)跑AI研究發(fā)表總量，2023年中國(guó)貢獻(xiàn)了全球23.2%的AI論文和22.6%的引用。AI論文總量在過去十年間幾乎增長(zhǎng)了三倍，從2013年的約102,000篇增加到2023年的超過242,000篇。值得注意的是，AI在計(jì)算機(jī)科學(xué)論文中的占比從2013年的21.6%上升到2023年的41.8%，表明AI已成為計(jì)算機(jī)科學(xué)研究的主導(dǎo)方向。

美國(guó)仍然是領(lǐng)先的AI模型開發(fā)國(guó)家，2024年美國(guó)機(jī)構(gòu)開發(fā)了40個(gè)知名AI模型，遠(yuǎn)超中國(guó)的15個(gè)和歐洲的3個(gè)。然而，中國(guó)在AI專利數(shù)量方面表現(xiàn)突出，截至2023年，中國(guó)占據(jù)了全球AI專利的69.7%，而韓國(guó)和盧森堡則在人均AI專利產(chǎn)出方面表現(xiàn)突出。2010年至2023年間，AI專利數(shù)量從3,833項(xiàng)激增至122,511項(xiàng)，僅在過去一年就增長(zhǎng)了29.6%。

AI模型規(guī)模和計(jì)算需求持續(xù)增長(zhǎng)。研究表明，知名AI模型的訓(xùn)練計(jì)算量大約每五個(gè)月翻一番，大型語(yǔ)言模型的數(shù)據(jù)集大小每八個(gè)月翻一番，訓(xùn)練所需的能源每年翻一番。這種規(guī)模擴(kuò)張主要由大規(guī)模產(chǎn)業(yè)投資驅(qū)動(dòng)，推動(dòng)了模型性能的持續(xù)提升。

2025年AI指數(shù)報(bào)告的一個(gè)重要發(fā)現(xiàn)是AI技術(shù)性能的顯著提升和趨同。2023年，研究人員引入了幾個(gè)具有挑戰(zhàn)性的新基準(zhǔn)測(cè)試，包括MMMU、GPQA和SWE-bench，旨在測(cè)試日益強(qiáng)大的AI系統(tǒng)的極限。到2024年，AI在這些基準(zhǔn)測(cè)試上的表現(xiàn)取得了顯著提升，在MMMU和GPQA上分別提高了18.8和48.9個(gè)百分點(diǎn)。在SWE-bench上，AI系統(tǒng)在2023年僅能解決4.4%的編碼問題，而到2024年這一數(shù)字躍升至71.7%。

中國(guó)模型的追趕速度令人側(cè)目。在編程基準(zhǔn)HumanEval上，中美頂級(jí)模型差距從2023年的31.6個(gè)百分點(diǎn)驟降至0.3個(gè)百分點(diǎn)。更值得玩味的是技術(shù)路徑差異：DeepSeek-V3在達(dá)到GPT-4同級(jí)性能時(shí)，訓(xùn)練能耗僅相當(dāng)于后者五年前的水平。這種"降維式"的技術(shù)突破，正在動(dòng)搖半導(dǎo)體出口管制的戰(zhàn)略邏輯。

報(bào)告最引人注目的發(fā)現(xiàn)，是開源模型在Chatbot Arena排行榜上的突飛猛進(jìn)。2024年1月閉源模型尚保持8%的領(lǐng)先優(yōu)勢(shì)，到2025年2月差距已收窄至1.7%。Meta的Llama 3.1-405B與中國(guó)的DeepSeek-V3等開源模型，在MMLU多任務(wù)測(cè)試中分別取得87.2%和84.0%的準(zhǔn)確率，直逼GPT-4o的92.3%。

這種趨同現(xiàn)象背后是算法效率的革命性提升。以Phi-3-mini為例，這個(gè)僅38億參數(shù)的模型在MMLU達(dá)到60%基準(zhǔn)線，相較兩年前的PaLM（5400億參數(shù)）實(shí)現(xiàn)了142倍的參數(shù)效率優(yōu)化。當(dāng)"小模型辦大事"成為可能，行業(yè)正在重寫"規(guī)模決定性能"的傳統(tǒng)定律。

產(chǎn)業(yè)投資與應(yīng)用擴(kuò)張

在經(jīng)濟(jì)領(lǐng)域，AI依舊是投資“熱點(diǎn)”，尤其是生成式AI的迅猛勢(shì)頭吸引了逾三成私募資金。

2024年全球AI投資總額達(dá)2523億美元，其中私有融資同比增長(zhǎng)44.5%。美國(guó)在AI投資額（1091億美元）上仍然遙遙領(lǐng)先，是中國(guó)93億美元的近12倍，是英國(guó)45億美元的24倍。

企業(yè)對(duì)AI的使用也在加速：2024年，78%的組織報(bào)告使用AI，高于前一年的55%。越來越多的研究證實(shí)，AI提高了生產(chǎn)力，并在大多數(shù)情況下幫助縮小了勞動(dòng)力中的技能差距。這表明AI正從邊緣走向成為商業(yè)價(jià)值的核心驅(qū)動(dòng)力。

AI越來越多地嵌入日常生活。從醫(yī)療保健到交通，AI正迅速?gòu)膶?shí)驗(yàn)室走向日常生活。2023年，美國(guó)食品藥品監(jiān)督管理局批準(zhǔn)了223個(gè)AI輔助醫(yī)療設(shè)備，而2015年僅有6個(gè)。

在道路上，自動(dòng)駕駛汽車不再是實(shí)驗(yàn)性的：美國(guó)最大的運(yùn)營(yíng)商之一Waymo每周提供超過15萬(wàn)次自動(dòng)駕駛出行服務(wù)，而百度價(jià)格實(shí)惠的Apollo Go機(jī)器人出租車車隊(duì)現(xiàn)在服務(wù)于中國(guó)的眾多城市。

全球AI樂觀情緒正在上升，但地區(qū)差異明顯。在中國(guó)（83%）、印度尼西亞（80%）和泰國(guó)（77%）等國(guó)家，強(qiáng)大的多數(shù)人認(rèn)為AI產(chǎn)品和服務(wù)利大于弊。相比之下，在加拿大（40%）、美國(guó)（39%）和荷蘭（36%）等地方，樂觀情緒仍然低得多。不過，情緒正在轉(zhuǎn)變：自2022年以來，幾個(gè)以前持懷疑態(tài)度的國(guó)家的樂觀情緒顯著增長(zhǎng)，包括德國(guó)（+10%）、法國(guó)（+10%）、加拿大（+8%）、英國(guó)（+8%）和美國(guó)（+4%）。

政府也在加大對(duì)AI的參與力度。2024年，美國(guó)聯(lián)邦機(jī)構(gòu)引入了59項(xiàng)與AI相關(guān)的法規(guī)，是2023年的兩倍多，并且是由兩倍多的機(jī)構(gòu)發(fā)布的。

在全球范圍內(nèi)，自2023年以來，75個(gè)國(guó)家的立法中提及AI的次數(shù)增加了21.3%，比2016年增加了9倍。除了越來越多的關(guān)注外，政府還在大規(guī)模投資：加拿大承諾投資24億美元，中國(guó)啟動(dòng)了475億美元的半導(dǎo)體基金，法國(guó)承諾投資1090億歐元，印度承諾投資12.5億美元，沙特阿拉伯的"超越計(jì)劃"代表著1000億美元的倡議。

至頂AI實(shí)驗(yàn)室洞見

2025年AI指數(shù)報(bào)告揭示的技術(shù)民主化趨勢(shì)具有革命性意義。這種民主化不僅僅是技術(shù)指標(biāo)的改善，更代表著AI創(chuàng)新模式的根本轉(zhuǎn)變——從少數(shù)科技巨頭主導(dǎo)向更加開放多元的生態(tài)系統(tǒng)演進(jìn)。這一轉(zhuǎn)變可能會(huì)催生更多本地化、特定領(lǐng)域的AI解決方案，使AI技術(shù)能夠更好地適應(yīng)不同地區(qū)、不同行業(yè)的特定需求。

關(guān)于中美AI競(jìng)爭(zhēng)格局的變化，我們認(rèn)為這預(yù)示著全球AI發(fā)展正進(jìn)入一個(gè)新階段。

中國(guó)在縮小與美國(guó)的技術(shù)差距方面取得的進(jìn)展令人矚目，但更值得關(guān)注的是這種競(jìng)爭(zhēng)如何推動(dòng)全球AI創(chuàng)新。在我看來，健康的技術(shù)競(jìng)爭(zhēng)有助于防止創(chuàng)新停滯，但國(guó)際合作對(duì)于解決AI面臨的共同挑戰(zhàn)（如安全、倫理和環(huán)境影響）仍然至關(guān)重要。

對(duì)于中國(guó)AI發(fā)展而言，當(dāng)前形勢(shì)既是機(jī)遇也是挑戰(zhàn)。一方面，中國(guó)在AI專利數(shù)量和研究發(fā)表總量上的領(lǐng)先地位為其提供了堅(jiān)實(shí)基礎(chǔ)；另一方面，如何將這些研究成果轉(zhuǎn)化為高質(zhì)量的AI模型和應(yīng)用，仍然是一個(gè)需要解決的問題。我認(rèn)為，中國(guó)未來的AI發(fā)展戰(zhàn)略應(yīng)該更加注重原創(chuàng)性研究和負(fù)責(zé)任AI實(shí)踐，這將有助于提升其在全球AI生態(tài)系統(tǒng)中的影響力和話語(yǔ)權(quán)。

展望未來，我們相信AI技術(shù)將繼續(xù)朝著更加高效、普惠和負(fù)責(zé)任的方向發(fā)展。然而，技術(shù)進(jìn)步本身并不足以確保AI造福全人類。我們需要更加協(xié)調(diào)的全球治理框架，更加普惠的教育機(jī)會(huì)，以及更加深入的跨學(xué)科合作，才能充分發(fā)揮AI的積極潛力，同時(shí)有效管理其風(fēng)險(xiǎn)。

當(dāng)AI進(jìn)入規(guī)模化與責(zé)任化并行的時(shí)代，對(duì)技術(shù)內(nèi)涵與社會(huì)價(jià)值的再思考，已經(jīng)成為所有從業(yè)者不能回避的課題。

本文來自至頂AI實(shí)驗(yàn)室，未經(jīng)授權(quán)禁止轉(zhuǎn)載

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.