設置星標 關注,從此你的世界多點科學~
你如果關注AI領域的新聞,可能會在充滿矛盾的信息轟炸里深感困惑:有時,AI蓬勃發展,有時,AI是個泡沫。今天看,AI現有的技術和架構將持續突破。明日嘆,AI發展模式不可持續,需革命性新思路。此刻,AI或將猛砸你的飯碗!他時,AI也就給你講個故事解解悶兒的能耐!
斯坦福大學以人為本人工智能研究所(HAI)2025年4月初發布了《2025年AI指數報告》(The 2025 AI Index Report)。這份400多頁的報告主要通過數據圖表呈現事實、揭示趨勢,涵蓋了研發、技術表現、負責任AI、經濟影響、科學醫療、政策、教育以及社會輿論等主題。《IEEE縱覽》雜志精選出了報告中最能反映AI領域現狀的12份關鍵圖表。
1
行業領頭羊
有許多標準可用于衡量各國在AI競賽中所處的身位,包括期刊論文發表數量、論文引用量以及專利數量等,不過最直觀的指標莫過于“關鍵模型產自何處”。
研究機構Epoch AI建立的數據庫收錄了1950年至今所有具有影響力的重大AI模型——上圖所示的數據就來自該庫。
可以看到,在2024年,美國產出了40個關鍵模型,中國有15個,歐洲有3個 (全部來自法國) 。另有一幅圖表 (本文未展示) 則告訴我們,這些模型幾乎全部來自企業而非學術界或政府。至于2023年至2024年間,關鍵模型數量下降的情況,報告認為其原因可能在于技術復雜度升高和訓練成本持續上漲。
2
訓練成本知多少
要說訓練成本,那是真貴!由于頭部的AI企業已不再披露訓練相關信息,研究人員與Epoch AI合作,收集訓練時長、硬件類型與數量等信息并據此估算。他們能估算出的最貴模型是由谷歌豪擲約1.92億美元打造的Gemini 1.0 Ultra。訓練成本普漲的情況也呼應了報告里的多項其他發現,包括模型參數量、訓練時長以及數據規模仍持續擴張的態勢。
異軍突起的中國新銳DeepSeek于今年初攪動了行業風云,不過新報告未將其收入上述圖表。
關于DeepSeek的訓練成本,業界存在部分質疑,但它的表現無疑是現象級的,AI指數指導委員會聯合主任尤蘭達·吉爾 (Yolanda Gil) 評價其“令人印象深刻”,此外也指出計算機發展史上不乏低效技術被優雅方案取代的案例。
她說道:“不止我一人認為大語言模型終將出現更高效版本,但大家不清楚它將由誰打造、如何打造。”
3
使用AI的成本卻在下降
雖然圍繞 (大多數) AI模型的訓練成本不斷攀升,但AI指數報告也強調了一些積極趨勢:硬件成本下降、硬件性能增強、能源效率提高。這意味著推理成本 (即查詢已訓練模型的花費) 正急劇減少。上面這張采用對數刻度的圖表,展示了每美元AI性能的變化趨勢。報告指出,藍色線表明每百萬token成本從20美元降至0.07美元;粉色線表明在不到一年內,成本從15美元降至0.12美元。
4
AI的巨量碳足跡
誠然,能源效率提升是積極信號,但我們也必須直面負面趨勢:在能效改善的同時,總體能耗仍呈現增長。這意味著人工智能盛世的核心,即數據中心,正產生巨大碳足跡。AI指數報告根據訓練硬件、云服務商以及地理位置等因素,對部分AI模型的碳排放進行評估,結果發現前沿AI模型訓練的碳排放量持續上升——除了DeepSeek。
上方圖表中最糟糕的案例是Meta Llama 3.1模型,其產生的二氧化碳排放量預計高達8930噸,相當于496個美國人生活一年的總排放。如此驚人的環境影響,解釋了為何AI公司紛紛將核能視作可靠的零碳電力來源。
5
性能差距正在縮小
美國發布的重大AI模型數量方面仍可謂遙遙領先,但中國模型的質量水準提升之大令業界嘆服。上方圖表顯示,在聊天機器人基準測試中,中美雙方的模型性能差距逐漸縮小。2024年1月,美國最佳模型的表現較中國頂尖模型領先9.26%;到2025年2月,這一差距已縮小至1.70%。在推理、數學和編程等其他基準測試中,也可觀察到類似趨勢。
6
人類的終極測驗
新報告還強調了一個無可爭議的事實:許多用于評估人工智能系統能力的基準測試已趨于“飽和”——AI系統得分過高,以致測試不再有意義。這種現象已出現于常識、圖像推理、數學、編程等多個領域。
吉爾表示,她驚訝地目睹一個又一個基準測試相繼失效。“我一直覺得 (性能) 會遇到瓶頸,必須依靠新技術或顛覆性的架構才能繼續突破,可現實并非如此。”
鑒于此,科學家正努力創制新的基準測試,以期挑戰AI系統。其中有一套名為“人類終極測驗” (Humanity’s Last Exam) 的大殺招,匯集了由來自全球五百所機構的學科專家提供的極限難題,成功難倒了現階段最頂尖的AI系統:目前表現最好的應試者是OpenAI的推理模型o1,其正確率達8.8%。此記錄可保持多久?讓我們拭目以待。
7
數據峰值的降臨
當下的生成式AI通過從互聯網抓取海量數據并以此進行訓練而獲得智能,這就催生了所謂“AI經濟下,數據是石油”的說法。隨著人工智能企業不斷突破模型訓練的數據上限,人們開始擔憂“數據峰值”何日到來。一個現實問題是:越來越多網站正限制爬蟲抓取數據 (或許出于對AI公司既利用網站數據牟利又摧毀其商業模式的擔憂) ,這些限制都通過機器可讀的robots.txt文件聲明。
上方圖表顯示,頂級網站域名的數據已有48%被完全限制。不過吉爾指出,AI領域的新方法或可終結對龐大數據集的依賴。
“我預感,在某個時刻,數據量將不再那么關鍵。”
8
資本市場用腳投票
過去5年,來自企業界的資金洶涌入局AI。盡管2024年的全球總投資額不及2021年的狂熱高點,但要注意,私人投資規模可創下了歷史新高。在1500億美元的私人投資中 (此處未顯示) ,約330億美元流向了生成式AI領域。
9
等待回報
企業豪擲千金,求的當然是豐厚回報。眼下,我們興奮不已地談論人工智能的變革之力,暢想前所未見的生產力飛躍,但客觀來說,企業尚未看到能帶來顯著成本節約或新增利潤的實質改變。上面這份源于麥肯錫調研的圖表顯示:在報告降本的企業中,多數都只省下不足10%的錢;而在實現增收的企業中,大部分的增幅都低于5%。
雖然投資數據表明眾多企業押注人工智能,但現在談回報還為時尚早。
10
AI醫生即將上線?
在這波人工智能大熱潮中,科學和醫學領域涌現了令人驚喜的AI新氣象。AI指數報告列舉了多個新發布的基礎模型,它們將助力材料科學、天氣預報和量子計算等方面的研究。許多公司正嘗試將AI的預測與生成能力轉化為有利可圖的藥物發現。例如,OpenAI的o1推理模型最近在MedQA基準測試 (包含醫學委員會考試的題目) 中展現了96%的準確率。
但總體而言,上述領域遠未將AI潛力轉化為現實影響,因為人類似乎還沒完全搞懂怎么用AI技術。2024年一項研究顯示:醫生使用GPT-4輔助診斷后,并未因此提升診斷的準確率或速度。另一方面,獨自做事的GPT-4反而強于獨自做事的醫生,也強于醫生+AI的組合。
11
關于AI政策
上方圖表告訴我們,美國國會關于AI的討論很多,實際行動很少。AI指數報告指出,美國的相關行動重心已轉向州一級:2024年共有131項州級法案通過立法,其中有56項涉及深度偽造技術,禁止其被用于在選舉或傳播非自愿親密影像。
歐盟通過的《人工智能法案》針對高風險AI系統給企業劃定了新的義務。而全球大趨勢是各國聯手協同,發表全面而不具約束力的聲明。那么有大量關于AI的內容需要討論。
12
樂觀的人類繼續前行
關于“AI何時取代你的工作”的公共討論早已甚囂塵上。但有趣的是,一項最新的全球AI態度調查顯示,多數人并沒感受到威脅。受訪者來自32個國家,其中60%的人認為人工智能將改變自己的工作方式,但只有36%的人覺得自己會被取代。
吉爾說道:“此結果令我非常意外。人們想著‘AI改變工作,而我仍創造價值’,這樣的心態令人鼓舞!”
那么,未來大家是否都能通過管理AI團隊來創造價值呢?待時間給出答案……
資料來源:
《世界科學》雜志版在售中 歡迎訂閱
月刊定價
15元/期
全年訂閱價
180元
點擊左側圖片或以下方訂閱方式選購
方式一:
掃描二維碼,“雜志鋪”訂閱有折扣~
方式二:
全國各地郵局訂閱 郵發代號:4-263
方式三:
機構訂閱,請撥打
021-53300839;
021-53300838
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.