網易首頁 > 網易號 > 正文申請入駐

AI大家說 | 斯坦福大學年度報告：企業AI運用水平創下紀錄

2025-05-19 08:04:55　來源: 紅杉匯

北京舉報

分享至

有的時候你可能會有這樣的迷惑：怎么新聞里的AI又寫科研論文，又能自動駕駛，但是我們手里的AI工具總是時靈時不靈呢？或許這份斯坦福大學最新的《2025年人工智能指數報告》能夠解答你的困惑。

這份400多頁的年度報告，包括了對不斷演變的AI硬件格局的深入分析、對推理成本的全新估算，以及對AI領域學術發表和專利申請趨勢的新分析。同時還引入了有關企業采用盡責AI實踐的新數據。我們編譯了報告的部分重要成果，希望能夠幫助大家更好地理解AI技術的發展，充分利用它獲得先發優勢。

人工智能日益融入日常生活

從醫療保健到交通運輸的諸多領域，人工智能正迅速從實驗室走向日常生活。2023年，美國食品藥品監督管理局（FDA）批準了223種配備人工智能的醫療器械，而2015年這一數字僅為6種。在道路上，自動駕駛汽車已不再處于試驗階段，某自動駕駛汽車運營公司已每周提供超過15萬次自動駕駛出行服務。

在這波人工智能大熱潮中，科學和醫學領域涌現了令人驚喜的新氣象。多個新發布的基礎模型，它們將助力材料科學、天氣預報和量子計算等方面的研究。許多公司正嘗試將AI的預測與生成能力轉化為有利可圖的藥物發現。但總體而言，人類遠未將AI潛力轉化為現實影響，因為大家似乎還沒完全搞懂怎么用AI技術。2024年一項研究顯示：醫生使用GPT-4輔助診斷后，并未因此提升診斷的準確率或速度。另一方面，獨自做事的GPT-4反而強于獨自做事的醫生，也強于醫生+AI的組合。

企業全面進軍人工智能領域，應用水平創下紀錄

AI在商業領域的應用正在加速：2024年，78%的組織表示在使用AI，高于上一年的55%。與此同時，越來越多的研究證實，人工智能能夠提高生產力，并且在大多數情況下，有助于縮小勞動力隊伍中的技能差距。

但客觀來說，企業尚未看到能帶來顯著成本節約或新增利潤的實質改變。這份源于麥肯錫調研的圖表顯示：在報告降本的企業中，多數都只省下不足10%的錢；而在實現增收的企業中，大部分的增幅都低于5%。

盡責AI生態系統在不均衡地發展

與AI相關的事件急劇增加，但在主要的工業模型開發者中，標準化的盡責AI評估仍然少見。不過，像HELM Safety、AIR-Bench和FACTS等新的基準測試為評估真實性和安全性提供了有前景的工具。在企業方面，雖然認識到了負責任人工智能的風險，但在采取有意義的行動方面仍存在差距。

對人工智能的樂觀情緒在上升

關于“AI何時取代你的工作”的公共討論早已甚囂塵上。但有趣的是，一項最新的全球AI態度調查顯示，多數人并沒感受到威脅。受訪者來自32個國家，其中60%的人認為人工智能將改變自己的工作方式，但只有36%的人覺得自己會被取代。

AI在更高要求的基準測試中的表現持續提升，但復雜推理仍然是一項挑戰

2023年，研究人員引入了新的基準測試——MMMU（大規模多學科多模態理解和推理基準測試，用于評估多模態AI模型在專家級任務上表現的基準測試。它包含30個學科和183個子領域的11.5K多模態問題）、GPQA（紐約大學等機構的研究團隊推出的一個基準測試數據集，包含448道由生物學、物理學和化學領域的專家編寫的多選題，問題質量高且難度極大。這些題目需要對相應學科有深入的理解和多步推理能力才能解答）和SWE-bench（是由普林斯頓大學和芝加哥大學的研究者提出的一種評測基準，旨在評估大型語言模型在解決真實世界GitHub軟件問題方面的能力），以測試先進AI系統的極限。僅僅一年后，AI的性能大幅提高：在MMMU、GPQA和SWE-bench測試中，得分分別提高了18.8、48.9和67.3個百分點。此外，AI系統在生成高質量視頻方面也取得了重大進展，并且在某些情況下，語言模型智能體在時間有限的編程任務中甚至比人類表現得更出色。

此外，報告中還強調了一個無可爭議的事實：許多用于評估人工智能系統能力的基準測試已趨于“飽和”——AI系統得分過高，以致測試不再有意義。這種現象已出現于常識、圖像推理、數學、編程等多個領域。鑒于此，科學家正努力創制新的基準測試，以期挑戰AI系統。其中有一套名為“人類終極測驗”（Humanity’s Last Exam）的大殺招，匯集了來自全球五百所機構的學科專家提供的極限難題，成功難倒了現階段最頂尖的AI系統。

此外，AI模型在解決國際數學奧林匹克競賽的題目等任務中表現出色，但在像PlanBench這樣的復雜推理基準測試中仍面臨困難。即使存在可證明正確的解決方案，它們也常常無法可靠地解決邏輯任務，這限制了它們在對精度要求極高的高風險場景中的有效性。

AI變得更高效、更經濟實惠且更易于使用

在性能日益強大的小型模型的推動下，達到GPT-3.5水平的系統的推理成本在2022年11月至2024年10月期間下降了超過280倍。在硬件層面，成本每年下降30%，而能源效率每年提高40%。開源權重模型也在縮小與閉源模型的差距，在某些基準測試中，一年內性能差距從8%縮小到了僅1.7%。總體而言，這些趨勢正迅速降低先進AI的應用門檻。

AI和計算機科學教育正在普及，但在獲取教育資源和做好學習準備的方面仍存在差距

現在，三分之二的國家已提供或計劃提供從幼兒園到12年級（K-12）的計算機科學（CS）教育，這一比例是2019年的兩倍，其中非洲和拉丁美洲進步最大。

行業在AI領域迅速發展，但前沿競爭愈發激烈

2024年，近90%的知名AI模型來自行業，高于2023年的60%，而學術界仍然是高引用率研究的主要來源。模型規模繼續迅速增長——訓練所需的計算量每五個月翻一番，數據集規模每八個月翻一番，能源使用量則逐年增加。然而，性能差距正在縮小：排名第一和第十的模型之間的得分差距在一年內從11.9%降至5.4%，排名前兩位的模型現在僅相差0.7%。AI前沿領域的競爭日益激烈，且參與者越來越多。

AI因其對科學的影響而獲得最高榮譽

AI日益重要的地位體現在一些重大科學獎項中：兩項諾貝爾獎分別表彰了對深度學習（物理學領域）以及將其應用于蛋白質折疊（化學領域）做出貢獻的研究成果，圖靈獎則授予了對強化學習做出開創性貢獻的人。

壹

貳

叁

肆

伍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.