有的時候你可能會有這樣的迷惑:怎么新聞里的AI又寫科研論文,又能自動駕駛,但是我們手里的AI工具總是時靈時不靈呢?或許這份斯坦福大學最新的《2025年人工智能指數報告》能夠解答你的困惑。
這份400多頁的年度報告,包括了對不斷演變的AI硬件格局的深入分析、對推理成本的全新估算,以及對AI領域學術發表和專利申請趨勢的新分析。同時還引入了有關企業采用盡責AI實踐的新數據。我們編譯了報告的部分重要成果,希望能夠幫助大家更好地理解AI技術的發展,充分利用它獲得先發優勢。
人工智能日益融入日常生活
從醫療保健到交通運輸的諸多領域,人工智能正迅速從實驗室走向日常生活。2023年,美國食品藥品監督管理局(FDA)批準了223種配備人工智能的醫療器械,而2015年這一數字僅為6種。在道路上,自動駕駛汽車已不再處于試驗階段,某自動駕駛汽車運營公司已每周提供超過15萬次自動駕駛出行服務。
在這波人工智能大熱潮中,科學和醫學領域涌現了令人驚喜的新氣象。多個新發布的基礎模型,它們將助力材料科學、天氣預報和量子計算等方面的研究。許多公司正嘗試將AI的預測與生成能力轉化為有利可圖的藥物發現。但總體而言,人類遠未將AI潛力轉化為現實影響,因為大家似乎還沒完全搞懂怎么用AI技術。2024年一項研究顯示:醫生使用GPT-4輔助診斷后,并未因此提升診斷的準確率或速度。另一方面,獨自做事的GPT-4反而強于獨自做事的醫生,也強于醫生+AI的組合。
企業全面進軍人工智能領域,應用水平創下紀錄
AI在商業領域的應用正在加速:2024年,78%的組織表示在使用AI,高于上一年的55%。與此同時,越來越多的研究證實,人工智能能夠提高生產力,并且在大多數情況下,有助于縮小勞動力隊伍中的技能差距。
但客觀來說,企業尚未看到能帶來顯著成本節約或新增利潤的實質改變。這份源于麥肯錫調研的圖表顯示:在報告降本的企業中,多數都只省下不足10%的錢;而在實現增收的企業中,大部分的增幅都低于5%。
盡責AI生態系統在不均衡地發展
與AI相關的事件急劇增加,但在主要的工業模型開發者中,標準化的盡責AI評估仍然少見。不過,像HELM Safety、AIR-Bench和FACTS等新的基準測試為評估真實性和安全性提供了有前景的工具。在企業方面,雖然認識到了負責任人工智能的風險,但在采取有意義的行動方面仍存在差距。
對人工智能的樂觀情緒在上升
關于“AI何時取代你的工作”的公共討論早已甚囂塵上。但有趣的是,一項最新的全球AI態度調查顯示,多數人并沒感受到威脅。受訪者來自32個國家,其中60%的人認為人工智能將改變自己的工作方式,但只有36%的人覺得自己會被取代。
AI在更高要求的基準測試中的表現持續提升,但復雜推理仍然是一項挑戰
2023年,研究人員引入了新的基準測試——MMMU(大規模多學科多模態理解和推理基準測試,用于評估多模態AI模型在專家級任務上表現的基準測試。它包含30個學科和183個子領域的11.5K多模態問題)、GPQA(紐約大學等機構的研究團隊推出的一個基準測試數據集,包含448道由生物學、物理學和化學領域的專家編寫的多選題,問題質量高且難度極大。這些題目需要對相應學科有深入的理解和多步推理能力才能解答)和SWE-bench(是由普林斯頓大學和芝加哥大學的研究者提出的一種評測基準,旨在評估大型語言模型在解決真實世界GitHub軟件問題方面的能力),以測試先進AI系統的極限。僅僅一年后,AI的性能大幅提高:在MMMU、GPQA和SWE-bench測試中,得分分別提高了18.8、48.9和67.3個百分點。此外,AI系統在生成高質量視頻方面也取得了重大進展,并且在某些情況下,語言模型智能體在時間有限的編程任務中甚至比人類表現得更出色。
此外,報告中還強調了一個無可爭議的事實:許多用于評估人工智能系統能力的基準測試已趨于“飽和”——AI系統得分過高,以致測試不再有意義。這種現象已出現于常識、圖像推理、數學、編程等多個領域。鑒于此,科學家正努力創制新的基準測試,以期挑戰AI系統。其中有一套名為“人類終極測驗”(Humanity’s Last Exam)的大殺招,匯集了來自全球五百所機構的學科專家提供的極限難題,成功難倒了現階段最頂尖的AI系統。
此外,AI模型在解決國際數學奧林匹克競賽的題目等任務中表現出色,但在像PlanBench這樣的復雜推理基準測試中仍面臨困難。即使存在可證明正確的解決方案,它們也常常無法可靠地解決邏輯任務,這限制了它們在對精度要求極高的高風險場景中的有效性。
AI變得更高效、更經濟實惠且更易于使用
在性能日益強大的小型模型的推動下,達到GPT-3.5水平的系統的推理成本在2022年11月至2024年10月期間下降了超過280倍。在硬件層面,成本每年下降30%,而能源效率每年提高40%。開源權重模型也在縮小與閉源模型的差距,在某些基準測試中,一年內性能差距從8%縮小到了僅1.7%。總體而言,這些趨勢正迅速降低先進AI的應用門檻。
AI和計算機科學教育正在普及,但在獲取教育資源和做好學習準備的方面仍存在差距
現在,三分之二的國家已提供或計劃提供從幼兒園到12年級(K-12)的計算機科學(CS)教育,這一比例是2019年的兩倍,其中非洲和拉丁美洲進步最大。
行業在AI領域迅速發展,但前沿競爭愈發激烈
2024年,近90%的知名AI模型來自行業,高于2023年的60%,而學術界仍然是高引用率研究的主要來源。模型規模繼續迅速增長——訓練所需的計算量每五個月翻一番,數據集規模每八個月翻一番,能源使用量則逐年增加。然而,性能差距正在縮小:排名第一和第十的模型之間的得分差距在一年內從11.9%降至5.4%,排名前兩位的模型現在僅相差0.7%。AI前沿領域的競爭日益激烈,且參與者越來越多。
AI因其對科學的影響而獲得最高榮譽
AI日益重要的地位體現在一些重大科學獎項中:兩項諾貝爾獎分別表彰了對深度學習(物理學領域)以及將其應用于蛋白質折疊(化學領域)做出貢獻的研究成果,圖靈獎則授予了對強化學習做出開創性貢獻的人。
壹
貳
叁
肆
伍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.