文章轉(zhuǎn)載自「寶玉 AI」
4月8日,由 李飛飛聯(lián)合領(lǐng)導(dǎo)的斯坦福大學(xué)以人為本人工智能研究所(Stanford HAI)發(fā)布了《2025年人工智能指數(shù)報(bào)告》(Artificial Intelligence Index Report 2025) 。這份長達(dá)456頁的報(bào)告,深入剖析了2024年全球人工智能行業(yè)的發(fā)展態(tài)勢(shì),揭示了12大關(guān)鍵趨勢(shì)。
在斯坦福大學(xué)“以人為本的人工智能研究院”(Stanford HAI)看來,人工智能將成為21世紀(jì)最具變革性的技術(shù)。然而,若不謹(jǐn)慎引導(dǎo),AI帶來的好處并不會(huì)平均地惠及所有人。《AI指數(shù)》提供了目前全球最全面、最權(quán)威的數(shù)據(jù)驅(qū)動(dòng)的人工智能分析,已成為全球媒體、政府和頂尖企業(yè)的重要參考,幫助決策者、商界領(lǐng)袖及公眾更全面、客觀地了解AI的技術(shù)進(jìn)步、經(jīng)濟(jì)影響和社會(huì)意義。
我們整理了一些開發(fā)者可能會(huì)關(guān)注的點(diǎn)(感謝 Dia 瀏覽器):
1.模型性能“內(nèi)卷”,產(chǎn)品體驗(yàn)才是出路:前十名模型的 Elo 分?jǐn)?shù)差距從 11.9% 縮小到 5.4%,技術(shù)差距在快速收斂。對(duì)創(chuàng)業(yè)者來說,這意味著你不一定要追最新最強(qiáng)的模型,而是要在產(chǎn)品體驗(yàn)、上下文設(shè)計(jì)、數(shù)據(jù)調(diào)優(yōu)上下功夫。用戶不會(huì)記得你用了哪個(gè)模型,但會(huì)記得你是不是“用得順”。
2. 小模型崛起,算力不再是主戰(zhàn)場(chǎng):Phi-3-mini 只用 38 億參數(shù)就能打平 GPT-3.5,訓(xùn)練和推理成本大幅降低。創(chuàng)業(yè)者不再需要燒錢堆大模型,而是可以用“小而美”的模型做“快而準(zhǔn)”的產(chǎn)品。模型架構(gòu)優(yōu)化、LoRA 微調(diào)和量化技術(shù)變得更重要。
3. 開源模型“夠用”,閉源不再不可替代:閉源模型在 Chatbot Arena 榜單上的領(lǐng)先優(yōu)勢(shì)已縮小到 1.7%。對(duì)創(chuàng)業(yè)者來說,這意味著你可以用開源模型(Mistral、Gemma、LLaMA)結(jié)合自有數(shù)據(jù)打造差異化產(chǎn)品,而不必依賴 OpenAI 的黑盒。
4. 推理成本暴跌,商業(yè)模式需要重算:GPT-3.5 水平的推理成本 18 個(gè)月內(nèi)下降 280 倍。這不是微調(diào),是范式轉(zhuǎn)移。創(chuàng)業(yè)者要重新考慮定價(jià)策略、用戶增長模型和單位經(jīng)濟(jì)模型,別再把“成本高”當(dāng)作產(chǎn)品不賺錢的理由。
5. AI 安全成為新剛需,不只是合規(guī)問題:2024 年 AI 事故報(bào)告增長 56.4%,但大多數(shù)公司還沒建立系統(tǒng)的防控機(jī)制。創(chuàng)業(yè)者如果能在安全、透明、事實(shí)性評(píng)估上做出特色,反而會(huì)成為優(yōu)勢(shì),尤其在 To B 市場(chǎng)。
6.AI 智能體適合短任務(wù),不適合長流程:RE-Bench 顯示,AI 智能體在 2 小時(shí)任務(wù)中表現(xiàn)遠(yuǎn)超人類,但一旦任務(wù)拉長到 32 小時(shí),人類反超 2 倍。對(duì)創(chuàng)業(yè)者來說,別幻想“萬能 AI 助理”,而應(yīng)專注于結(jié)構(gòu)化、任務(wù)邊界清晰的場(chǎng)景。
7. 數(shù)據(jù)將成為下一個(gè)瓶頸C4 數(shù)據(jù)集中限制抓取網(wǎng)頁比例從 5% 飆升到 33%。開源數(shù)據(jù)資源在快速枯竭,創(chuàng)業(yè)者不能再依賴“爬全網(wǎng)”來訓(xùn)練模型。誰能掌握垂直數(shù)據(jù)、誰就能做出更聰明的 AI。
8. AI 落地更快,但 ROI 尚未兌現(xiàn):78% 企業(yè)已使用 AI,但多數(shù)企業(yè)反饋節(jié)省成本不足 10%、營收提升低于 5%。這對(duì)創(chuàng)業(yè)者是提醒:AI 能力 ≠ 商業(yè)價(jià)值,找到“高頻剛需+結(jié)構(gòu)清晰”的場(chǎng)景才是關(guān)鍵。
9. 監(jiān)管加速,合規(guī)將成為產(chǎn)品設(shè)計(jì)的一部分全球 AI 法規(guī)數(shù)量一年翻倍,美國聯(lián)邦機(jī)構(gòu)發(fā)布 59 項(xiàng)新規(guī)。對(duì)創(chuàng)業(yè)者來說,合規(guī)不再是上線后的“補(bǔ)作業(yè)”,而是產(chǎn)品設(shè)計(jì)之初就要考慮的“前置模塊”。
10. AI 創(chuàng)業(yè)的“非共識(shí)”紅利正在消失:開源模型、算力成本、數(shù)據(jù)獲取、監(jiān)管合規(guī)……這些過去創(chuàng)業(yè)者可以“鉆空子”的地方,正在被快速標(biāo)準(zhǔn)化。接下來,拼的是執(zhí)行力、洞察力和節(jié)奏感,而不是“卡位”。
Founder Park 正在搭建開發(fā)者社群,邀請(qǐng)積極嘗試、測(cè)試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請(qǐng)掃碼詳細(xì)填寫你的產(chǎn)品/項(xiàng)目信息,通過審核后工作人員會(huì)拉你入群~
進(jìn)群之后,你有機(jī)會(huì)得到:
高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;
資源對(duì)接,與 API、云廠商、模型廠商直接交流反饋的機(jī)會(huì);
好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會(huì)主動(dòng)做宣傳。
01報(bào)告要點(diǎn)一覽1. 人工智能在復(fù)雜任務(wù)上的表現(xiàn)持續(xù)提升。
2023年,研究人員推出了新的AI性能測(cè)試基準(zhǔn)——MMMU、GPQA和SWE-bench,僅一年后,AI在這些測(cè)試中的表現(xiàn)大幅提升,得分分別增長了18.8、48.9和67.3個(gè)百分點(diǎn)。除基準(zhǔn)測(cè)試外,AI在生成高質(zhì)量視頻方面也取得重大進(jìn)展。在某些場(chǎng)景中,語言模型在編程任務(wù)上的表現(xiàn)甚至超過了有時(shí)間限制的人類程序員。
2. AI正越來越深入人們的日常生活。
從醫(yī)療到交通,AI技術(shù)迅速從實(shí)驗(yàn)室走向現(xiàn)實(shí)生活。2023年,美國食品藥品監(jiān)督管理局(FDA)批準(zhǔn)了223個(gè)AI醫(yī)療設(shè)備,而2015年時(shí)僅為6個(gè)。在道路上,自動(dòng)駕駛不再只是實(shí)驗(yàn):美國規(guī)模最大的自動(dòng)駕駛公司之一Waymo每周提供超過15萬次無人駕駛服務(wù)。中國百度公司的Apollo Go無人出租車也以更親民的價(jià)格進(jìn)駐多個(gè)城市。
3. 商業(yè)界全面擁抱AI,投資創(chuàng)歷史新高,AI促進(jìn)生產(chǎn)力的作用持續(xù)被驗(yàn)證。
2024年,美國私營部門在AI領(lǐng)域的投資達(dá)到1091億美元,幾乎是中國(93億美元)的12倍、英國(45億美元)的24倍。其中,生成式AI尤其受到資本青睞,全球私營投資達(dá)339億美元,比2023年增長了18.7%。企業(yè)對(duì)AI的應(yīng)用也迅速增加:2024年78%的企業(yè)報(bào)告已使用AI,較2023年的55%明顯提升。同時(shí),越來越多研究顯示,AI顯著提高了生產(chǎn)效率,并幫助員工縮小技能差距。
4. 美國仍是頂尖AI模型研發(fā)的領(lǐng)跑者,但中國正迅速縮小差距。
2024年,美國機(jī)構(gòu)發(fā)布了40個(gè)有重大影響的AI模型,遠(yuǎn)超中國的15個(gè)和歐洲的3個(gè)。但在性能表現(xiàn)上,中國與美國的差距迅速縮小:主要測(cè)試基準(zhǔn)(如MMLU和HumanEval)的性能差距從2023年的兩位數(shù)下降到2024年的幾乎相同。同時(shí),中國在AI學(xué)術(shù)論文發(fā)表量和專利數(shù)量方面繼續(xù)領(lǐng)先全球。此外,中東、拉美、東南亞地區(qū)也開始出現(xiàn)有影響力的模型,全球化趨勢(shì)明顯。
5. 負(fù)責(zé)任的AI生態(tài)系統(tǒng)建設(shè)取得進(jìn)展,但并不平衡。
AI相關(guān)的事故事件顯著增加,但工業(yè)界在AI安全和事實(shí)性評(píng)估方面的標(biāo)準(zhǔn)化仍然不足。不過,HELM Safety、AIR-Bench和FACTS等新基準(zhǔn)的出現(xiàn)提供了有效的評(píng)測(cè)工具。企業(yè)普遍承認(rèn)負(fù)責(zé)任AI的重要性,但實(shí)際行動(dòng)仍相對(duì)滯后。相比之下,各國政府對(duì)AI治理展現(xiàn)更大緊迫感。2024年,包括經(jīng)合組織、歐盟、聯(lián)合國、非洲聯(lián)盟在內(nèi)的國際機(jī)構(gòu)相繼發(fā)布了透明性、可信度等AI治理框架。
6. 全球?qū)I的樂觀情緒普遍上升,但地區(qū)差異明顯。中國(83%)、印尼(80%)和泰國(77%)等國家多數(shù)民眾認(rèn)為AI帶來的益處大于風(fēng)險(xiǎn)。然而,加拿大(40%)、美國(39%)和荷蘭(36%)則明顯更為謹(jǐn)慎。不過,這種看法也在逐漸變化,2022年以來,德國、法國、加拿大、英國和美國對(duì)AI的樂觀情緒明顯提升。7. AI日趨高效、平價(jià)且更易獲得。由于小模型的迅速進(jìn)步,2022年11月至2024年10月期間,類似GPT-3.5級(jí)別系統(tǒng)的推理成本降低了280倍以上。在硬件方面,每年成本下降30%,能源效率每年提高40%。開源模型和閉源模型的性能差距也快速縮小,一些基準(zhǔn)上的差距在一年內(nèi)從8%降至1.7%。這些趨勢(shì)大大降低了先進(jìn)AI技術(shù)的進(jìn)入門檻。
8. 全球政府加強(qiáng)AI監(jiān)管和投資力度。2024年,美國聯(lián)邦機(jī)構(gòu)發(fā)布了59項(xiàng)AI相關(guān)的監(jiān)管措施,是2023年的兩倍多,涉及的政府機(jī)構(gòu)數(shù)量也翻倍增加。全球75個(gè)國家的立法中提及AI的頻率比2023年增長21.3%,較2016年增長了9倍。與此同時(shí),各國政府也在大規(guī)模投資AI:加拿大投入24億美元,中國啟動(dòng)475億美元的芯片基金,法國承諾1090億歐元,印度投入12.5億美元,沙特的“超越計(jì)劃”則達(dá)到1000億美元。
9. AI與計(jì)算機(jī)科學(xué)教育加速普及,但教育資源分布仍不均衡。全球三分之二國家已實(shí)施或計(jì)劃實(shí)施從幼兒園到高中的計(jì)算機(jī)科學(xué)教育,數(shù)量比2019年翻倍,其中非洲和拉美地區(qū)進(jìn)步最快。在美國,過去十年計(jì)算機(jī)本科畢業(yè)生增加了22%。但非洲許多國家仍面臨電力基礎(chǔ)設(shè)施等基本問題的限制。在美國,81%的中小學(xué)計(jì)算機(jī)老師認(rèn)為應(yīng)將AI納入基礎(chǔ)教育,但只有不到一半的教師覺得自己做好了相關(guān)的教學(xué)準(zhǔn)備。
10. 工業(yè)界在AI發(fā)展中領(lǐng)先,但前沿競(jìng)爭(zhēng)更加激烈。2024年接近90%的重要AI模型來自工業(yè)界,而2023年這一數(shù)字為60%。盡管模型規(guī)模快速增長,訓(xùn)練計(jì)算量每5個(gè)月翻一倍,數(shù)據(jù)集每8個(gè)月翻倍,能耗每年翻倍,但領(lǐng)先模型之間的性能差距明顯縮小:排名第1和第10名模型的性能差距從11.9%縮減到5.4%,排名前兩名模型之間僅差0.7%。AI研發(fā)前沿的競(jìng)爭(zhēng)更加激烈,也更擁擠。
11. AI對(duì)科學(xué)的貢獻(xiàn)贏得全球最高榮譽(yù)。AI在科學(xué)界的影響日益顯著,兩項(xiàng)諾貝爾獎(jiǎng)分別頒發(fā)給深度學(xué)習(xí)(物理獎(jiǎng))和蛋白質(zhì)折疊應(yīng)用(化學(xué)獎(jiǎng))領(lǐng)域的貢獻(xiàn)。圖靈獎(jiǎng)也表彰了強(qiáng)化學(xué)習(xí)領(lǐng)域的突破性研究。12. AI仍在復(fù)雜推理任務(wù)上面臨挑戰(zhàn)。盡管AI模型能夠很好地完成國際數(shù)學(xué)奧林匹克競(jìng)賽題,但在復(fù)雜推理測(cè)試(如PlanBench)中依然表現(xiàn)欠佳。即使存在明確的邏輯解法,AI也經(jīng)常無法穩(wěn)定可靠地完成任務(wù),這制約了它們?cè)诟唢L(fēng)險(xiǎn)、精度至關(guān)重要領(lǐng)域的應(yīng)用潛力。
02第一章:AI的研究與發(fā)展趨勢(shì)1. 工業(yè)界持續(xù)領(lǐng)跑AI模型研發(fā),學(xué)術(shù)界則在高影響力論文方面優(yōu)勢(shì)明顯
在過去幾年中,工業(yè)界在AI模型開發(fā)方面一直保持領(lǐng)先優(yōu)勢(shì),并且這種趨勢(shì)愈發(fā)明顯。2024年,接近90%的重要AI模型都來自工業(yè)界,而在2023年這一比例為60%。盡管如此,學(xué)術(shù)界仍然主導(dǎo)著被高度引用(前100名)的研究論文,連續(xù)三年保持第一。
2. 中國AI論文發(fā)表總量領(lǐng)先,美國主導(dǎo)高影響力研究
2023年全球共發(fā)布了149個(gè)基礎(chǔ)模型,比2022年增加一倍以上。在這些新發(fā)布的模型中,開源模型的比例達(dá)到了65.7%,而2022年僅為44.4%,2021年更低至33.3%。
3. AI相關(guān)論文持續(xù)增長,在計(jì)算機(jī)科學(xué)中占據(jù)越來越重要的地位
2013年至2023年間,人工智能相關(guān)論文總量幾乎翻了三倍,從約10.2萬篇增加到超過24.2萬篇。AI論文在計(jì)算機(jī)科學(xué)領(lǐng)域的占比,也從2013年的21.6%上升到了2023年的41.8%,可見AI研究在學(xué)術(shù)領(lǐng)域影響力的大幅提升。
4. 美國持續(xù)引領(lǐng)全球AI模型研發(fā)的前沿
2024年,美國機(jī)構(gòu)發(fā)布了40個(gè)重要AI模型,明顯領(lǐng)先于中國的15個(gè)和歐洲合計(jì)僅3個(gè)。過去十年,美國在AI模型開發(fā)方面一直保持全球領(lǐng)先地位。
5. AI模型規(guī)模越來越大,計(jì)算需求與能耗顯著增長
最新研究發(fā)現(xiàn),著名AI模型的訓(xùn)練計(jì)算量大約每5個(gè)月就翻一倍;用于訓(xùn)練大語言模型的數(shù)據(jù)集大小,每8個(gè)月翻倍;訓(xùn)練所需的電力消耗每年翻一倍。這些趨勢(shì)背后的驅(qū)動(dòng)力主要來自于工業(yè)界的大規(guī)模投資,不斷推動(dòng)模型性能提升。
6. 使用AI模型的成本快速下降
AI模型的使用成本急劇降低。以達(dá)到GPT-3.5(MMLU基準(zhǔn)得分64.8)性能水平的模型為例,每百萬Token的查詢成本從2022年11月的20美元大幅降至2024年10月的僅0.07美元(以Gemini-1.5-Flash-8B為例),18個(gè)月內(nèi)成本降低超過280倍。具體任務(wù)的推理成本,每年下降幅度介于9倍至900倍之間。
7. AI領(lǐng)域的專利數(shù)量顯著增加,中國領(lǐng)先全球
2010年至2023年間,全球AI專利的數(shù)量從3,833件迅速增長到122,511件。僅過去一年,AI專利數(shù)增長了29.6%。截至2023年,中國在AI專利總量上占據(jù)絕對(duì)優(yōu)勢(shì),占全球?qū)@倲?shù)的69.7%。此外,從人均AI專利數(shù)量來看,韓國和盧森堡表現(xiàn)突出。
8. AI硬件變得更快、更便宜、更節(jié)能
研究表明,AI專用硬件(以16位浮點(diǎn)運(yùn)算性能為標(biāo)準(zhǔn))的性能每年增長43%,約每1.9年性能翻一倍。同時(shí),價(jià)格性能每年改善30%,能效也每年提升40%,使得AI應(yīng)用的成本持續(xù)降低。
9. AI模型訓(xùn)練帶來的碳排放量逐年增加早期AI模型(如2012年的AlexNet)訓(xùn)練產(chǎn)生的碳排放量僅為0.01噸,而近年來的模型則急劇上升。例如,2020年的GPT-3訓(xùn)練碳排放量達(dá)到588噸,2023年GPT-4更達(dá)5,184噸,2024年最新的Llama 3.1 405B模型高達(dá)8,930噸。作為參考,一個(gè)普通美國人每年的碳排放量約為18噸
03第二章:技術(shù)表現(xiàn)1. AI突破新基準(zhǔn)的速度史無前例
2023年,研究人員推出了一系列全新的AI性能基準(zhǔn),包括MMMU、GPQA和SWE-bench,專門用來挑戰(zhàn)越來越強(qiáng)大的AI系統(tǒng)。到2024年,AI在這些測(cè)試中的表現(xiàn)突飛猛進(jìn):MMMU提高了18.8個(gè)百分點(diǎn),GPQA更是飆升了48.9個(gè)百分點(diǎn)。在SWE-bench編程測(cè)試中,AI系統(tǒng)2023年只能解決4.4%的問題,但到了2024年,這一數(shù)字猛增到了驚人的71.7%。
2. 開放模型迅速追趕閉源模型
去年AI指數(shù)指出,開源模型的表現(xiàn)遠(yuǎn)落后于閉源模型。然而,到2024年,這個(gè)差距已幾乎消失。2024年1月初,領(lǐng)先的閉源模型在Chatbot Arena排行榜上的表現(xiàn)比頂級(jí)開源模型高8.04%。到2025年2月,這個(gè)差距縮小到了僅1.70%。
3. 中美AI模型性能差距逐漸消失
2023年,美國頂尖AI模型的性能遠(yuǎn)超中國模型,但到了2024年,這種差距大幅縮小。在MMLU、MMMU、MATH和HumanEval等測(cè)試中,2023年中美模型的性能差距分別為17.5、13.5、24.3和31.6個(gè)百分點(diǎn),到2024年底分別縮小至僅0.3、8.1、1.6和3.7個(gè)百分點(diǎn)。
4. AI模型表現(xiàn)趨于一致,競(jìng)爭(zhēng)加劇
根據(jù)去年AI指數(shù)報(bào)告,Chatbot Arena排行榜上第一名與第十名之間的Elo評(píng)分差距曾高達(dá)11.9%。到2025年初,這一差距已縮小到僅5.4%。同樣地,前兩名之間的差距也從2023年的4.9%下降到了2024年的0.7%。AI領(lǐng)域競(jìng)爭(zhēng)越來越激烈,涌現(xiàn)了更多開發(fā)者提供的高質(zhì)量模型。
5. 測(cè)試時(shí)計(jì)算等新推理模式提升性能
2024年,OpenAI推出了名為o1和o3的AI模型,這些模型能夠通過多次迭代的推理方法改善結(jié)果。這種“測(cè)試時(shí)計(jì)算”的新方法顯著提高了表現(xiàn)。比如,在國際數(shù)學(xué)奧林匹克競(jìng)賽資格考試中,o1模型的得分高達(dá)74.4%,遠(yuǎn)高于GPT-4o的9.3%。然而,這種高水平推理也帶來了代價(jià):o1模型的成本是GPT-4o的近六倍,運(yùn)行速度則慢了30倍。
6. 挑戰(zhàn)難度更高的新基準(zhǔn)不斷出現(xiàn)
隨著傳統(tǒng)基準(zhǔn)(如MMLU、GSM8K、HumanEval)逐漸被突破,MMMU和GPQA等新測(cè)試表現(xiàn)越來越好,研究人員開始探索更難的新測(cè)試,比如:
“人類終極考試”(Humanity’s Last Exam):目前表現(xiàn)最好的AI系統(tǒng)得分僅為8.80%。
FrontierMath:專門用于復(fù)雜數(shù)學(xué)問題的測(cè)試,AI成功率只有2%。
BigCodeBench:AI的代碼生成測(cè)試,目前成功率為35.5%,遠(yuǎn)低于人類97%的水平。
2024年,多個(gè)先進(jìn)的AI視頻生成模型問世,包括OpenAI的SORA、Stable Video Diffusion 3D/4D、Meta的Movie Gen,以及Google DeepMind的Veo 2。這些模型能夠根據(jù)文字輸入生成更逼真、更高質(zhì)量的視頻,相較2023年有了顯著提升。
8. 小型模型展現(xiàn)強(qiáng)大性能
2022年,能夠在MMLU測(cè)試中達(dá)到60%以上分?jǐn)?shù)的最小模型是擁有5400億參數(shù)的PaLM。然而,到了2024年,微軟的Phi-3-mini僅需38億參數(shù)就能實(shí)現(xiàn)這一表現(xiàn)——短短兩年時(shí)間內(nèi),參數(shù)量縮減了142倍。
9. 復(fù)雜推理問題仍未完全解決
盡管使用“思維鏈”等推理方法極大地提升了大型語言模型(LLM)的表現(xiàn),但這些系統(tǒng)仍然無法可靠地解決邏輯推理問題,比如算術(shù)和規(guī)劃,尤其是在遇到比訓(xùn)練數(shù)據(jù)更復(fù)雜的情況時(shí)尤為明顯。這對(duì)AI的可靠性和在高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景中的適用性產(chǎn)生了重大影響。
10. AI智能體初步展現(xiàn)潛力
2024年,推出了名為RE-Bench的測(cè)試平臺(tái),專門評(píng)估AI智能體完成復(fù)雜任務(wù)的能力。在短期任務(wù)(2小時(shí)內(nèi))中,頂尖AI系統(tǒng)的表現(xiàn)是人類專家的4倍,但隨著任務(wù)持續(xù)時(shí)間延長到32小時(shí),人類專家的表現(xiàn)則反超AI達(dá)2倍之多。然而,在某些任務(wù)上(如編寫Triton內(nèi)核),AI智能體的表現(xiàn)已能匹敵人類專家,且更快速、更低成本。
04第三章:負(fù)責(zé)任的AI(Responsible AI)1. 用負(fù)責(zé)任AI標(biāo)準(zhǔn)評(píng)估AI系統(tǒng)還不普遍,但新的基準(zhǔn)逐漸興起。
去年AI指數(shù)曾指出,大語言模型(LLMs)缺乏統(tǒng)一的負(fù)責(zé)任AI(Responsible AI,簡稱RAI)評(píng)估標(biāo)準(zhǔn)。這一問題雖然還存在,但新興的評(píng)估工具開始填補(bǔ)這一空白,比如HELM Safety和AIR-Bench。
2. AI事故報(bào)告數(shù)量持續(xù)攀升。
根據(jù)AI事故數(shù)據(jù)庫的統(tǒng)計(jì),2024年報(bào)告的AI相關(guān)事故達(dá)到233起,創(chuàng)下歷史新高,比2023年增加了56.4%。
3. 組織已意識(shí)到負(fù)責(zé)任AI的風(fēng)險(xiǎn),但實(shí)際防范行動(dòng)跟不上。
麥肯錫的一項(xiàng)調(diào)查顯示,盡管許多組織意識(shí)到AI存在風(fēng)險(xiǎn),但并未積極采取措施應(yīng)對(duì)。調(diào)查中,領(lǐng)導(dǎo)者關(guān)注最多的三項(xiàng)風(fēng)險(xiǎn)分別是:AI系統(tǒng)的不準(zhǔn)確性(64%)、監(jiān)管合規(guī)問題(63%)和網(wǎng)絡(luò)安全風(fēng)險(xiǎn)(60%),但實(shí)際行動(dòng)并未完全到位。
4. 全球政策制定者對(duì)負(fù)責(zé)任AI表現(xiàn)出強(qiáng)烈興趣。
2024年,全球在AI治理方面的合作明顯增強(qiáng),許多主要國際組織如經(jīng)合組織(OECD)、歐盟(EU)、聯(lián)合國(UN)和非洲聯(lián)盟(AU),都發(fā)布了強(qiáng)調(diào)透明性、可解釋性以及可信賴性的負(fù)責(zé)任AI治理框架。
5. 公共數(shù)據(jù)資源迅速減少。
AI模型的訓(xùn)練依賴大量公開網(wǎng)頁數(shù)據(jù)。但最新研究發(fā)現(xiàn),越來越多網(wǎng)站開始限制數(shù)據(jù)抓取,2024年比2023年實(shí)施此類限制的比例大幅增加。在C4數(shù)據(jù)集中,限制抓取的數(shù)據(jù)比例從5–7%激增至20–33%。數(shù)據(jù)資源減少將直接影響數(shù)據(jù)的多樣性、模型的有效性和擴(kuò)展性,也促使研究人員探索新的數(shù)據(jù)受限學(xué)習(xí)方法。
6. 基礎(chǔ)模型研究的透明度有所提升,但仍需加強(qiáng)。
最新的基礎(chǔ)模型透明度指數(shù)顯示,從2023年10月到2024年5月,各大模型開發(fā)者的平均透明度得分從37%提升到58%。雖然進(jìn)步明顯,但仍有巨大提升空間。
7. 關(guān)于事實(shí)性和真實(shí)性的AI評(píng)測(cè)標(biāo)準(zhǔn)逐漸完善。
之前用于評(píng)估AI模型事實(shí)性和真實(shí)性的基準(zhǔn)(如HaluEval、TruthfulQA)未能廣泛推廣。為此,新的、更全面的評(píng)估方法逐漸涌現(xiàn),比如新版的休斯“幻覺”評(píng)估模型(Hughes Hallucination Evaluation Model)排行榜,以及FACTS和SimpleQA等評(píng)估工具。
8. AI相關(guān)的選舉虛假信息在全球傳播,但實(shí)際影響尚不明確。
2024年,全球十多個(gè)國家的至少10個(gè)社交媒體平臺(tái)上出現(xiàn)大量AI生成的選舉虛假信息,包括美國總統(tǒng)選舉期間。然而,這些虛假信息的真實(shí)影響程度依然不明朗,人們?cè)绢A(yù)計(jì)的重大影響并未完全實(shí)現(xiàn)。
9. 明確訓(xùn)練以消除偏見的大語言模型仍存在隱性偏見。
許多先進(jìn)的大語言模型(如GPT-4、Claude 3 Sonnet)雖然在設(shè)計(jì)階段已嘗試減少明確的偏見,但仍顯示出明顯的隱性偏見。這些模型傾向于把負(fù)面詞匯與黑人關(guān)聯(lián),把女性更多地與人文學(xué)科而非科學(xué)技術(shù)聯(lián)系起來,并更傾向于將男性與領(lǐng)導(dǎo)角色關(guān)聯(lián),強(qiáng)化了決策過程中的種族和性別偏見。盡管在基準(zhǔn)測(cè)試中的偏見指標(biāo)有所改善,但AI模型的偏見問題依舊突出。
10. 學(xué)術(shù)界越來越關(guān)注負(fù)責(zé)任AI研究。
2024年,主流AI學(xué)術(shù)會(huì)議中被接受的負(fù)責(zé)任AI相關(guān)論文數(shù)量達(dá)到1278篇,比2023年(992篇)增加了28.8%。這一趨勢(shì)自2019年以來穩(wěn)步提升,顯示學(xué)術(shù)界對(duì)負(fù)責(zé)任AI議題的持續(xù)關(guān)注與日益重視。
05第四章:經(jīng)濟(jì)篇1. 全球人工智能私人投資創(chuàng)新高,增速達(dá)26%
2024年,全球企業(yè)對(duì)人工智能(AI)的投資達(dá)到創(chuàng)紀(jì)錄的2523億美元,其中私人投資增幅高達(dá)44.5%,企業(yè)并購活動(dòng)則增長了12.1%。過去十年,這一領(lǐng)域呈現(xiàn)爆發(fā)式增長,投資總額相比2014年已增長了超過13倍。
2. 生成式AI投資激增
生成式AI在2024年的私人投資達(dá)到了339億美元,比2023年增長18.7%,更是2022年投資水平的8.5倍以上。目前,生成式AI已經(jīng)占到全部AI相關(guān)私人投資的20%以上。
3. 美國進(jìn)一步鞏固在全球AI私人投資中的領(lǐng)先地位
2024年,美國在AI領(lǐng)域的私人投資高達(dá)1091億美元,幾乎是中國(93億美元)的12倍,更是英國(45億美元)的24倍。尤其是在生成式AI領(lǐng)域,美國的投資額超過了中國、歐盟和英國之和254億美元,遠(yuǎn)高于2023年的218億美元,領(lǐng)先優(yōu)勢(shì)進(jìn)一步擴(kuò)大。
4. AI應(yīng)用達(dá)到空前水平
2024年,調(diào)查中表示所在組織使用AI的受訪者比例,從2023年的55%躍升至78%。尤其是在生成式AI方面,使用這一技術(shù)至少在一個(gè)業(yè)務(wù)環(huán)節(jié)中的比例更是大幅增長,從2023年的33%迅速增加到去年的71%。
5. AI開始為企業(yè)帶來財(cái)務(wù)收益,但整體處于初期階段
盡管越來越多企業(yè)表示在某些業(yè)務(wù)領(lǐng)域采用AI后實(shí)現(xiàn)了財(cái)務(wù)收益,但目前收益整體仍然偏低。在服務(wù)運(yùn)營領(lǐng)域,49%的企業(yè)表示AI幫助節(jié)省了成本;其次是供應(yīng)鏈管理(43%)和軟件工程(41%),但多數(shù)企業(yè)節(jié)省的成本不足10%。在收入方面,營銷與銷售領(lǐng)域71%的企業(yè)表示AI帶來收入增長;供應(yīng)鏈管理為63%,服務(wù)運(yùn)營為57%,但收入增幅普遍低于5%。
6. 全球AI應(yīng)用區(qū)域版圖劇變,大中華區(qū)快速崛起
雖然北美地區(qū)仍處于AI應(yīng)用的領(lǐng)先地位,但大中華區(qū)在過去一年中的增長尤為突出,AI在企業(yè)中的應(yīng)用比例同比上升27個(gè)百分點(diǎn),歐洲緊隨其后,增幅達(dá)到23個(gè)百分點(diǎn)。這顯示全球AI格局正在快速演變,各地區(qū)競(jìng)爭(zhēng)日趨激烈。
7. 中國在工業(yè)機(jī)器人領(lǐng)域繼續(xù)保持領(lǐng)先,優(yōu)勢(shì)略有收窄
2023年,中國新增工業(yè)機(jī)器人27.63萬臺(tái),安裝量是日本的6倍、美國的7.3倍。自2013年首次超過日本后,中國工業(yè)機(jī)器人的全球份額從20.8%提升到51.1%。雖然中國機(jī)器人安裝數(shù)量仍超過全球其他國家之和,但這一領(lǐng)先優(yōu)勢(shì)在2023年略有縮小,顯示其快速擴(kuò)張有所放緩。
8. 協(xié)作型和互動(dòng)型機(jī)器人日益普及
2017年,協(xié)作型機(jī)器人僅占新增工業(yè)機(jī)器人安裝量的2.8%,而到2023年已提升至10.5%。此外,2023年除醫(yī)療領(lǐng)域外,各個(gè)領(lǐng)域的服務(wù)機(jī)器人安裝量也普遍上升。這反映出機(jī)器人不僅數(shù)量增加,其應(yīng)用方向也正越來越多地面向人與機(jī)器人互動(dòng)協(xié)作的場(chǎng)景。
9. AI推動(dòng)能源結(jié)構(gòu)重大轉(zhuǎn)型,核能引發(fā)關(guān)注
微軟宣布投入16億美元重啟“三哩島”核反應(yīng)堆,以滿足AI算力需求。此外,谷歌和亞馬遜也已簽署核能合作協(xié)議,以支持其AI相關(guān)業(yè)務(wù)的能源需求。
10. AI提高生產(chǎn)力,縮小技能差距
去年AI指數(shù)首次強(qiáng)調(diào)了AI對(duì)生產(chǎn)力積極影響的研究成果。今年更多研究進(jìn)一步證實(shí)了這一結(jié)論:AI不僅提高了整體生產(chǎn)力,在大多數(shù)情況下,也縮小了低技能和高技能勞動(dòng)者之間的差距。
06第五章:科學(xué)與醫(yī)學(xué)1. 更強(qiáng)大的蛋白質(zhì)測(cè)序模型出現(xiàn)
2024年,多款超大規(guī)模高性能蛋白質(zhì)測(cè)序模型問世,其中最引人矚目的是ESM3和AlphaFold 3。這些模型在過去一段時(shí)間不斷擴(kuò)容,體量越來越大,預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確性也持續(xù)提高。
2. AI繼續(xù)推動(dòng)科學(xué)發(fā)現(xiàn)快速進(jìn)步
人工智能在推動(dòng)科學(xué)發(fā)展的過程中,角色愈發(fā)關(guān)鍵。如果說2022和2023年是AI輔助科學(xué)突破的初步階段,那么2024年的成果更是令人振奮。例如,名為Aviary的項(xiàng)目訓(xùn)練出專注于生物任務(wù)的大模型代理,而FireSat則大幅提高了森林火災(zāi)預(yù)測(cè)能力。
3. 頂尖大模型的臨床醫(yī)學(xué)知識(shí)持續(xù)提升
OpenAI近期發(fā)布的新模型o1,在醫(yī)學(xué)知識(shí)的權(quán)威測(cè)試——MedQA基準(zhǔn)中,刷新紀(jì)錄,達(dá)到了96.0%的準(zhǔn)確率。這一成績比2023年的最好成績提高了5.8個(gè)百分點(diǎn)。事實(shí)上,從2022年末至今,性能累計(jì)提升幅度達(dá)到28.4個(gè)百分點(diǎn)。MedQA作為評(píng)測(cè)臨床醫(yī)學(xué)知識(shí)的權(quán)威基準(zhǔn)可能即將觸及性能極限,未來需要更具挑戰(zhàn)性的評(píng)估方法。
4. AI在關(guān)鍵臨床任務(wù)上超越醫(yī)生
一項(xiàng)最新研究表明,僅僅依靠GPT-4診斷復(fù)雜病例,就已超過了普通醫(yī)生,甚至勝過了借助AI輔助的醫(yī)生。其他近期的研究也顯示,AI在癌癥診斷、高死亡風(fēng)險(xiǎn)病人識(shí)別等方面都表現(xiàn)出色。不過,也有一些初步研究指出,AI與醫(yī)生協(xié)作的效果可能更佳,因此這也是未來研究的重要方向。
5. 獲FDA批準(zhǔn)的AI醫(yī)療設(shè)備數(shù)量飛速增加
FDA(美國食品藥品監(jiān)督管理局)在1995年首次批準(zhǔn)了AI醫(yī)療設(shè)備,2015年前總共只批準(zhǔn)了6款。但到2023年,這個(gè)數(shù)字猛增至223款。
6. 合成數(shù)據(jù)在醫(yī)學(xué)領(lǐng)域展現(xiàn)巨大潛力
2024年的研究表明,通過AI生成的合成數(shù)據(jù)可以幫助模型更準(zhǔn)確地識(shí)別健康的社會(huì)決定因素、提升隱私保護(hù)的臨床風(fēng)險(xiǎn)預(yù)測(cè)能力,還能促進(jìn)新藥物化合物的發(fā)現(xiàn)。
7. 醫(yī)學(xué)AI倫理研究逐年增多
醫(yī)學(xué)AI倫理研究的論文數(shù)量自2020年至2024年顯著增加,從2020年的288篇,躍升至2024年的1031篇,增長近四倍。
8. 基礎(chǔ)大模型進(jìn)入醫(yī)學(xué)領(lǐng)域
2024年,多款醫(yī)學(xué)領(lǐng)域的大規(guī)模基礎(chǔ)模型集中問世,其中既包括像Med-Gemini這樣通用型的多模態(tài)模型,也有專門針對(duì)心臟超聲檢查的EchoCLIP、放射影像的ChexAgent等專業(yè)模型。
9. 公開蛋白質(zhì)數(shù)據(jù)庫規(guī)模迅速擴(kuò)大
自2021年以來,主流公開蛋白質(zhì)數(shù)據(jù)庫條目的數(shù)量迅速增長,其中UniProt增加31%,PDB增加23%,而AlphaFold數(shù)據(jù)庫更是暴增585%。這種增長對(duì)科學(xué)研究和發(fā)現(xiàn)具有深遠(yuǎn)意義。
10. AI研究榮獲兩項(xiàng)諾貝爾獎(jiǎng)
2024年,AI驅(qū)動(dòng)的研究首次斬獲諾貝爾獎(jiǎng)的殊榮,取得了歷史性突破。其中,谷歌DeepMind公司的Demis Hassabis和John Jumper因在AlphaFold蛋白質(zhì)折疊領(lǐng)域的開創(chuàng)性工作,榮獲諾貝爾化學(xué)獎(jiǎng);與此同時(shí),John Hopfield和Geoffrey Hinton因其在神經(jīng)網(wǎng)絡(luò)基礎(chǔ)理論上的貢獻(xiàn),獲得了諾貝爾物理學(xué)獎(jiǎng)。
07第六章:政策與治理1. 美國聯(lián)邦A(yù)I立法進(jìn)展緩慢,各州卻積極行動(dòng)領(lǐng)先一步
從2016年到2023年,美國州一級(jí)通過的AI相關(guān)法律數(shù)量從最初的1個(gè)迅速增加到49個(gè)。而僅2023年至2024年一年之內(nèi),這個(gè)數(shù)字更是翻了一倍多,達(dá)到了131個(gè)。相比之下,盡管聯(lián)邦層面提出的AI法案也在不斷增加,但最終通過的法案數(shù)量依舊非常少。
2. 全球政府紛紛加大AI基礎(chǔ)設(shè)施投入
各國政府正在大規(guī)模投入人工智能基礎(chǔ)設(shè)施建設(shè),加拿大宣布投入24億美元用于AI基礎(chǔ)設(shè)施建設(shè),中國則啟動(dòng)了475億美元的基金,用以推動(dòng)半導(dǎo)體產(chǎn)業(yè)的發(fā)展。法國承諾投入1170億美元建設(shè)AI基礎(chǔ)設(shè)施,印度承諾12.5億美元,沙特阿拉伯更是通過“超越計(jì)劃”(Project Transcendence)宣布將投資1000億美元發(fā)展AI。
3. 全球立法議程中“人工智能”話題持續(xù)升溫
在全球75個(gè)主要國家的立法活動(dòng)中,2024年提及AI的次數(shù)達(dá)到1889次,比2023年的1557次增長了21.3%。自2016年以來,全球立法機(jī)構(gòu)討論AI的次數(shù)累計(jì)增加了九倍以上。
4. 全球AI安全研究機(jī)構(gòu)快速擴(kuò)張,國際合作持續(xù)推進(jìn)
自2023年11月首屆AI安全峰會(huì)召開后,美國與英國率先成立了國際AI安全研究機(jī)構(gòu)。隨后,2024年5月在韓國召開的AI首爾峰會(huì)上,日本、法國、德國、意大利、新加坡、韓國、澳大利亞、加拿大以及歐盟也相繼宣布建立類似機(jī)構(gòu),國際合作與協(xié)調(diào)進(jìn)一步加強(qiáng)。
5. 美國聯(lián)邦政府出臺(tái)AI監(jiān)管規(guī)定數(shù)量激增
2024年,美國聯(lián)邦層面推出的AI相關(guān)監(jiān)管措施數(shù)量達(dá)到59項(xiàng),這比2023年的25項(xiàng)增長了一倍多。這些監(jiān)管措施由42個(gè)不同的聯(lián)邦機(jī)構(gòu)頒布,同樣是2023年頒布相關(guān)規(guī)定機(jī)構(gòu)數(shù)量(21個(gè))的兩倍。
6. 美國各州加速推出“深偽”(Deepfake)監(jiān)管政策
2024年之前,僅有加利福尼亞州、密歇根州、華盛頓州、德克薩斯州和明尼蘇達(dá)州5個(gè)州出臺(tái)了針對(duì)選舉中的深偽技術(shù)監(jiān)管措施。但在2024年,俄勒岡州、新墨西哥州和紐約州等15個(gè)州也紛紛跟進(jìn)出臺(tái)類似政策。截至2024年,全美已有24個(gè)州制定了相關(guān)法規(guī)。
08第七章:教育1. 美國高中計(jì)算機(jī)科學(xué)課程的普及程度小幅上升,但差距仍然明顯。
學(xué)生參與計(jì)算機(jī)科學(xué)(CS)課程的情況仍然因州別、種族、學(xué)校規(guī)模、地理位置、收入、性別和殘障情況存在較大差距。
2. 美國計(jì)算機(jī)科學(xué)教師希望教授AI,但大多感到力不從心。
盡管有81%的計(jì)算機(jī)科學(xué)教師認(rèn)為AI相關(guān)知識(shí)和技能應(yīng)納入基礎(chǔ)CS課程中,但實(shí)際上,不足一半的高中計(jì)算機(jī)科學(xué)教師表示有能力教授AI。
3. 全球約三分之二國家已開展或計(jì)劃開展從幼兒園到高中階段的計(jì)算機(jī)科學(xué)教育。
自2019年以來,這一比例翻了一倍,其中非洲和拉丁美洲國家的進(jìn)步最為明顯。不過,非洲國家由于學(xué)校缺乏電力,學(xué)生獲得計(jì)算機(jī)科學(xué)教育的機(jī)會(huì)依然最低。
4. 美國獲得AI碩士學(xué)位的人數(shù)在2022年至2023年間幾乎翻了一倍。
雖然AI學(xué)科在本科和博士層面的增長較為緩慢,但碩士學(xué)位數(shù)量的迅速增加可能預(yù)示著未來所有學(xué)位層次的趨勢(shì)。
5. 美國仍是全球信息技術(shù)與通信(ICT)畢業(yè)生的主要輸出國。
西班牙、巴西和英國緊隨其后。值得注意的是,土耳其在ICT相關(guān)畢業(yè)生的性別平等方面表現(xiàn)最佳。
09第八章:公眾意見1. 全球?qū)I產(chǎn)品和服務(wù)的樂觀態(tài)度穩(wěn)步提升。
Ipsos調(diào)查了2022年和2024年26個(gè)國家公眾對(duì)AI的態(tài)度,其中18個(gè)國家認(rèn)為AI產(chǎn)品和服務(wù)利大于弊的比例有所增加。全球平均來看,這一比例從2022年的52%升至2024年的55%。
2. 公眾對(duì)AI將顯著影響日常生活的預(yù)期明顯增強(qiáng)。
全球三分之二的公眾認(rèn)為AI將在未來3到5年內(nèi)顯著影響日常生活,比2022年增加了6個(gè)百分點(diǎn)。除馬來西亞、波蘭和印度外,其余國家的這一比例均有所增加,加拿大(17%)和德國(15%)增幅最大。
3. 大眾對(duì)AI企業(yè)的道德規(guī)范產(chǎn)生更多質(zhì)疑,對(duì)AI公平性的信任有所下降。
全球范圍內(nèi),認(rèn)為AI企業(yè)能保護(hù)個(gè)人數(shù)據(jù)的信任比例從2023年的50%下降至2024年的47%。同時(shí),相信AI系統(tǒng)公正、不帶歧視偏見的人數(shù)也有所減少。
4. 不同地區(qū)對(duì)AI的樂觀態(tài)度仍存在較大差異。
2023年AI指數(shù)首次提出的地區(qū)差異至今仍很明顯。中國(83%)、印尼(80%)和泰國(77%)對(duì)AI樂觀程度最高,而加拿大(40%)、美國(39%)和荷蘭(36%)則相對(duì)悲觀。
5. 美國民眾對(duì)自動(dòng)駕駛汽車的恐懼依舊較高。
美國汽車協(xié)會(huì)調(diào)查顯示,美國61%的受訪者害怕自動(dòng)駕駛汽車,只有13%的受訪者表示信任。盡管較2023年68%的恐懼比例略有下降,但仍然高于2021年的54%。
6. 美國地方?jīng)Q策者廣泛支持對(duì)AI進(jìn)行監(jiān)管。
2023年,美國地方層面(鄉(xiāng)鎮(zhèn)、市政、縣級(jí))決策者中有73.7%贊同應(yīng)對(duì)AI進(jìn)行監(jiān)管,比2022年的55.7%大幅提升。民主黨決策者(79.2%)比共和黨決策者(55.5%)的支持程度更高。
7. 原本最懷疑AI的一些國家,樂觀程度反而快速上升。
在全球范圍內(nèi),過去對(duì)AI最懷疑的英國(38%)、德國(37%)、美國(35%)、加拿大(32%)和法國(31%)民眾的樂觀比例分別提高了8%、10%、4%、8%和10%。
8. 工作者認(rèn)為AI會(huì)改變工作方式,但擔(dān)心被取代的比例較低。
全球60%的受訪者相信AI會(huì)在未來五年改變自己的工作方式,但只有36%的受訪者擔(dān)心AI會(huì)取代自己的工作。
9. 美國地方?jīng)Q策者在AI政策優(yōu)先事項(xiàng)上分歧明顯。
盡管廣泛支持監(jiān)管AI,但地方?jīng)Q策者在具體政策上存在分歧。支持度最高的政策包括嚴(yán)格的數(shù)據(jù)隱私規(guī)則(80.4%)、失業(yè)者再培訓(xùn)(76.2%)和AI部署監(jiān)管(72.5%);而禁止執(zhí)法機(jī)構(gòu)使用面部識(shí)別(34.2%)、工資補(bǔ)貼(22.9%)和全民基本收入(24.6%)的支持度較低。
10. AI被普遍認(rèn)為能節(jié)省時(shí)間、豐富娛樂,但對(duì)經(jīng)濟(jì)影響的積極評(píng)價(jià)相對(duì)較低。
全球55%的受訪者認(rèn)為AI能節(jié)省時(shí)間,51%認(rèn)為AI能提供更好的娛樂選擇。然而,僅有38%認(rèn)為AI能改善健康,36%認(rèn)為AI能促進(jìn)經(jīng)濟(jì),31%看好就業(yè)市場(chǎng),37%覺得AI能增強(qiáng)自己的工作表現(xiàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.