99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

解道奧賽題成本5000美元?陶哲軒警告,AI下一步要規模化的更便宜

0
分享至

機器之心報道

機器之心編輯部

人工智能和數學是密不可分的。

AI 的發展離不開數學的進步,同時 AI 的進步也離不開解決數學問題的能力。

在剛結束不久的 IMO 競賽中,谷歌的新一代 Gemini 進階版模型成功解決了六道超高難度試題中的五道,達到了今年 IMO 的金牌水平(35/42),成為首個獲得奧賽組委會官方認定為金牌的 AI 系統。

加州大學洛杉磯分校數學系終身教授,菲爾茲獎獲得者,被稱為「數學莫扎特」的華人數學家 陶哲軒,參加了今年度 IMO 競賽的頒獎典禮。

他同樣也對在 IMO 取得成績的 AI 模型十分關注。

但他同樣表達了一定程度的擔憂,希望明年能夠在更加受控的環境下對 AI 模型進行科學比較和評估。



陶教授認為:一些在標準考試條件下可能連銅牌都難以穩定獲得的學生或隊伍,在某些經過修改的賽制下,反而可能穩定地達到金牌水平。

因此,在沒有采用統一、非參賽隊自選的控制性測試方法的前提下,對于不同 AI 模型在類似 IMO 等競賽中的表現,應當謹慎看待,避免作出過于簡單化的「對等」比較。



陶教授對人工智能的發展和評估的關心是一貫的。就在剛剛,他在 mathstodon 上發表了對于人工智能發展現狀的觀點和對于未來的評估策略的建議。

人工智能技術現已迅速接近從定性到定量成果的轉型階段。

隨著一項技術成熟,關注點往往會從定性的成就轉移,例如誰第一個實現了某個目標,轉向更定量的衡量標準,例如完成單個任務需要多少資源和專業知識,以及會產生多少環境影響和傷害風險。

這是一個必要的轉變,以便將技術從概念驗證擴展到大規模應用。

舉兩個例子:諸如萊特兄弟在 1903 年首次實現動力、可控、比空氣重的飛行;林德伯格在 1927 年首次獨自不間斷跨大西洋飛行。

但真正讓跨大西洋航空旅行變得低成本、安全且對發達國家中產階級來說可以定期負擔得起的,并不是這些初期的壯舉,而是從上世紀 50 年代開始,長達數十年的噴氣式航空技術的持續發展,以及與之配套的基礎設施和后勤系統的穩步完善。這些工作雖枯燥,卻至關重要。



相比之下,阿波羅計劃雖曾在 1969 年成功實現了載人登月的里程碑,但代價極為高昂。與航空領域的發展不同,太空探索在成本降低方面并未取得顯著進展。



如今,幾乎任何一個具體的概念驗證目標,只要投入足夠的資源和專業團隊,都有可能在未來幾年內通過類似「登月計劃」式的 AI 項目實現。

但真正要將這些技術大規模部署到現實世界中,關鍵問題已經從「能否做到」轉向了「如何以更低成本、更高安全性和更強可擴展性實現」。

簡而言之,就是人工智能需要「降本增效」。這與評估 AI 模型的方式密不可分。

在宣布某一目標完成時,顯然有必要同步報告其所消耗的資源成本。但同樣重要的是,也應報告失敗案例,以更準確地評估成功率 —— 這是衡量預期成本的關鍵部分。

舉例來說,如果某個先進的 AI 工具每次嘗試解決一道奧賽級別的問題需要耗費約 1000 美元的算力資源,但成功率只有 20%,那么平均每成功解決一次問題的實際成本就是 5000 美元。如果只報告那 20% 的成功案例,就會對實際成本形成嚴重誤導。

同理,如果這些成功案例是在有高薪專家全程監督、監控,甚至準備隨時介入的前提下完成的 —— 即使最終沒有觸發人工干預,這部分「待命成本」也應計入整個過程的實際成本。



盡管未來的擴展規律(scaling laws)可能會有所變化,但可以預見的是,最耗費資源的 AI 系統依然會比那些廉價模型更強大。因此,在實際應用中,「輕量型」與「密集型」AI 工具各有其用武之地

以陶教授最近完成的「等式理論項目(Equational Theories Project)」為例:在總共需要證明的 2200 萬條蘊涵關系中,絕大多數是通過非常簡單的暴力方法完成的;剩下的很大一部分則由中等強度的自動定理證明器(ATP)解決;再往后,一部分由人類參與者解決,最后少數幾個疑難問題,則依賴多個研究人員與 ATP 工具協作攻克。

盡管并未大量使用像大型語言模型這樣的現代 AI,但陶教授預計未來類似的大規模項目會呈現類似的發展路徑:

項目的絕大部分由「廉價」AI 完成,而「昂貴」的高級 AI 則與人類專家協同作戰。

展望未來,標準化的基準測試和競賽將變得越來越重要,特別是那些要求提前披露資源使用和方法細節的評測機制。這對于準確衡量 AI 技術的「量變」進展至關重要。

這與陶教授在 IMO 競賽后對 AI 公司自我披露競賽結果擔憂的觀點是一脈相承的。



當前依賴自我報告成果的現狀,在技術發展的「質變」初期階段尚且可以接受,但隨著 AI 進入廣泛落地和實際部署階段,這種方式就必須被更透明、可對比的標準化評估所取代



陶哲軒教授的觀點站在了歷史的角度,但同樣也有網友回望歷史而對人工智能的普及暗含的風險而表示擔憂。



完整內容請參閱原始推文:https://mathstodon.xyz/@tao/114910028356641733

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
泰柬之戰:兩個東盟近鄰,為何生死相搏?

泰柬之戰:兩個東盟近鄰,為何生死相搏?

觀察者網
2025-07-25 11:24:09
湖南考生625分被四川大學退檔,提檔分619,因不服從調劑沒書讀

湖南考生625分被四川大學退檔,提檔分619,因不服從調劑沒書讀

小義了不休
2025-07-24 17:53:10
外資大廠,全面退出中國市場!

外資大廠,全面退出中國市場!

感知芯視界
2025-07-24 16:17:21
王思聰首度回應黃一鳴:理解她的艱難,反對蹭熱度,不要模仿韋雪

王思聰首度回應黃一鳴:理解她的艱難,反對蹭熱度,不要模仿韋雪

大笑江湖史
2025-07-26 07:29:28
“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

山河月明史
2025-07-08 14:24:38
獨家 | 央視悄悄刪除和懂車帝聯名字樣,原因是這樣的……

獨家 | 央視悄悄刪除和懂車帝聯名字樣,原因是這樣的……

大廠觀察
2025-07-26 09:33:43
北京地鐵讓位后續!大媽身份被扒,原來美國待不下去 回國找優越感

北京地鐵讓位后續!大媽身份被扒,原來美國待不下去 回國找優越感

奇思妙想生活家
2025-07-26 07:45:49
大運會獎牌榜:中國隊前二位置不穩,日本隊2天狂攬12金追上來

大運會獎牌榜:中國隊前二位置不穩,日本隊2天狂攬12金追上來

燒體壇
2025-07-26 08:45:43
票房慘案!姜文《你行你上!》血虧2.6億元!投資人深夜痛哭

票房慘案!姜文《你行你上!》血虧2.6億元!投資人深夜痛哭

行者聊官
2025-07-24 11:30:39
小米新車暴跌12萬,雷軍撐不住了

小米新車暴跌12萬,雷軍撐不住了

互聯網品牌官
2025-07-23 14:14:48
比亞迪搞太陽能車頂,一箱油多跑200公里,這回把電動車卷上天了

比亞迪搞太陽能車頂,一箱油多跑200公里,這回把電動車卷上天了

阿傖說事
2025-07-24 09:54:53
千萬網紅小飛退網!扎根巴鐵8年花千萬扶貧,妻兒出事了無奈回國

千萬網紅小飛退網!扎根巴鐵8年花千萬扶貧,妻兒出事了無奈回國

好賢觀史記
2025-07-25 15:06:21
湖南藝術職業學院副院長譚鐵軍擬提名為市州政府副職人選

湖南藝術職業學院副院長譚鐵軍擬提名為市州政府副職人選

澎湃新聞
2025-07-26 10:56:32
周恩來晚年揭秘:若沒有毛主席,在茍壩紅軍將全軍覆沒!

周恩來晚年揭秘:若沒有毛主席,在茍壩紅軍將全軍覆沒!

巷子里的歷史
2025-07-25 16:57:22
同性戀,收金條,保姆實名舉報,何炅央媒公開回應,發言惹人心疼

同性戀,收金條,保姆實名舉報,何炅央媒公開回應,發言惹人心疼

新語愛八卦
2025-07-25 17:37:02
先幫火箭隊拿下冠軍,再終老休城!22歲新星霸氣發聲,彰顯高情商

先幫火箭隊拿下冠軍,再終老休城!22歲新星霸氣發聲,彰顯高情商

熊哥愛籃球
2025-07-26 12:46:55
供貨亞馬遜、谷歌等巨頭,泰凌微上半年歸母凈利同比預增267%,“連接+算力”雙輪驅動

供貨亞馬遜、谷歌等巨頭,泰凌微上半年歸母凈利同比預增267%,“連接+算力”雙輪驅動

時代投研
2025-07-25 21:08:03
同省同名同姓“蔡光輝”,先后雙雙落馬

同省同名同姓“蔡光輝”,先后雙雙落馬

新京報政事兒
2025-07-26 08:24:39
大疆官宣首款掃地機器人:無人機技術降維打擊!

大疆官宣首款掃地機器人:無人機技術降維打擊!

科技數碼阿偉
2025-07-24 15:19:02
《掃毒風暴》大結局!本以為林強峰犧牲意難平,沒想到卻是馬英子

《掃毒風暴》大結局!本以為林強峰犧牲意難平,沒想到卻是馬英子

小樾說歷史
2025-07-26 09:10:40
2025-07-26 12:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10945文章數 142394關注度
往期回顧 全部

科技要聞

AI教父辛頓現身上海:人類如何不被AI殺掉

頭條要聞

3元面館因"48元一杯茅臺"爆火 店主:身心俱疲 已下架

頭條要聞

3元面館因"48元一杯茅臺"爆火 店主:身心俱疲 已下架

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

王菲近況惹人憂!謝霆鋒疑似重操“老本行”?

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態度原創

游戲
教育
手機
旅游
健康

曝《戰地6》吃雞模式免費玩 本體發售的幾個月后推出

教育要聞

開開心心 無畏學習

手機要聞

華為Mate XTs消息現身,升級點非常多

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 邢台县| 牡丹江市| 图片| 德安县| 卢龙县| 卫辉市| 文水县| 盱眙县| 宜宾县| 新和县| 平舆县| 新化县| 呼图壁县| 方城县| 英山县| 来宾市| 禄丰县| 萨嘎县| 丘北县| 江川县| 元谋县| 南溪县| 兴化市| 呼伦贝尔市| 栖霞市| 鹰潭市| 澳门| 肇庆市| 武宁县| 七台河市| 吴桥县| 酒泉市| 长葛市| 灌云县| 乌苏市| 康定县| 潜山县| 甘孜| 南江县| 于都县| 辽阳市|