99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

上海交大/上海AI Lab翟廣濤:當評測不再重要,AGI就實現了

0
分享至




機器之心原創

作者:聞菲

  • 上海交通大學教授、上海人工智能實驗室雙聘研究員翟廣濤認為,完美的 AI 評測體系本身就等同于通用人工智能。

人工智能的世界里,數字似乎就是一切。幾乎每周,都有某個新發布的 AI 模型在基準測試中打破紀錄,MMLU、SuperCLUE、HLE……這些曾經只在學術圈流轉的晦澀代號,如今成為衡量一個個大模型「智商」的通用貨幣,是決定其市場聲譽乃至背后公司估值的關鍵砝碼。

然而,勝利捷報的 B 面,一種深層的困惑正在蔓延。

「我們看到大模型能力越來越強,分數越來越高,但這些對個人來說究竟有什么用,我們并不知道。」上海交通大學教授、上海人工智能實驗室雙聘研究員翟廣濤告訴機器之心:「除了文字總結這類相對簡單的工作外,好像沒有解決很多實際問題。代碼能力的受眾畢竟有限。」

這位在多媒體信號處理領域深耕二十余年的學者,正將注意力轉向「AI 評測」這個近來重要性急劇提升的領域。當預訓練的邊際效益開始遞減,評測已躍升為倒逼技術進步、連接模型潛力與真實價值的關鍵杠桿。

表面上看,當今評判 AI 的體系嚴謹而精密,但翟廣濤認為,這場圍繞分數的競賽不僅未能準確衡量真正的智能,反而讓我們陷入了一種對進步的集體誤判與過度樂觀。分數的攀升掩蓋了尺子本身的問題。這讓他意識到,評測的困境,本質上就是我們對智能理解的困境。這一思考的終點,是他的核心論斷:

一個完美的評測體系,其存在本身就等同于通用人工智能。因此,當我們不再需要評測時,AGI 或許才真正到來。

進步的幻覺

評測體系面臨的首要問題是「數據污染」。由于大多數基準測試都是公開的,它們的題目和答案往往會被納入下一代模型的訓練數據中。

「基本上,大公司都會把與評測數據集相類似的數據放到訓練集里面去,」翟廣濤教授表示:「這幾乎是行業默認的操作,不然模型分數“刷”不高。」

這種做法的問題顯而易見,就像讓學生提前拿到考試答案一樣,它讓評測失去了應有的診斷價值。2025 年 4 月,一篇題為《排行榜的幻覺》(The Leaderboard Illusion)的論文揭示了更深層的問題。該研究發現,業界最受推崇的 Chatbot Arena 存在系統性漏洞,少數大模型廠商不但可以進行大規模秘密內測,選擇性公布最優成績,還能利用平臺規則攫取海量用戶偏好數據,最終導致模型優化方向過度擬合于該平臺的特定偏好,而非發展通用的真實能力。

其次是「原子化能力」評測的局限性。

為了實現量化,當前評測體系傾向于將復雜的「智能」拆解為一個個獨立的原子能力——數學推理、代碼生成、語言理解、常識問答,等等。這種做法固然便于打分和比較,卻面臨著一個認識困境。

「大模型的能力就像一塊海綿,里面有大量細小的空洞,」翟廣濤教授用這個比喻來解釋評測的核心挑戰,「評測時探測到的很多問題實際上是“洞”,而不是模型真正的能力邊界。最難的是,你無法確定檢測到的問題究竟反映的是模型能力的不足,還是僅僅因為它沒有關注到某個細節,而這個問題實際上通過簡單的提示優化就能解決?!?/p>

通過將「智能」拆解成數百個相對獨立的原子化技能,整個行業或許正在訓練模型成為應試專家,而非一個能融會貫通的整體。實際應用中,用戶需要的往往不是單項任務上的完美表現,而是在復雜、多步驟的任務流程中展現出的綜合判斷與適應能力。

這種脫節在具身智能領域表現得尤為明顯。例如,讓一個搭載了頂級 VLA 模型的機械臂執行「拿起桌上的易拉罐」這樣的指令,仿真環境中成功率接近 100%,但在真實世界里,zero-shot 成功率也許還不到 5%。「這也正是我們需要更精細、更貼近真實場景的評測體系的原因?!沟詮V濤教授說。

由于缺乏科技巨頭那樣的資源,許多高校研究者將評測視為仍能做出貢獻的領域。但為了滿足論文創新性的要求,研究者們不斷提出新的評測維度和指標,卻往往在發表后無人維護,導致整個領域呈現出嚴重的碎片化態勢。

「很多評測工作在某種程度上也是一種無奈,」翟廣濤教授坦言,「它成了為發表論文、為所謂創新而做出的被迫選擇。」這種現象不僅造成了資源的浪費,更重要的是,它可能正在將整個 AI 評測領域引向一個技術上精密但實用性存疑的方向。

而這,也引發了關于評測的主體危機——究竟誰才有資格成為裁判?

企業自評存在明顯的利益沖突;學術界盡管相對中立,但往往缺乏長期維護大規模測試平臺所需的資源。

上海人工智能實驗室的定位為解決這一問題提供了獨特的視角。作為新型研究機構,它能夠以相對中立的立場,投入長期資源來建設公正的評測平臺。「長期投入支持一個反映真實水平的公平公正榜單,這是很有必要并且值得的,」翟廣濤教授說。

回歸「以人為本」的坐標系

面對當前評測的種種問題,翟廣濤教授給出的解法是,回歸「以人為中心」(Human-Centered Evaluation)的坐標系。

「大模型終究要為人服務,」他強調:「評測的核心不應是模型與基準之間的對話,而應該是模型在多大程度上提升了人類完成任務的效率和體驗?!?/p>

「過去的二十年,視頻質量為什么能獲得如此顯著的提升?從模糊的在線視頻到隨處可見的 4K、8K 超高清,就是因為視覺信號一直以用戶的主觀體驗(Quality of Experience,QoE) 為目標。好看就是好看,不好就是不好。」

當然,主觀性評測面臨著可重復性和標準化的挑戰。翟廣濤團隊通過統計學方法來解決這個問題:「我們不是只看一個人的體驗,而是找一群具有代表性的用戶。當模型應用有明確指向時,比如面向科研工作者,我們就找科學家來測試;如果面向中小學教育,我們就找學生來提供反饋。多個反饋的平均值或分布在一定程度上能夠降低主觀隨機性,而且實際上這種方法更加公平。」

他帶領上海人工智能實驗室大模型開源評測司南(OpenCompass)團隊提出了一個由三大支柱構成的評測框架:

  • 信息質量(Information Quality):輸出內容是否準確、可靠,幻覺嚴不嚴重?模型的回答是否提供了可信的溯源,信息是否充分、深入?
  • 問題解決能力(Problem-Solving Capability):在一個完整的、多步驟的任務流中,模型在每個決策點的策略是否有效,思考是否全面?這也要求評測走向場景化,考察其是否合理規劃,有效處理邊界情況,提升了用戶任務完成的體驗。
  • 交互體驗(Interaction Experience):與模型協作的過程是否順暢、高效、符合直覺?這一點,恰恰是傳統離線評測完全忽略的。



為了將這套評測哲學落地,司南團隊設計了「EDGE」技術路徑,即 Evolving(演進的)、Dynamic(動態的)、Granular(粒度的)、Ecosystem(生態的),這是一個能夠適應 AI 高速發展、充滿生命力的動態構想。其核心思想是,評測體系必須通過持續演進的難度、動態變化的題型,來對抗模型能力的發展以及應試化。同時,它必須提供細粒度的診斷,并由整個社區共建共享。

為了從根本上解決數據污染問題,團隊更是投入巨大精力,建立了一個規模超十萬道題的高質量內部題庫。他們計劃采用逐步開源的方式,比如每季度開源 500 道題目,既確保了研究的可復現性,又避免了題庫被一次性污染而失效。

不僅如此,司南團隊還提出了一個更具雄心的目標——訓評一體。

「將評測放在訓練之外去說是沒有價值的,」翟廣濤教授強調:「評測的最終目的是反哺訓練?!?/p>

這里的關鍵技術是一個足夠好的「AI 裁判」(AI Judger)。通過大規模收集以人為中心評測中產生的真實用戶反饋,團隊訓練了一個與人類偏好高度對齊的 AI 評判模型,它可以作為獎勵模型,在下一輪訓練中指導基礎模型朝正確的方向優化。

司南團隊在上海人工智能實驗室周伯文主任提出的安全與性能共同增長的「45° 平衡律」(AI-45° Law)的基礎上,將模型的能力與安全(包括魯棒性、公平性、價值觀對齊等)視為兩個同等重要的評測坐標軸。大模型理想的發展軌跡大體沿著 45° 線同步提升,即能力的每一次躍升,都伴隨著安全性的同等增強。這為大模型的發展提供了一個清晰、健康的導航,避免了片面追求能力而忽視潛在風險的短視行為。

評測的終點,就是 AGI 的起點

回到我們最初的問題:如何丈量「智能」?

與物理量不同,智能沒有標準單位,也沒有絕對的測量基準。每一次評測都只是從特定角度的有限觀察。

更深層的悖論在于:評測者與被評測者之間的地位關系。「評測本質上是一種上位對下位的度量,」翟廣濤教授指出,「人類之所以能評測現有的 AI,是因為在通用智能的廣度與深度上,人類仍處于上位。但當一個智能體在所有維度上全面超越人類時,我們用什么標準去評判它呢?」

「一個完美的、萬能的評測體系,它的存在本身就等同于AGI?!?/p>

「所以,當評測這個領域變得不再重要的時候,AGI 可能就真的實現了,」翟廣濤教授說,「只要我們還需要拿著尺子去反復度量,就說明我們離那個階段還很遠?!?/p>

這里的「不再重要」并非指評測功能的消失,而是人類作為外部評測主體的謝幕。屆時,完美的自我評測能力將成為一種內生的、自我審視的功能,被 AGI 自身所包含。

這也為 AI 發展指明了下一個「圣杯」——構建終極評測體系的努力,本身就是通往 AGI 最重要的路徑。

基于這一愿景,司南團隊正在擘畫一個更為宏大的藍圖,致力于將具身智能、AI 安全、軟硬件系統乃至千行百業的垂直應用,全部納入一個統一、綜合性的權威評測框架之下。

「司南的愿景,是成為未來智能時代的度量衡,為 AI 技術的健康發展提供一個權威的參照系,引導全球的創新力量從無序的“刷分”競賽,走向真正創造價值的、以人為本的健康發展道路。」翟廣濤教授表示。



官網地址:https://opencompass.org.cn/home

在這個意義上,司南團隊的工作不僅僅是在設計測量工具,更是在探索智能的本質。每一次評測方法的改進,都是對智能邊界的新一輪推進;每一個新的評測維度,都是對智能未知側面的一次必要補充。

這或許是 AI 評測領域最深刻的悖論,也是最美妙的愿景:它的終極成功,恰恰在于自身的消亡。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
富保羅:當勒布朗退役后 人們將不得不找個新的替罪羊吸引收視率

富保羅:當勒布朗退役后 人們將不得不找個新的替罪羊吸引收視率

直播吧
2025-07-16 00:43:07
一場葬禮,相聲圈的人情冷暖,在楊少華身上體現得淋漓盡致!

一場葬禮,相聲圈的人情冷暖,在楊少華身上體現得淋漓盡致!

叨嘮
2025-07-16 03:33:23
章澤天曬打網球美照,嘴角現一大塊棕色血瘀,素顏出鏡變黑不少

章澤天曬打網球美照,嘴角現一大塊棕色血瘀,素顏出鏡變黑不少

西瓜愛娛娛
2025-05-28 09:07:10
棄辦四國賽?曝國足9月將不集訓!罕見給中超讓路+留充足時間選帥

棄辦四國賽?曝國足9月將不集訓!罕見給中超讓路+留充足時間選帥

我愛英超
2025-07-15 19:19:46
20多個國家領導人和10個國際組織負責人將出席上合組織天津峰會相關活動

20多個國家領導人和10個國際組織負責人將出席上合組織天津峰會相關活動

金臺資訊
2025-07-16 01:15:13
老婆讓我照顧她閨蜜一夜,她閨蜜說我老婆出軌,讓我今天以牙還牙

老婆讓我照顧她閨蜜一夜,她閨蜜說我老婆出軌,讓我今天以牙還牙

獅拓一葉知秋
2023-10-01 11:57:52
5年1.97億第3年~隊記:錫安新季合同將轉為完全保障 金額是3944萬

5年1.97億第3年~隊記:錫安新季合同將轉為完全保障 金額是3944萬

直播吧
2025-07-16 03:32:04
中國需準備應對俄羅斯解體,確保700萬土地安全

中國需準備應對俄羅斯解體,確保700萬土地安全

阿釗是個小小評論員
2025-07-09 17:34:00
解放軍通告全球!7月13日,以色列沒料到,5國采購中國大量武器

解放軍通告全球!7月13日,以色列沒料到,5國采購中國大量武器

智觀科技
2025-07-13 18:35:03
70歲的李琦:曾每天2包煙,頓頓8兩酒,跟去世前的楊少華如出一轍

70歲的李琦:曾每天2包煙,頓頓8兩酒,跟去世前的楊少華如出一轍

白面書誏
2025-07-15 17:34:48
宗家爭產事件牽連劉強東,男方被曝不止3個兒子,章澤天評論淪陷

宗家爭產事件牽連劉強東,男方被曝不止3個兒子,章澤天評論淪陷

古希臘掌管月桂的神
2025-07-15 20:04:27
反轉!魯尼走人后立刻炮轟勇士!怒斥科爾不尊重他,難怪離開庫里

反轉!魯尼走人后立刻炮轟勇士!怒斥科爾不尊重他,難怪離開庫里

嘴炮體壇
2025-07-15 11:44:48
特朗普曾私下鼓動澤連斯基打擊莫斯科?白宮回應

特朗普曾私下鼓動澤連斯基打擊莫斯科?白宮回應

環球網資訊
2025-07-15 23:10:39
宗馥莉給父親立的墓碑有“玄機”!留她母親的位置,打破離婚傳言

宗馥莉給父親立的墓碑有“玄機”!留她母親的位置,打破離婚傳言

明月雜談
2025-07-15 05:53:27
特朗普賭輸了!巴西反制教科書級操作,中國“反霸權”秘方外泄?

特朗普賭輸了!巴西反制教科書級操作,中國“反霸權”秘方外泄?

娛樂看阿敞
2025-07-14 15:38:34
特朗普:FIFA把世俱杯獎杯送了給我,然后重新制作了一座

特朗普:FIFA把世俱杯獎杯送了給我,然后重新制作了一座

懂球帝
2025-07-15 16:47:19
“是我失守了”!省公安廳原副廳長,為涉黑團伙站臺、充當黑惡勢力“保護傘”

“是我失守了”!省公安廳原副廳長,為涉黑團伙站臺、充當黑惡勢力“保護傘”

政知新媒體
2025-07-15 11:49:12
國足1-0中國香港獲東亞杯季軍,主帥久爾杰維奇:本該取得更多進球

國足1-0中國香港獲東亞杯季軍,主帥久爾杰維奇:本該取得更多進球

去山野間追風
2025-07-16 02:12:45
全網群嘲的“北漂全家月入9萬多”事件,這場鬧劇,早該結束了

全網群嘲的“北漂全家月入9萬多”事件,這場鬧劇,早該結束了

小楊侃事
2025-07-15 09:22:57
洛杉磯奧運會首金不再是射擊,中國射擊隊回應

洛杉磯奧運會首金不再是射擊,中國射擊隊回應

澎湃新聞
2025-07-15 13:00:07
2025-07-16 04:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10868文章數 142378關注度
往期回顧 全部

科技要聞

英偉達H20解禁,黃仁勛嚇壞平替?

頭條要聞

特朗普被指曾私下鼓動澤連斯基打擊莫斯科 白宮回應

頭條要聞

特朗普被指曾私下鼓動澤連斯基打擊莫斯科 白宮回應

體育要聞

在中國效力10年,45歲的傳奇外援退役了

娛樂要聞

董璇自曝再婚了!二婚老公被扒是張維伊?

財經要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

六座布局/深淺配色 仰望U8L內飾亮相

態度原創

本地
教育
健康
公開課
軍事航空

本地新聞

褲子那里鼓鼓的,當代都市麗人都被女裝做局了

教育要聞

“超前學習”的背后,是對孩子思維的捆綁

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普所謂"重大聲明"揭曉:對俄加關稅 對烏"送"導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 延庆县| 灯塔市| 定陶县| 武穴市| 菏泽市| 图片| 来凤县| 连南| 九龙坡区| 武夷山市| 舒兰市| 平潭县| 垦利县| 阳信县| 郴州市| 宜都市| 永胜县| 山丹县| 宝应县| 夏河县| 五河县| 晋州市| 雷波县| 阜城县| 门头沟区| 丰台区| 科技| 东乡族自治县| 象山县| 寿宁县| 油尖旺区| 泸西县| 武隆县| 增城市| 阿拉善左旗| 寿宁县| 比如县| 登封市| 务川| 连平县| 济阳县|