當前 AI 評測體系正面臨前所未有的信任危機。
過去兩年,各大模型在學術和標準化測試中不斷刷新紀錄,仿佛一夜之間,AI 已經無所不能。但在這片繁榮的景象之下,一個更深刻的矛盾正日益凸出:當模型的分數越來越趨同于滿分時,我們卻似乎離真實世界的價值應用越來越遠。
微軟 CEO 薩提亞·納德拉曾直言:“我們自詡達到某些 AGI 里程碑,這不過是荒謬的基準測試作弊。”他強調,評判 AI 成功的真正標準應是其對實體經濟的實際貢獻。
當高分模型在現實部署中屢屢碰壁,當針對性優化讓排行榜失去公信力,整個行業都需要思考一個關鍵問題:我們究竟需要什么樣的 AI 評測?
6 月 24 日,認知智能全國重點實驗室聯合中國科學院文獻情報中心等權威機構升級發布《通用大模型評測體系 2.0》。這一新標準正試圖將行業焦點從虛高的分數重新拉回到真實的價值創造——它不僅是評測維度的全面升級,也是對當前 AI 評測困局的一次系統性回應。
(來源:認知智能全國重點實驗室)
當 AI 評測偏離初心
近期,多個國際研究機構發現主流 AI 基準測試正遭遇嚴重的“信度危機”。
以 SWE-Bench 軟件工程評測為例,研究人員發現部分模型通過“針對性優化”取得高分,而非真正具備強大的通用代碼能力。同樣,在評估網絡導航能力的 WebArena 測試中,有模型通過學習特定 URL 結構“走捷徑”,在測試中表現優異,卻難以在復雜多變的真實環境中展現同等水平。
這種現象已成為行業普遍關注的問題。一方面,數據污染和針對性優化可能導致分數與實際能力存在偏差;另一方面,評測目標本身發生錯位,基準測試的排名也成為了作為宣傳模型能力的一種手段。
Epoch AI 的研究也證實了這一趨勢。在 MMLU 等主流測試中,頭部模型得分已接近甚至超越人類水平,評測區分度急劇下降。當所有頂尖模型擠在 90 分以上的狹窄區間時,分數上零點幾的差異,已很難真實反映模型之間在能力上的本質區別。
圖丨相關論文(來源:arXiv)
這一變化也反映在應用實踐中,模型在標準化測試中的優異表現,與其在具體業務場景中的實際效果之間存在一定差距。特別是在處理垂直領域專業知識、適配企業特定業務流程時,通用評測的參考價值相對有限。
通用基準測試無法有效衡量模型在特定場景下的專業能力,行業需要一把更精準、更務實、更安全的“度量衡”。
評測體系 2.0 的系統性革新
在這樣的背景下,《通用大模型評測體系 2.0》升級發布,從設計理念到技術架構上進行了一次系統性革新,推動 AI 評測從“技術驗證”邁向“價值證明”。
如果說在 1.0 時代,評測只關心模型“能否正確解答一道復雜的數學題”;2.0 時代,評測將深入考察模型“能否像一位經驗豐富的教師一樣,以清晰的教學邏輯講解這道題的解題思路,并根據不同學生的理解水平,設計出分層遞進的練習題”。
這種轉變背后,是“場景導向”原則的確立。2.0 體系的每一項評測設計,都力求對應一個具體應用場景及其核心痛點。為對抗“刷榜”,該體系引入動態更新機制,承諾對測試數據集進行季度性大比例刷新,防止廠商針對特定數據集過度優化。
此外,評測體系 2.0 還實現了三個維度的關鍵突破:
首先是規模的突破。評測任務從 481 項擴展至 1186 項,幾乎覆蓋所有主流應用領域。模態覆蓋從單一或雙模態擴展到文本、圖像、語音、視頻的全模態能力評估。更值得關注的是,新體系強調了中英文能力的并重發展,這不僅反映了中國市場的獨特性,也體現了中國 AI 產業在全球化背景下的雄心。
其次是專項的突破。針對垂直領域的專業化需求,評測體系 2.0 設立了多個高價值的專項評測。例如,“教育專項”緊密契合中國 K12 教育體系的特點,深入評估模型在智能備課、個性化輔導、作業批改等核心教學場景中的表現。又如,面向前沿科學探索的“科研專項”,即 AI4S(AI for Science,人工智能賦能科學發現),其評測內容涵蓋了物理、數學、化學、生物等 6 大科學領域的 98 項細分任務,旨在檢驗模型是否具備成為科研人員得力助手的能力。
最后是方法的突破。為了確保評測結果的公正與準確,評測體系 2.0 采用了“人工+自動”相結合的復合評測方法。對于那些難以用客觀指標量化的創造性、邏輯性任務,體系引入了嚴格的多人主觀雙盲評測,由不同領域的專家在互不知道對方身份和模型來源的情況下進行打分。同時,利用先進的 JudgeModel(評判模型)進行輔助評分,提高評測效率與一致性。采用“1+4”的立體評價體系,即一個總體評分,輔以對結果的相關度、連貫度、完整度、有效度四個子維度的精細化評估。
在全球對 AI 倫理和安全日益關注的當下,評測體系 2.0 也在安全合規維度進行了深化,構建包含 16 項細分指標的風險評估框架,不僅覆蓋傳統內容安全,還將“指令安全”納入評測維度,對標了中國《生成式人工智能服務管理暫行辦法》,確保通過評測的模型能夠滿足國內市場的合規要求。
評測維度下的模型競爭力解析
在新評測體系的多維度框架下,各大模型的競爭格局正在重塑。與以往單一榜單形成鮮明對比的是,我們看到了不同模型在不同領域展現出明顯的差異化能力。
通用能力上,以多模態為例,縱觀全球競爭格局,國際廠商 GPT-4o 和 Gemini 在模態融合深度上確實領先,但國內廠商也在特定方向上構建了獨特壁壘。
在語音方向,依據通用大模型評測體系 2.0,訊飛星火在“一句話聲音復刻技術”音色和風格兩個維度的 MOS 分分別為 4.46、4.48(滿分為 5 分),處于行業領先水平。這得益于其長期在語音領域的技術積累。這一技術優勢也正加速轉化為產業價值。據悉,今年 1 月蔚來發布的“Banyan 榕 3.1.0 版本”智能系統,其智能助手 NOMI 具備超擬人情感音色,背后靠的就是訊飛超擬人合成技術,這是行業首個車載生成式語音合成框架。
而在圖像生成、視頻生成等場景,豆包和 MiniMax 表現突出。豆包依托抖音生態的內容理解優勢,在 C 端應用上領先,目前,其 APP 端上線的豆包 P 圖、照片動起來等功能爆火,此外其圖像生成模型 Seedance 1.0(以及即夢)依靠較出色的文生視頻、圖生視頻能力與跟抖音生態的直接對接,在短視頻內容創作領域占據了較大的市場份額。
MiniMax 是多模態領域竄出的新勢力,其優勢在于“全模態理解+自動化執行”,不再走傳統意義上的“對話模型”,而是真正的多模態智能體,在全球 C 端市場獲得突破性成功,Hailuo 02 視頻生成模型、AI 語音模型 Speech-02 等憑借突出的生成質量和性價比在海外走紅,同樣在 C 端市場擁有良好口碑。
圖丨Hailuo 02 模型在海外社媒引起熱議(來源:X)
如果說通用能力是入場券,那么垂直領域的專業能力則是決定模型最終商業價值的關鍵。
2025 年,是醫療大模型爆發的關鍵一年。第三方數據顯示,2025 年上半年,市場上已有 288 個醫療大模型,中國醫療大模型市場規模達 82 億元,呈現快速增長態勢。在這一高度專業化的賽道上,涌現出訊飛星火醫療大模型、阿里螞蟻醫療大模型、騰訊優圖“天衍”醫學大模型等優秀模型,但各家商業化路線有所不同。
面向醫院的 B 端場景,醫療 AI 大模型主要用于輔助醫生診療,圍繞醫生在問診、檢查、診斷過程中的核心任務(如臨床輔助決策、醫學影像分析、醫療記錄管理等)展開。在醫學影像方面,騰訊和訊飛星火都有著不俗的表現,騰訊覓影依托騰訊混元大模型的底層能力,整合醫學知識圖譜和 3000 萬份醫療問答對話數據,構建了覆蓋“影像分析-報告生成-臨床決策”的全鏈條解決方案;訊飛星火醫學影像大模型也具備“智能質控-智能診斷-智能讀片”的全鏈條方案能力,其與華西醫院合作的病歷內涵質控系統,在呼吸內科、骨科的復雜質控任務中準確率達 90%。而臨床輔助層面,訊飛星火醫療大模型展現出領先優勢,在心血管內科、兒科、呼吸內科等專科的核心臨床診療場景中,大模型的綜合診療水平達到三甲醫院主治醫師標準,在完整性、實用性、可讀性等關鍵維度上顯著優于人類醫生。這得益于在醫療領域的深耕。科大訊飛自 2018 年起便圍繞中國基層全科診療場景進行布局,其輔助診斷系統最初服務于常見病與多發病。近幾年,公司不斷將技術能力延展至病歷質控、病歷生成和專科輔助診斷等更復雜場景,覆蓋范圍從基層延伸至二級、三級醫院。數據顯示,智醫助理累計提供超 10 億次 AI 輔診建議,規范病歷超 3.8 億次。
面向個人使用場景,諸如訊飛曉醫、平安好醫生等應用成效明顯。依托訊飛星火醫療大模型的強大能力,訊飛曉醫 APP 支持癥狀自查、藥物查詢、體檢報告解讀等功能,可通過多模態交互實現類真人問診,還能整合來自第三方健康數據平臺(如華為運動健康)、硬件設備(如血壓計、血糖儀)以及各類檢驗檢查單等多渠道健康數據,為用戶生成更精準的健康畫像,實現個性化的自我疾病管理。這方面,螞蟻近期也有相關動作,加速布局醫療大模型在個人健康管家方向的應用。
圖丨訊飛曉醫實測(來源:DeepTech 深科技)
再看教育行業,依據評測體系 2.0 教育評測專項,在智能備課、個性化輔導、作業批改等核心教學場景,融合行業數據的模型因其數據的專業性和對場景的深度理解,往往在特定任務上表現更佳。評測結果顯示,星火 X1 教育大模型在數學解答題步驟批改、英語主觀題評分批改和試題知識點預測三項任務中表現優異,而豆包 1.5-pro 在相似題判斷任務中成績領先。
就具體的應用來看,搭載星火大模型的訊飛 AI 黑板,就很好地體現了人工智能與傳統教學工具融合的前沿探索。這款產品搭載虛擬人助教技術,不僅實現語言帶讀與科學答疑,更以“問題鏈”教學設計啟發學生思維;同時,其板書智能識別功能能夠實時處理數學公式、化學方程式等專業內容,并自動關聯推薦 3D 動態學科工具,為抽象知識點提供直觀可視化呈現。
不止教育、醫療這種民生領域,今年以來,政務、金融、工業等各個行業都在加速探索大模型的場景化落地,從通用場景邁向行業應用的深水區。在此過程中,也正在催生一個更加開放和協作的創新生態:技術端,以 DeepSeek 為代表的模型通過開源社區建設激活開發者創新;消費端,字節、阿里、騰訊等基于生態優勢,發展好用、好玩的 AI;行業端,訊飛星火守護底座安全,依托全國產算力在教育、醫療、金融、工業等國計民生行業構筑堅固的護城河。這種多元并存的發展格局不僅滿足了不同市場需求,也為中國 AI 產業注入了持續創新的動力。
從“軍備競賽”到“價值創造”,行業的成熟轉向
《通用大模型評測體系 2.0》的落地,表明 AI 產業競爭的重心正在從“通用能力”向“專業價值”轉變,從“技術突破”向“行業解決方案”轉變。這也是中國 AI 產業在經歷了一段狂熱的“百模大戰”后,走向成熟與務實的重要標志。其為行業樹立了一個更加關注真實應用、強調安全合規、看重專業深度的價值坐標。
長期來看,評測體系的“指揮棒”效應或將引導廠商研發方向轉型,從針對榜單的“像素級”優化轉向解決真實世界問題。這對用戶選擇產生重要影響——企業在 AI 選型時將有標可依,選擇在特定場景的專業深度、落地經驗和服務能力上有優勢的模型,而非僅憑通用能力分數。
當然,AI 評測的進化之路遠未結束。未來,我們或許會看到更加動態化的評測,所有的評測都將指向一個終極問題:AI 技術在多大程度上,為經濟增長、社會福祉和人類知識的拓展做出了真實的、可衡量的貢獻。
這條路依然漫長,但一個更健康、更具價值導向的 AI 發展新階段,已然開啟。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.