谷歌推出開源框架，要給AI大模型的跑分“立規(guī)矩”

2025-05-28 19:27:39　來源: 三易生活

湖北舉報

分享至

“不服跑個分”，曾經(jīng)是風(fēng)靡手機圈的一句話，只不過隨著用戶越來越注重產(chǎn)品的綜合體驗，“唯分?jǐn)?shù)論”已經(jīng)逐漸被手機行業(yè)邊緣化。可貫徹著萬物皆可跑分的原則，AI大模型也成為了“不服跑個分”新的受眾。

只不過相比于智能手機、PC，AI大模型跑分如今還屬于是“百家爭鳴”的狀態(tài)。其中既有清華大學(xué)的C-Eval、上海交通大學(xué)的CMMLU、伯克利的大模型競技場（Chatbot Arena）等知名學(xué)府推出的榜單，也有民間高手自建的MMLU，甚至于做投資的紅杉中國也搞出了自己的AI基準(zhǔn)測試工具xbench。

有鑒于此，谷歌也坐不住了。日前爆料稱，谷歌方面計劃推出開源框架LMEval，為大語言模型和多模態(tài)模型提供標(biāo)準(zhǔn)化的評測工具。基于LMEval框架，研究人員和開發(fā)者只需設(shè)置一次基準(zhǔn)，就能展開標(biāo)準(zhǔn)化的評測流程，可以大幅簡化評測工作，從而節(jié)省時間和資源。

具體來說，谷歌的LMEval支持旨在簡化LLM訪問和管理的開源項目LiteLLM，并確保測試能夠橫跨Azure、AWS、HuggingFace、Cohere、Ollama等主要平臺。此外，據(jù)稱LMEval不僅支持文本評測，還涵蓋了圖像和代碼等當(dāng)下的熱門領(lǐng)域，并能識別大模型采用的“規(guī)避策略”，即故意給出模糊回答、以避免生成有風(fēng)險的內(nèi)容。

除了測試AI大模型的性能，作為業(yè)界巨頭，谷歌還為LMEval引入了Giskard安全評分，以展示其規(guī)避有害內(nèi)容的表現(xiàn)，百分比越高則代表安全性越強。同時為了打消開發(fā)者的顧慮，谷歌方面強調(diào)測試結(jié)果會存儲在加密的SQLit數(shù)據(jù)庫中，確保數(shù)據(jù)本地化、且不會被搜索引擎抓取。

可是谷歌旗下如今是有Gemini模型的，他們再做一個LMEval真的不是既當(dāng)裁判員，又當(dāng)運動員嗎？

其實谷歌也是不得已而為之，畢竟當(dāng)下AI大模型的基準(zhǔn)測試可謂是群魔亂舞。比如，Meta最新的LIama 4模型之所以能成為大模型競技場排名第一的開源模型，靠的是為大模型競技場提供特殊版本。

眾所周知，AI大模型的跑分其實是以做題為核心，即在規(guī)定的時間內(nèi)答對基準(zhǔn)測試榜單提出的問題，正確率越高、用時越短，模型的能力就越強。所以為了提高跑分成績，AI大模型就好似高三的學(xué)生一樣，不斷地在各個榜單的題庫里刷題。可問題在于，AI大模型的學(xué)習(xí)能力和運行效率要遠勝過高三的學(xué)生，所以隨著題庫紛紛被刷爆，一個基準(zhǔn)測試的有效時間就會急劇縮短。

比如在過去兩年間，包含了上至數(shù)論、代數(shù)、幾何等高級數(shù)學(xué)問題的GSM8k、MATH數(shù)學(xué)基準(zhǔn)測試中，AI大模型的正確率動輒就可以達到80%。但問題在于，為了讓AI大模型在數(shù)學(xué)測試中表現(xiàn)更好，就拿題庫里的真題來訓(xùn)練，這樣并不會增強AI的泛化能力，只是可以在基準(zhǔn)測試中占到便宜，從而讓自家的模型有更強的傳播價值。

以至于OpenAI的開發(fā)者調(diào)侃，我們總是在開發(fā)新的訓(xùn)練算法和模型來刷榜，而第三方又創(chuàng)造出更難的榜單，之后再重復(fù)這個循環(huán)。微軟CEO薩蒂亞·納德拉更是曾經(jīng)在播客節(jié)目中吐槽到，“我們自稱取得了一些AGI里程碑，這只是無意義的基準(zhǔn)作弊（benchmark hacking）。”

所以當(dāng)下AI業(yè)界有一個無法回避的難題，那就是想要真實、且客觀地反映AI的能力正變得越來越困難，業(yè)界亟待構(gòu)建一個評價體更加科學(xué)、長效和如實反映AI客觀能力的體系。然而遺憾的是，一如PC廠商能針對魯大師能進行專項調(diào)優(yōu)、手機廠商針對DxOMark進行特調(diào)一樣，科學(xué)、長效和真實幾乎是不可能的三角。

現(xiàn)在AI行業(yè)的解決方案是“去中心化”，即推出盡可能多元化的基準(zhǔn)測試，來讓AI大模型的“刷題”效率下降。可去中心化也是有代價的，畢竟不同榜單使用的API、數(shù)據(jù)格式和基準(zhǔn)設(shè)置不同，這就使得大模型的開發(fā)者想要完整地展現(xiàn)模型的能力，需要花費大量的時間和精力。所以谷歌推出的LMEval雖然并非是一個直接可用的榜單，而是一套標(biāo)準(zhǔn)化的評測流程。

簡單來說，谷歌這次是要給AI大模型的跑分制定一套標(biāo)準(zhǔn)，只要使用LMEval，無論是測試AI大模型的文本、視頻、數(shù)學(xué)，還是代碼等能力，就都不需要再切換API、對接不同的測試集。

【本文圖片來自網(wǎng)絡(luò)】

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.