“不服跑個分”,曾經(jīng)是風(fēng)靡手機圈的一句話,只不過隨著用戶越來越注重產(chǎn)品的綜合體驗,“唯分?jǐn)?shù)論”已經(jīng)逐漸被手機行業(yè)邊緣化。可貫徹著萬物皆可跑分的原則,AI大模型也成為了“不服跑個分”新的受眾。
只不過相比于智能手機、PC,AI大模型跑分如今還屬于是“百家爭鳴”的狀態(tài)。其中既有清華大學(xué)的C-Eval、上海交通大學(xué)的CMMLU、伯克利的大模型競技場(Chatbot Arena)等知名學(xué)府推出的榜單,也有民間高手自建的MMLU,甚至于做投資的紅杉中國也搞出了自己的AI基準(zhǔn)測試工具xbench。
有鑒于此,谷歌也坐不住了。日前爆料稱,谷歌方面計劃推出開源框架LMEval,為大語言模型和多模態(tài)模型提供標(biāo)準(zhǔn)化的評測工具。基于LMEval框架,研究人員和開發(fā)者只需設(shè)置一次基準(zhǔn),就能展開標(biāo)準(zhǔn)化的評測流程,可以大幅簡化評測工作,從而節(jié)省時間和資源。
具體來說,谷歌的LMEval支持旨在簡化LLM訪問和管理的開源項目LiteLLM,并確保測試能夠橫跨Azure、AWS、HuggingFace、Cohere、Ollama等主要平臺。此外,據(jù)稱LMEval不僅支持文本評測,還涵蓋了圖像和代碼等當(dāng)下的熱門領(lǐng)域,并能識別大模型采用的“規(guī)避策略”,即故意給出模糊回答、以避免生成有風(fēng)險的內(nèi)容。
除了測試AI大模型的性能,作為業(yè)界巨頭,谷歌還為LMEval引入了Giskard安全評分,以展示其規(guī)避有害內(nèi)容的表現(xiàn),百分比越高則代表安全性越強。同時為了打消開發(fā)者的顧慮,谷歌方面強調(diào)測試結(jié)果會存儲在加密的SQLit數(shù)據(jù)庫中,確保數(shù)據(jù)本地化、且不會被搜索引擎抓取。
可是谷歌旗下如今是有Gemini模型的,他們再做一個LMEval真的不是既當(dāng)裁判員,又當(dāng)運動員嗎?
其實谷歌也是不得已而為之,畢竟當(dāng)下AI大模型的基準(zhǔn)測試可謂是群魔亂舞。比如,Meta最新的LIama 4模型之所以能成為大模型競技場排名第一的開源模型,靠的是為大模型競技場提供特殊版本。
眾所周知,AI大模型的跑分其實是以做題為核心,即在規(guī)定的時間內(nèi)答對基準(zhǔn)測試榜單提出的問題,正確率越高、用時越短,模型的能力就越強。所以為了提高跑分成績,AI大模型就好似高三的學(xué)生一樣,不斷地在各個榜單的題庫里刷題。可問題在于,AI大模型的學(xué)習(xí)能力和運行效率要遠勝過高三的學(xué)生,所以隨著題庫紛紛被刷爆,一個基準(zhǔn)測試的有效時間就會急劇縮短。
比如在過去兩年間,包含了上至數(shù)論、代數(shù)、幾何等高級數(shù)學(xué)問題的GSM8k、MATH數(shù)學(xué)基準(zhǔn)測試中,AI大模型的正確率動輒就可以達到80%。但問題在于,為了讓AI大模型在數(shù)學(xué)測試中表現(xiàn)更好,就拿題庫里的真題來訓(xùn)練,這樣并不會增強AI的泛化能力,只是可以在基準(zhǔn)測試中占到便宜,從而讓自家的模型有更強的傳播價值。
以至于OpenAI的開發(fā)者調(diào)侃,我們總是在開發(fā)新的訓(xùn)練算法和模型來刷榜,而第三方又創(chuàng)造出更難的榜單,之后再重復(fù)這個循環(huán)。微軟CEO薩蒂亞·納德拉更是曾經(jīng)在播客節(jié)目中吐槽到,“我們自稱取得了一些AGI里程碑,這只是無意義的基準(zhǔn)作弊(benchmark hacking)。”
所以當(dāng)下AI業(yè)界有一個無法回避的難題,那就是想要真實、且客觀地反映AI的能力正變得越來越困難,業(yè)界亟待構(gòu)建一個評價體更加科學(xué)、長效和如實反映AI客觀能力的體系。然而遺憾的是,一如PC廠商能針對魯大師能進行專項調(diào)優(yōu)、手機廠商針對DxOMark進行特調(diào)一樣,科學(xué)、長效和真實幾乎是不可能的三角。
現(xiàn)在AI行業(yè)的解決方案是“去中心化”,即推出盡可能多元化的基準(zhǔn)測試,來讓AI大模型的“刷題”效率下降。可去中心化也是有代價的,畢竟不同榜單使用的API、數(shù)據(jù)格式和基準(zhǔn)設(shè)置不同,這就使得大模型的開發(fā)者想要完整地展現(xiàn)模型的能力,需要花費大量的時間和精力。所以谷歌推出的LMEval雖然并非是一個直接可用的榜單,而是一套標(biāo)準(zhǔn)化的評測流程。
簡單來說,谷歌這次是要給AI大模型的跑分制定一套標(biāo)準(zhǔn),只要使用LMEval,無論是測試AI大模型的文本、視頻、數(shù)學(xué),還是代碼等能力,就都不需要再切換API、對接不同的測試集。
【本文圖片來自網(wǎng)絡(luò)】
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.