智東西
編譯 金碧輝
編輯 程茜
智東西5月28日消息,據科技媒體The Decoder 5月26日報道,當天,谷歌正式發布開源大模型評測框架LMEval,支持對GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型進行多模態能力標準化評估。
LMEval基于LiteLLM框架(能讓開發者通過統一API便捷調用GPT、Claude、Llama等上百款大模型,并支持流式響應、批量推理及成本監控等功能的開源框架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大廠商API接口,首次實現文本、圖像、代碼三類任務的一站式評測,并通過增量評估技術減少80%重復測試算力消耗。
LMEval的源代碼和示例筆記本已經在GitHub上公開,供廣大開發者使用和研究。
地址:https://github.com/google/lmeval
一、跨平臺互通,采用增量評估+多線程并行計算技術,測試效率提升5倍
LMEval基于LiteLLM框架,將谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口標準化,開發者無需針對不同平臺重寫測試代碼。
同時,科技媒體The Decoder援引谷歌官方說道,LMEval系統采用增量評估技術,配合多線程并行計算,能節省80%算力,原本8小時的測試流程可壓縮至1.5小時。
在評估場景層面,LMEval突破了單一文本問答的局限,將圖像理解、代碼生成等場景納入評測范疇,滿足多領域對大模型能力評測的需求。
在題型方面,LMEval提供了是非判斷、多選問答、開放式生成等多達12種題型,為全面評估模型在不同任務形式下的表現創造了條件。同時,LMEval模塊化設計允許開發者依據自身研究或業務需求,靈活添加新的評估維度,增強了框架的擴展性與適應性。
在安全評估層面,LMEval新增的規避性回答檢測功能能夠識別模型在面對敏感問題時所采取的推諉策略,這對于評估模型在處理敏感信息時的可靠性意義重大。
▲Giskard的安全評分顯示了不同的AI模型如何有效地規避潛在的有害內容。百分比越高,安全性就越高。(圖源:谷歌)
在數據存儲與隱私保護層面,LMEval將測試數據存儲于自加密的SQLite數據庫中,本地訪問需密鑰驗證,有效阻斷搜索引擎抓取,在數據使用過程中全方位保障數據安全與隱私。
二、評測成本直降90%,月之暗面已部署
據The Decoder報道,LMEval采用增量評估技術后,企業新增測試場景的運維成本降低90%。國內大模型創業公司月之暗面技術負責人王海明、劉征瀛在今年5月26日谷歌LMEval框架發布后的媒體溝通會上透露,該工具已應用于其內部流程優化,在未使用LMEval前,月之暗面針對新模型或新場景的評測往往需要數周時間來搭建測試環境、設計評測流程以及執行測試。
而引入LMEval后,原本復雜冗長的流程得以簡化,現在僅需幾天就能完成一輪全面評測,研發周期大幅縮短超兩周。
LMEval配套的LMEvalboard可視化工具支持生成雷達圖,能直觀對比不同模型在各項能力上的表現短板。
開發者點擊圖表即可查看具體錯誤案例,還能并排對比不同模型對同一問題的響應差異,助力精準定位模型性能優劣,為模型的優化與改進提供有力依據
結語:谷歌開源LMEval框架,打通五大廠商API接口
谷歌開放的開源框架LMEval基于LiteLLM框架,打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,讓開發者能在統一環境下評測不同來源模型。通過模塊化設計,它可同時滿足文本、圖像、代碼等多模態評估需求,提供12種題型,還能靈活添加新評估維度。而增量評估技術配合多線程并行計算,節省80%算力,使企業新增測試場景的運維成本降低90%,顯著提升測試效率、降低測試成本。
谷歌推出的LMeval框架通過標準化和靈活性的結合,為研究人員和開發者提供了便利。在未來,隨著AI技術的不斷演進,LMeval框架或有可能成為行業內評測工作的標準,助力推動AI模型的持續發展與優化。
來源:The Decoder
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.