99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌推出開源框架,要給AI大模型的跑分“立規(guī)矩”

0
分享至

“不服跑個分”,曾經(jīng)是風(fēng)靡手機圈的一句話,只不過隨著用戶越來越注重產(chǎn)品的綜合體驗,“唯分?jǐn)?shù)論”已經(jīng)逐漸被手機行業(yè)邊緣化。可貫徹著萬物皆可跑分的原則,AI大模型也成為了“不服跑個分”新的受眾。


只不過相比于智能手機、PC,AI大模型跑分如今還屬于是“百家爭鳴”的狀態(tài)。其中既有清華大學(xué)的C-Eval、上海交通大學(xué)的CMMLU、伯克利的大模型競技場(Chatbot Arena)等知名學(xué)府推出的榜單,也有民間高手自建的MMLU,甚至于做投資的紅杉中國也搞出了自己的AI基準(zhǔn)測試工具xbench。

有鑒于此,谷歌也坐不住了。日前爆料稱,谷歌方面計劃推出開源框架LMEval,為大語言模型和多模態(tài)模型提供標(biāo)準(zhǔn)化的評測工具。基于LMEval框架,研究人員和開發(fā)者只需設(shè)置一次基準(zhǔn),就能展開標(biāo)準(zhǔn)化的評測流程,可以大幅簡化評測工作,從而節(jié)省時間和資源。


具體來說,谷歌的LMEval支持旨在簡化LLM訪問和管理的開源項目LiteLLM,并確保測試能夠橫跨Azure、AWS、HuggingFace、Cohere、Ollama等主要平臺。此外,據(jù)稱LMEval不僅支持文本評測,還涵蓋了圖像和代碼等當(dāng)下的熱門領(lǐng)域,并能識別大模型采用的“規(guī)避策略”,即故意給出模糊回答、以避免生成有風(fēng)險的內(nèi)容。

除了測試AI大模型的性能,作為業(yè)界巨頭,谷歌還為LMEval引入了Giskard安全評分,以展示其規(guī)避有害內(nèi)容的表現(xiàn),百分比越高則代表安全性越強。同時為了打消開發(fā)者的顧慮,谷歌方面強調(diào)測試結(jié)果會存儲在加密的SQLit數(shù)據(jù)庫中,確保數(shù)據(jù)本地化、且不會被搜索引擎抓取。


可是谷歌旗下如今是有Gemini模型的,他們再做一個LMEval真的不是既當(dāng)裁判員,又當(dāng)運動員嗎?

其實谷歌也是不得已而為之,畢竟當(dāng)下AI大模型的基準(zhǔn)測試可謂是群魔亂舞。比如,Meta最新的LIama 4模型之所以能成為大模型競技場排名第一的開源模型,靠的是為大模型競技場提供特殊版本。

眾所周知,AI大模型的跑分其實是以做題為核心,即在規(guī)定的時間內(nèi)答對基準(zhǔn)測試榜單提出的問題,正確率越高、用時越短,模型的能力就越強。所以為了提高跑分成績,AI大模型就好似高三的學(xué)生一樣,不斷地在各個榜單的題庫里刷題。可問題在于,AI大模型的學(xué)習(xí)能力和運行效率要遠勝過高三的學(xué)生,所以隨著題庫紛紛被刷爆,一個基準(zhǔn)測試的有效時間就會急劇縮短。


比如在過去兩年間,包含了上至數(shù)論、代數(shù)、幾何等高級數(shù)學(xué)問題的GSM8k、MATH數(shù)學(xué)基準(zhǔn)測試中,AI大模型的正確率動輒就可以達到80%。但問題在于,為了讓AI大模型在數(shù)學(xué)測試中表現(xiàn)更好,就拿題庫里的真題來訓(xùn)練,這樣并不會增強AI的泛化能力,只是可以在基準(zhǔn)測試中占到便宜,從而讓自家的模型有更強的傳播價值。

以至于OpenAI的開發(fā)者調(diào)侃,我們總是在開發(fā)新的訓(xùn)練算法和模型來刷榜,而第三方又創(chuàng)造出更難的榜單,之后再重復(fù)這個循環(huán)。微軟CEO薩蒂亞·納德拉更是曾經(jīng)在播客節(jié)目中吐槽到,“我們自稱取得了一些AGI里程碑,這只是無意義的基準(zhǔn)作弊(benchmark hacking)。”


所以當(dāng)下AI業(yè)界有一個無法回避的難題,那就是想要真實、且客觀地反映AI的能力正變得越來越困難,業(yè)界亟待構(gòu)建一個評價體更加科學(xué)、長效和如實反映AI客觀能力的體系。然而遺憾的是,一如PC廠商能針對魯大師能進行專項調(diào)優(yōu)、手機廠商針對DxOMark進行特調(diào)一樣,科學(xué)、長效和真實幾乎是不可能的三角。

現(xiàn)在AI行業(yè)的解決方案是“去中心化”,即推出盡可能多元化的基準(zhǔn)測試,來讓AI大模型的“刷題”效率下降。可去中心化也是有代價的,畢竟不同榜單使用的API、數(shù)據(jù)格式和基準(zhǔn)設(shè)置不同,這就使得大模型的開發(fā)者想要完整地展現(xiàn)模型的能力,需要花費大量的時間和精力。所以谷歌推出的LMEval雖然并非是一個直接可用的榜單,而是一套標(biāo)準(zhǔn)化的評測流程。


簡單來說,谷歌這次是要給AI大模型的跑分制定一套標(biāo)準(zhǔn),只要使用LMEval,無論是測試AI大模型的文本、視頻、數(shù)學(xué),還是代碼等能力,就都不需要再切換API、對接不同的測試集。

【本文圖片來自網(wǎng)絡(luò)】

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
沉默4天,中方為C919出頭,法德將帶歷史大單訪華,波音即將衰落

沉默4天,中方為C919出頭,法德將帶歷史大單訪華,波音即將衰落

獵火照狼山
2025-06-05 19:26:18
狂賺2.85億!39歲冠軍中鋒!是時候宣布退役了

狂賺2.85億!39歲冠軍中鋒!是時候宣布退役了

籃球教學(xué)論壇
2025-05-19 06:58:47
不到72小時,黃楊鈿甜再迎3個噩耗,網(wǎng)友:這下麻煩更大了

不到72小時,黃楊鈿甜再迎3個噩耗,網(wǎng)友:這下麻煩更大了

界史
2025-06-04 16:16:13
《黃帝內(nèi)經(jīng)》:過淫之人三種病癥,第三種最隱蔽,揭示長壽奧秘

《黃帝內(nèi)經(jīng)》:過淫之人三種病癥,第三種最隱蔽,揭示長壽奧秘

一根香煙的少婦
2025-05-03 09:03:23
莫迪徹底混臭,“退金磚”無人理會,又遭G7背刺,美國讓他二選一

莫迪徹底混臭,“退金磚”無人理會,又遭G7背刺,美國讓他二選一

小嵩
2025-06-05 16:14:35
三亞被咬女子后續(xù):咬傷位置很奇怪,網(wǎng)友:除非把腳趾伸蛇嘴

三亞被咬女子后續(xù):咬傷位置很奇怪,網(wǎng)友:除非把腳趾伸蛇嘴

奇思妙想草葉君
2025-06-05 18:22:57
因未交每月410美元的物業(yè)費,在美華人767萬美元豪宅被1.7萬賤賣

因未交每月410美元的物業(yè)費,在美華人767萬美元豪宅被1.7萬賤賣

雪滿西山
2025-06-04 14:45:40
記者:除非有球隊掏出5億歐解約金,否則馬競不會放走阿爾瓦雷斯

記者:除非有球隊掏出5億歐解約金,否則馬競不會放走阿爾瓦雷斯

直播吧
2025-06-05 18:15:21
雄黃無效?被低估的陸地毒王銀環(huán)蛇,性情溫順為啥總讓夜釣人中招

雄黃無效?被低估的陸地毒王銀環(huán)蛇,性情溫順為啥總讓夜釣人中招

星光看娛樂
2025-06-05 11:57:35
為何幾乎沒人吃蛇?

為何幾乎沒人吃蛇?

農(nóng)夫也瘋狂
2025-06-05 11:01:31
2-0奪冠!中國隊終于贏了,6年,等了整整6年,這一刻等得太久

2-0奪冠!中國隊終于贏了,6年,等了整整6年,這一刻等得太久

夢史
2024-12-17 11:43:11
吳雅婷被勸復(fù)合,她表示:我比誰都知道他帥,但我們已經(jīng)不相愛了

吳雅婷被勸復(fù)合,她表示:我比誰都知道他帥,但我們已經(jīng)不相愛了

秀語千尋
2025-06-05 15:06:23
二手房正在以肉眼可見的速度,坍塌!

二手房正在以肉眼可見的速度,坍塌!

道格財經(jīng)觀
2025-06-05 12:51:31
樊振東向湖南家鄉(xiāng)祠堂捐20萬,竟被當(dāng)?shù)厝酥肛?zé):太少了,不是捐款

樊振東向湖南家鄉(xiāng)祠堂捐20萬,竟被當(dāng)?shù)厝酥肛?zé):太少了,不是捐款

八斗小先生
2025-06-05 20:11:32
震驚!澤連斯基突然宣布,一場大戰(zhàn)爆發(fā)!

震驚!澤連斯基突然宣布,一場大戰(zhàn)爆發(fā)!

小小小白看世界
2025-06-04 06:24:59
NBA安東尼來華與老友姚明相聚,晚宴豐韻美女作陪被拍,互動親密

NBA安東尼來華與老友姚明相聚,晚宴豐韻美女作陪被拍,互動親密

簡讀視覺
2025-06-05 19:51:46
刻赤橋“內(nèi)傷”嚴(yán)重,紹將軍“河塘”搬兵,烏考慮允許私人軍隊

刻赤橋“內(nèi)傷”嚴(yán)重,紹將軍“河塘”搬兵,烏考慮允許私人軍隊

近距離
2025-06-05 10:09:47
爭議!媒體人熱議:這也能點球?!服了!球先踢出去才倒的

爭議!媒體人熱議:這也能點球?!服了!球先踢出去才倒的

直播吧
2025-06-05 22:41:44
炸飛機只是開始,烏方威脅普京,關(guān)鍵時刻,白俄空軍一號落地北京

炸飛機只是開始,烏方威脅普京,關(guān)鍵時刻,白俄空軍一號落地北京

千里持劍
2025-06-03 08:48:56
電摩用上“刀片電池”,進入500公里續(xù)航時代,比摩托車省多少錢

電摩用上“刀片電池”,進入500公里續(xù)航時代,比摩托車省多少錢

電動車的那些事兒
2025-06-05 07:53:30
2025-06-06 02:31:00
三易生活 incentive-icons
三易生活
關(guān)注科技領(lǐng)域,我們是一家有趣、有干貨的科技媒體
60368文章數(shù) 12730關(guān)注度
往期回顧 全部

科技要聞

對話盛景網(wǎng)聯(lián)彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結(jié)果”的AI RaaS轉(zhuǎn)型法則

頭條要聞

27歲女子被咬傷身亡 三亞衛(wèi)健委再通報搶救全過程

頭條要聞

27歲女子被咬傷身亡 三亞衛(wèi)健委再通報搶救全過程

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經(jīng)要聞

習(xí)近平同美國總統(tǒng)特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預(yù)計明年量產(chǎn)

態(tài)度原創(chuàng)

教育
房產(chǎn)
數(shù)碼
親子
家居

教育要聞

通知!高考期間部分學(xué)校周邊部分路段采取交通管控

房產(chǎn)要聞

再奪荔灣銷冠!誰是主城改善標(biāo)準(zhǔn)制定者,終于有了答案!

數(shù)碼要聞

蘋果上線2025隱私安全廣告:岳云鵬傾情回歸,守護iPhone安全防線

親子要聞

保護孩子防侵犯,寶媽首先要改掉刻板印象!

家居要聞

潔白奶油 簡約舒適之家

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 新野县| 益阳市| 新田县| 新和县| 景泰县| 佛冈县| 澎湖县| 砀山县| 仁怀市| 扶风县| 蒙自县| 达日县| 泌阳县| 周宁县| 忻城县| 黎川县| 拉孜县| 武定县| 平罗县| 固阳县| 朝阳区| 皮山县| 石屏县| 万载县| 逊克县| 卓资县| 横山县| 江津市| 苍山县| 静乐县| 林芝县| 长海县| 共和县| 依安县| 北辰区| 县级市| 万荣县| 营山县| 建昌县| 萨迦县| 江油市|