99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ICLR 2025 | 場景感知的多維度大模型評估器

0
分享至

本文提出SaMer,一種場景感知的多維度評估器,可對大模型生成的響應進行細粒度、可解釋的評估。SaMer動態識別并優先考慮不同query場景的關鍵維度,相比固定維度方法,更具情境敏感性。實驗表明,SaMer在單一評分與成對比較任務上優于現有基準,并通過維度級得分和權重提供透明評估。


論文題目: SaMer: A Scenario-aware Multi-dimensional Evaluator for Large Language Models 論文鏈接: https://openreview.net/forum?id=aBnVU5DL3I 代碼鏈接: https://github.com/Irving-Feng/SaMer/

一、引言

在開放式的自然語言生成任務中,評估大型語言模型(LLMs)的響應質量是一項重大挑戰,主要原因在于“質量”的主觀性和多維性。現有的LLM評估方法大多采用固定維度的評估標準,無法根據具體場景靈活調整,導致難以滿足不同類型問題的需求。


為了解決這一問題,我們提出了SaMer,一個場景感知的多維度評估器,旨在通過自動識別與用戶query相關的評估維度,動態調整評估標準,以適應不同場景的需求。我們首先構建了一個大規模細粒度偏好數據集,涵蓋多個真實場景及其特定的評估維度。然后,我們設計了包含文本嵌入模型與三個專用模塊的模型架構,用于維度預測、質量評分和權重融合。最后,通過一個多步驟訓練階段,SaMer可以提供準確性高、解釋性強、細粒度的評估。

實驗結果表明,SaMer在8個單獨評分和成對比較benchmark上的表現均優于現有基線方法,展現出其在多樣化評估任務中的魯棒性和適應性。此外,SaMer的細粒度和場景感知能力為LLM的響應評估提供了更高的透明度和靈活性,支持更廣泛的實際應用。

二、數據構建


如圖所示,我們通過定義場景和評估維度、收集pairwise偏好數據、標注細粒度偏好等三個步驟構建了一個包含廣泛場景的細粒度偏好數據集。

1. 場景和評估維度定義

場景:我們從人類需求的角度定義了 36 種情景,根據馬斯洛需求理論的層次結構將它們分為五種主要類型:安全、社會、認知、審美和自我實現需求。我們從現有工作中總結了42個評估常用維度,聘請三位有豐富經驗的研究生為每個場景所需的評估維度進行標注。

2. pairwise偏好數據集構建

我們從多個開源數據集獲取了種子數據,具體統計值見下表:


然后,我們訓練了一個場景分類器,通過輸入的query,場景分類器將種子數據進行場景分類。最后,我們為每個場景采樣2K~5K的數據,使得所有場景的數據比例相似。這一步共獲得135,402條樣本。

3. 細粒度偏好數據標注

基于場景標簽和場景的特定評估維度,我們利用GPT-4o來執行細粒度的偏好注釋。對于每個樣本,考慮到LLM執行成對比較比單實例評估更可靠,我們指示 GPT-4o 只關注指定的維度,仔細比較兩個模型生成的響應并選擇更好的一個或宣布平局。

三、模型與訓練


如圖所示,模型的架構與訓練目標共包含三個部分:

1. 通過多標簽分類進行維度預測

我們首先致力于讓SaMer自適應地預測每個輸入query應該考慮哪些維度。這可以建模為一個多標簽分類任務,即從42個維度標簽中選擇 個所需維度。我們構建了一個42維的MLP作為維度預測層 ,用于預測維度標簽。我們使用ZLPR (Zero-bounded Log-sum-exp & Pairwise Rank-based)損失訓練。

2. 通過偏好學習進行多維評分

我們然后利用構建的細粒度偏好數據實現多維度評分。具體來說,對于每個特定維度,我們有一個排名,例如 代表回復A好于B。我們構建了一個42維的MLP作為評分層 ,用于為各個維度打分,并使用ranking loss進行訓練。特別地,我們mask了每個樣本的無關維度,只訓練所需維度。

3. 通過權重融合進行綜合評分

要獲得總體評估分數,一種簡單的方法是線性組合所有維度分數,但這忽略了每個維度的貢獻在不同的評估場景中會有所不同的事實。所以,我們加入了權重預測層 ,用于預測每個維度的權重,然后對每個維度的分數進行加權平均。我們使用ranking loss進行訓練,并凍結了 和 的參數。

最后,我們將上述三個模塊插入到一個凍結的預訓練LLM(即,ArmoRM,一個基于Llama3-8B的獎勵模型)后。由LLM提供文本編碼后,分別由三個MLP層預測維度、評分和權重,最后進行加權平均得到最終的評分。

四、實驗分析

1. 單響應評分


我們在Vicuna Bench、FLASK Eval、Feedback Bench上評估了SaMer對單個響應輸出的質量評分與人類標注之間的相關性。結果表明,SaMer在三個benchmark上表現出顯著的改進,特別是在FLASK Eval中。值得注意的是,SaMer的表現與專有模型(包括GPT-4o/4o-mini和Claude3.5-Sonnet)相當,甚至超過了這些模型。不過,可以觀察到大多數模型在Vicuna Bench和FLASK上的相關系數并未超過0.5,這表明這些基準的挑戰性以及將模型評估與人類評分對齊的復雜性。

2. 成對比較



在成對比較任務中,SaMer在15個任務中取得了9個任務最佳的表現,并在剩余的6個任務中在開源模型中排名第二。這在一定程度上可以歸因于強大的ArmoRM backbone網絡(它在多個任務中也取得了領先的結果)。然而,正如SaMer在AlpacaEval上的顯著改進,我們強調了我們策略足夠有效。盡管專有模型在這些評估中通常優于所有開源模型,SaMer通過在多個任務中接近專有模型的表現,展示了其競爭力,突顯了其強大的適應性。

3. 細粒度成對比較

在細粒度比較任務中,結果顯示大多數評估器的維度級偏好比較準確率通常低于整體準確率,這突顯了在特定維度上準確評估響應的挑戰。


一個有趣的觀察是,與其7B版本相比,Llama-2-13B-Chat的表現下降,表明增加模型參數并不一定會帶來更好的細粒度評估能力。相比之下,SaMer取得了顯著的改進,維度級準確率提高了10.7,整體準確率提高了15.7,較Llama-3-8B-Inst(SaMer的原始backbone)而言。此外,與專有模型相比,SaMer在性能上超越了GPT-4o-mini和Claude-3.5Sonnet。這個結果突顯了我們訓練方法在提升多維度、情境感知評估方面的強大和有效性。


此外,SaMer展示了場景感知的適應性,能夠對于可能沒有明確場景標簽的query有效地選擇適當的評估維度。上圖展示了SaMer在三種不同情境下分配的權重:創意寫作、數學推理和法律文件寫作。這些權重指示了每個維度在評估過程中的相對重要性。在創意寫作中,SaMer 將創造力維度賦予最高重要性,其次是邏輯、相關性、無害性和風格,這與創意寫作的基本屬性密切相關。相反,在數學推理中,重點轉向推理過程和結果,邏輯、準確性、清晰度和逐步解釋成為主要維度。在評估法律文件寫作情境時,邏輯被確定為最關鍵的維度,其次是無害性和清晰度,反映了法律寫作的獨特要求。

五、總結

在這項工作中,我們提出了SaMer,一種場景感知的多維度評估器,旨在提供對大型語言模型生成的響應的細粒度和可解釋的評估。通過動態識別和優先考慮不同query場景的相關評估維度,SaMer能夠相比傳統的固定維度方法提供更細致和具有情境敏感性的評估。在單一評分和成對比較基準上的廣泛實驗驗證了該模型的適應性,結果顯示SaMer在性能上超過了現有基準,同時通過詳細的維度級得分和權重提供透明且可解釋的評估。


作者:馮科華 來源:公眾號【ZJUKG】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(

www.techbeat.net
) 。 社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

扁擔女孩高考成績出來了,不是網上那些分數,還是讓她自己公布吧

八斗小先生
2025-06-25 18:18:21
莆田男子花90萬娶妻后續:女主澄清,指控男方房事,逃婚緣由公布

莆田男子花90萬娶妻后續:女主澄清,指控男方房事,逃婚緣由公布

娜烏和西卡
2025-06-25 12:51:52
9.3閱兵,大陸邀請國民黨抗戰老兵觀禮,臺軍頭子顧立雄坐不住了

9.3閱兵,大陸邀請國民黨抗戰老兵觀禮,臺軍頭子顧立雄坐不住了

DS北風
2025-06-25 18:04:26
iPhone 17 Pro新機首次亮相,這設計變順眼了!

iPhone 17 Pro新機首次亮相,這設計變順眼了!

科技堡壘
2025-06-25 16:21:24
592分"扁擔女孩"分數公布?二流高中飛不出金鳳凰?起跑線就輸了

592分"扁擔女孩"分數公布?二流高中飛不出金鳳凰?起跑線就輸了

深析古今
2025-06-25 14:38:26
河南人注意!多地強降水集中在今夜

河南人注意!多地強降水集中在今夜

極目新聞
2025-06-25 19:13:07
無錫太強了!網傳江蘇高考理科狀元又在無錫,數據遙遙領先全省…

無錫太強了!網傳江蘇高考理科狀元又在無錫,數據遙遙領先全省…

火山詩話
2025-06-25 13:41:36
又一個經濟奇跡——孟加拉國

又一個經濟奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

180視角
2025-06-25 08:59:42
高考611分女生體檢不合格恐無法入學,守護她的求學夢也是守護教育初心

高考611分女生體檢不合格恐無法入學,守護她的求學夢也是守護教育初心

極目新聞
2025-06-25 11:56:48
42歲快遞員陪女兒高考,順手考了680分,北大:24年前就聯系過他

42歲快遞員陪女兒高考,順手考了680分,北大:24年前就聯系過他

五元講堂
2025-06-24 10:14:04
人民日報痛批懶政!嚴查違規吃喝,不該連“下班約飯”都成罪?

人民日報痛批懶政!嚴查違規吃喝,不該連“下班約飯”都成罪?

宏哥談商道
2025-06-24 19:00:02
顧客自取吸管,茶顏悅色店員直接扔掉整桶吸管。。

顧客自取吸管,茶顏悅色店員直接扔掉整桶吸管。。

4A廣告網
2025-06-24 09:59:01
從南京到烏魯木齊:日本留學生30天搭車游中國,遇17位司機僅1人拒絕

從南京到烏魯木齊:日本留學生30天搭車游中國,遇17位司機僅1人拒絕

互聯網大觀
2025-06-25 11:09:02
如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

紅星新聞
2025-06-25 13:06:12
霍啟仁曼谷大婚,郭晶晶攜20萬愛馬仕出席,并直言終于有妯娌了

霍啟仁曼谷大婚,郭晶晶攜20萬愛馬仕出席,并直言終于有妯娌了

史書無明
2025-06-25 08:26:46
伊朗稱該國核設施在美國空襲中“嚴重受損”

伊朗稱該國核設施在美國空襲中“嚴重受損”

環球網資訊
2025-06-25 20:15:26
打虎!海南省委常委、秘書長倪強任上落馬!

打虎!海南省委常委、秘書長倪強任上落馬!

上觀新聞
2025-06-25 16:18:25
小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

社會醬
2025-06-25 17:13:35
突傳噩耗!香港知名導演墜樓身亡,身首異處,和妻子恩愛半世紀

突傳噩耗!香港知名導演墜樓身亡,身首異處,和妻子恩愛半世紀

晉哥說電影
2025-06-25 13:49:11
2025-06-25 21:15:00
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

游戲
藝術
本地
公開課
軍事航空

《死亡擱淺2》引擎封神?玩家盛贊開放世界表現!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗總統:12天戰爭結束 重建工作開啟

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 常德市| 竹溪县| 大同市| 昔阳县| 应用必备| 雷山县| 兴隆县| 醴陵市| 十堰市| 同仁县| 启东市| 昭觉县| 巴林左旗| 宜良县| 庆云县| 杭州市| 克东县| 西盟| 永顺县| 昔阳县| 昌江| 罗城| 沛县| 丰台区| 雅江县| 防城港市| 鄂州市| 宜黄县| 嫩江县| 沙河市| 天全县| 开鲁县| 稷山县| 镇巴县| 利川市| 枣庄市| 辰溪县| 大田县| 黄梅县| 澄城县| 岳阳市|