99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

基準測試揭秘大模型“字數危機”:26個模型長文本生成普遍拉胯

0
分享至

LIFEBench團隊 投稿量子位 | 公眾號 QbitAI

你是否曾對大語言模型(LLMs)下達過明確的“長度指令”?

比如,“寫一篇10,000字的長文,詳細分析某個議題。”看似簡單的要求,實際卻往往讓這些模型“力不從心”:

不是生成內容不足,就是重復啰嗦,甚至直接罷工拒絕生成。

一篇最新研究論文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》對這一問題進行了深入探討,提出了一個全新的基準測試集 LIFEBENCH,系統評估大語言模型在長度指令遵循方面的表現。

研究結果揭示:這些看似無所不能的模型在長度指令,特別是長文本生成任務中,表現不盡人意。當模型被明確要求生成特定長度的文本時,大多數模型表現糟糕。

接下來,讓我們一起來看看這篇論文是如何揭示這些“瓶頸”的!



LIFEBENCH:專注長度指令遵循的基準測試

LIFEBENCH,全稱“LengthInstructionFollowingEvaluationBenchmark”,是一套專門評估大語言模型在長度指令下表現的測試集。它不僅覆蓋了從短篇到長文的多種長度范圍,還囊括了多種任務類型和語言,全面揭示了大模型在長度控制上的能力邊界。



LIFEBENCH的三大核心特性:

數據集的多樣性

為了測試模型的全方位能力,LIFEBENCH設計了多維度的數據集:

  • 任務多樣性:涵蓋四類自然語言生成(NLG)任務,包括問答、摘要、推理和創意生成,以全面評估模型的長度指令遵循能力。
  • 長短結合的輸入場景:測試數據既包含短輸入(<2000字),也包含長輸入(>2000字),以評估模型在不同輸入規模下的表現。
  • 雙語支持:同時支持中文和英文任務,分別從獨立數據集中構建,以便分析模型是否存在語言偏差。

全面的長度范圍與指令類型

LIFEBENCH是首個系統性評估模型長度指令遵循能力的基準測試,它設計了三種常見的長度控制方法:

  • 等于(Equal To):生成長度必須等于目標長度。
  • 不超過(At Most):生成長度不得超過目標長度。
  • 至少(At Least):生成長度必須達到目標長度。

同時,長度輸出范圍覆蓋從短文本(<100字)、中等長度(100–2000字)到長文本(>2000字)的任務,評測的全面性遠超以往研究。

創新的評測指標

為了更精準地分析模型的表現,LIFEBENCH提出了兩項專門指標:
長度偏差(Length Deviation, LD):衡量生成文本長度與目標長度之間的差異,包括偏差方向和偏差幅度。



長度評分(Length Score, LS):綜合評價模型對長度指令的遵循能力,量化偏差的整體影響。



相較于簡單的字數匹配,這兩項指標提供了更細致的分析維度。

通過上述設計,LIFEBENCH不僅覆蓋了現有研究中涉及的所有長度指令評測范圍,還首次系統性探索了模型在不同任務、語言和長度限制下的表現。

實驗結果:大語言模型的“長度危機”

研究團隊對26個主流大語言模型進行了評測,結果揭示了它們在長度指令遵循上的重大不足,尤其是在長文本生成場景下。以下是一些關鍵發現:

1. 總體表現:長度指令“等于”最難達標

當模型被明確要求生成特定長度的文本時,大多數模型表現糟糕。

在26個模型中,有23個模型的長度評分(LS)低于60分,只有少數模型(如o3-mini、Claude-Sonnet-Thinking和Gemini-2.5-Pro)勉強達到了75.4分、61.3分和60分。

在“不超過”(At Most)和“至少”(At Least)指令下,由于限制更寬松,模型表現顯著改善。其中,有19個模型在“不超過”指令下的長度評分超過90分,而“至少”指令下也有6個模型表現優異。

2. 長文本生成:模型普遍“拉胯”

大多數模型在短文本限制下表現穩定,如o3-mini和Gemini-2.5-Pro分別獲得了80分和70分以上的長度評分。隨著長度限制增加,模型的表現開始下降。雖然o3-mini依然保持了較強的穩定性(評分>70),但Gemini-2.5-Pro的評分從81分驟降至37分。

在長文本生成任務中,所有模型的長度評分均顯著下降,普遍低于40分,長文本生成成為模型的最大挑戰。

3. 輸入特性:任務與語言的雙重影響

模型在不同任務中的表現差異顯著。摘要任務的長度評分最低,有19個模型在這一任務中的表現顯著下降,創意生成任務的評分則最高,14個模型表現優異。

幾乎所有模型在中文任務中的表現均劣于英文任務。此外,模型在處理中文指令時,出現了明顯的“過度生成”現象,可能反映了模型對中文數據的處理能力不足。



模型“過度宣傳”了它們的最大輸出長度

當面對極限長度指令時(比如“至少生成32,768字”),大部分大語言模型的表現堪稱“言過其實”。它們的宣傳似乎暗示自己是“長篇巨制大師”,但實際生成結果卻經常讓人失望。研究發現:

1. 僅少數模型達標

在26個模型中,只有Claude系列和Qwen系列的7個模型能在其10%最長輸出中勉強符合長度要求。如果將目標放寬到25%最長輸出,情況依然不樂觀——只有Qwen2.5-72B-Instruct和Qwen3-235B-A22B達到了設定的長度要求。這些模型雖然聲明的最大輸出長度較其他模型“低調”許多,但恰恰因為如此,它們的表現更接近實際能力,算得上“務實派”。

2. 大部分模型表現不符預期

其他模型則頗具“宣傳藝術”。除Gemini-2.0-Flash和部分Qwen系列模型因最大token限制受限外,其余模型的表現遠低于它們聲稱的“最大輸出能力”。換句話說,這些模型的不足并不是因為無法達到技術上限,而是生成能力本身存在局限性。

有些模型在宣傳時或許給人一種“我可以寫出戰爭與和平”的錯覺,但實際上,生成一篇“長篇朋友圈”都可能顯得力不從心。



模型遵循長度指令的三大“瓶頸”

基于上面的實驗結果,論文深入分析了這個問題,總結出以下三大核心瓶頸:

1. 缺乏準確的長度感知能力

很多模型在“理解”目標長度上顯得模糊不清:短輸出任務時高估長度:目標是100字,模型可能“熱情過度”寫到150字。而長輸出任務時反而低估長度:目標是5000字,模型卻生成3000字,仿佛在說“這么長,夠用了吧?”,除此之外模型還有假遵循現象:有些模型生成后自信滿滿地“認為自己已經完成了任務”,但實際結果卻大相徑庭:這種現象表明,模型更像是在“自我感覺良好”,而非真正理解并執行了指令。



2. 對輸入長度的敏感性

輸入文本的長度對模型的表現影響很大,當輸入過長時,模型就有些“暈頭轉向”了,特別是在長輸入場景(>5000字)中。

這也解釋了為什么摘要任務尤為糟糕:面對長篇輸入時,模型不僅難以提取關鍵內容,還會生成過短或過長的內容,嚴重偏離指令要求。可以說,輸入越長,模型越容易“迷失在海量信息中”。

3. 懶惰生成策略

當面臨復雜的長文本任務時,許多模型選擇了“偷懶”:

提前終止:有些模型會在未完成任務的情況下突然“省略”后續部分,例如直接插入提示“(接下來還有6000字)”,仿佛在暗示“我知道還沒寫完,但后面的就不寫了”。

拒絕生成:在遇到超長的任務時,一些模型會直接選擇放棄,例如明確表示“你的要求長度已經超過了我的能力極限,無法完成”。這種情況下,模型既沒有嘗試生成部分內容,也沒有提供替代方案,而是干脆拒絕執行指令。

研究發現,當目標長度超過8192字時,拒絕生成的比例顯著上升,所有模型中平均超過10%因這種懶惰策略而失敗。顯然,越復雜的任務,模型越傾向于“放棄治療”。



除了上面的三個瓶頸,有一些模型也嘗試解決這個問題:

4. 動態校準的局限性:一場“低效的修補”

為了糾正長度偏差,一些推理模型嘗試了動態校準:

他們會在推理過程總生成初稿后逐字統計輸出長度,發現長度不符時選擇重新生成,如此往復,直至接近目標長度。

雖然這個方法在短文本任務中相對有效,但是耗時耗力,因為動態校準需要耗費大量計算資源和生成token,大幅增加時間成本。而且動態校準在長文本場景中就會失效:由于校準過程過于低效,模型無法在長文本任務中維持相似的策略,最終還是無法完成指定長度的內容。

換句話說,動態校準看似“聰明”,但面對長文本時,最終還是成了一場“得不償失”的努力。

從三大“瓶頸”到動態校準的局限性,我們可以看到:大語言模型在長度指令遵循上的表現還有很多不足。要讓這些模型真正“聽話”,需要在感知能力、信息處理能力和生成策略上進行全面優化。

深挖模型長度指令遵循的隱藏問題

通過更深入的分析,研究揭示了一些隱藏在模型長度指令遵循能力背后的有趣現象和改進可能。以下是關鍵發現:



1. 長文本生成質量的“起伏之路”

模型在不同長度限制下的表現如同一條“起伏的曲線”:

短文本(512字):“還行”:生成質量較高。

中等長度(1024–2048字):“巔峰表現”:大多數模型在這個區間表現最好,輸出邏輯清晰,內容質量穩定。

長文本(4096–8192字):“質量滑坡”:許多模型在此階段開始掉鏈子,生成內容重復甚至拒絕生成。例如,有些模型會在生成到一半時插入“(接下來還有6000字)”,直接“擺爛”。

少數模型(如Claude-3.7-Sonnet)在超長文本上偶爾“逆風翻盤”,但這類情況較為罕見。大多數模型的長文本內容,質量隨長度增加而顯著下降,重復問題尤為突出。

2. 格式化輸出的“疊加挑戰”

在要求遵循長度指令的同時,還需要生成特定格式(如Markdown、HTML或LaTeX)時,模型的表現進一步惡化,復雜格式讓模型“抓狂”:格式越復雜,模型越容易出錯,甚至格式和內容雙雙崩潰。

長文本中的額外壓力:在8192字限制下,生成一篇帶復雜格式的文檔對模型來說幾乎是“地獄難度”。生成的內容不僅格式錯誤,甚至可能中途放棄,輸出一堆不完整的內容片段。

3. EoS信號的“提前規劃”

在長文本生成任務中,EoS(End of Sequence,生成結束信號) token的異常行為揭示出一些有趣的現象:

短文本時表現乖巧:在2000字以下的限制下,模型的EoS預測較為正常,生成內容完整且符合目標要求,EoS信號通常在內容接近目標長度時觸發。

長文本時“提前規劃”傾向:當目標長度達到4096或8192字時,模型的行為變得耐人尋味——它似乎在生成開始前就“打好了自己的算盤”。EoS信號的觸發概率一開始就顯著升高,導致生成的內容遠遠少于目標長度,甚至僅生成寥寥數百字便戛然而止。這種現象表明,模型在生成之前可能已經“規劃”好了要寫多少,而不是在生成過程中逐步調整。

這種提前終止的行為可能源于模型在長文本生成中的不確定性或自我限制,反映了其對任務長度的規劃能力仍存在局限性。模型在面對超長文本指令時,可能會傾向于“保守估計”,提前結束生成以避免過度消耗計算資源或偏離任務要求。

4. 預訓練與后訓練的“雙管齊下”

模型在長文本生成中的不足,既源于預訓練的限制,也可以通過后訓練優化:

預訓練的“偷懶基因”:由于預訓練階段長文本數據覆蓋不足,模型可能學到了一些“偷懶策略”,比如提前終止或拒絕回答,以規避長文本中的復雜邏輯和連貫性問題。

后訓練的“預規劃策略”:后訓練提供了改進的機會。通過讓模型在生成前先規劃整體結構或章節大綱,生成內容更貼合長度要求,邏輯也更加清晰。例如,模型可以先生成“目錄”,再逐步填充內容。這種方法顯著提升了長文本的質量,且讓模型對長度指令的遵循更為精準。

從生成質量的“起伏之路”到復雜格式的雙重挑戰,再到EoS信號的“提前規劃”,這些隱藏的現象揭示了模型長度指令遵循能力的深層次不足。不過,通過擴充預訓練數據和引入預規劃策略,未來的模型完全有希望實現“字夠了,內容也對了”。

總結

論文提出了 LIFEBENCH,用于評估大型語言模型(LLMs)在多種任務、語言和長度限制下遵循長度指令的能力。

分析表明,當前 LLMs 在長度指令執行上仍存在顯著問題,尤其在長文本限制下,生成長度常低于聲稱的能力范圍,甚至表現出“提前結束””的傾向。模型表現還受到任務類型、語言和輸入長度等因素的顯著影響。

這些發現揭示了 LLMs 在長度指令遵循上的關鍵短板,表明未來需要更優的訓練策略,以及更全面的評估體系,來提升其對長度指令的執行能力和實際表現。

github倉庫:https://github.com/LIFEBench/LIFEBench

huggingface鏈接:https://huggingface.co/datasets/LIFEBench/LIFEBench

論文地址:https://arxiv.org/abs/2505.16234

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
張卓毅母親要求孫繼海列出費用明細!女方曾花兩萬幫孩子轉會

張卓毅母親要求孫繼海列出費用明細!女方曾花兩萬幫孩子轉會

小椰的奶奶
2025-06-01 13:09:47
端午檔票房已破1.6億元!《碟中諜8》攬入一半!

端午檔票房已破1.6億元!《碟中諜8》攬入一半!

證券時報e公司
2025-05-31 17:44:08
俄軍大麻煩來了,烏克蘭發現5000輛裝甲車倉庫:還有40架F-18戰機

俄軍大麻煩來了,烏克蘭發現5000輛裝甲車倉庫:還有40架F-18戰機

梁訊
2025-06-01 15:20:43
《碟中諜8》票房井噴,打了多少資本的臉?湯姆克魯斯又賭對了

《碟中諜8》票房井噴,打了多少資本的臉?湯姆克魯斯又賭對了

娛影綜說
2025-05-31 19:03:55
人活多久,看吃飯就知道,壽命短的人,吃飯一般有這2個特征

人活多久,看吃飯就知道,壽命短的人,吃飯一般有這2個特征

健康八條
2025-05-29 22:04:49
恩里克談姆巴佩:我們擁有圍繞球隊運轉的球星,而不是反過來

恩里克談姆巴佩:我們擁有圍繞球隊運轉的球星,而不是反過來

直播吧
2025-06-01 06:13:14
廣州市中心“堵船”了!獵德村上演十年最大規模招景,150多條龍船穿越CBD,比過年還熱鬧

廣州市中心“堵船”了!獵德村上演十年最大規模招景,150多條龍船穿越CBD,比過年還熱鬧

極目新聞
2025-06-01 08:52:53
中美香會激烈交鋒,美防長不許中國做2件事,中方當場反將一軍

中美香會激烈交鋒,美防長不許中國做2件事,中方當場反將一軍

陳博世財經
2025-06-01 10:13:34
喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

米筐投資
2025-05-30 07:18:09
4年1.1億美金,加盟快船,既能收獲大合同,又能擁有奪冠機會

4年1.1億美金,加盟快船,既能收獲大合同,又能擁有奪冠機會

康泳哥看體育
2025-05-31 22:21:32
中國男足對陣印尼開球時間確定,CCTV5+節目表公布

中國男足對陣印尼開球時間確定,CCTV5+節目表公布

曦言說
2025-06-01 01:27:12
陳某、劉某某、李某某等,多次組織20余名未成年人有償陪侍

陳某、劉某某、李某某等,多次組織20余名未成年人有償陪侍

澎湃新聞
2025-06-01 11:56:07
“憑什么讓我滾出中國!”加入日籍的乒乓球天才張智和,回四川祭祖,遭鄉親強烈抵制

“憑什么讓我滾出中國!”加入日籍的乒乓球天才張智和,回四川祭祖,遭鄉親強烈抵制

感覺會火
2025-04-10 12:05:49
大爭議!哈利伯頓4比5西亞卡姆,錯失東決MVP,頒獎都沒機會發言

大爭議!哈利伯頓4比5西亞卡姆,錯失東決MVP,頒獎都沒機會發言

嘴炮體壇
2025-06-01 11:13:51
盤點世界體壇六大無恥事件,韓國獨占其三,佩服佩服

盤點世界體壇六大無恥事件,韓國獨占其三,佩服佩服

第一體育
2025-06-01 14:51:15
剛剛,四川成都突發地震!成都市區震感明顯,“床在搖,沙發在晃”

剛剛,四川成都突發地震!成都市區震感明顯,“床在搖,沙發在晃”

上觀新聞
2025-06-01 16:32:11
善惡終有報,曾為安倍晉三哭喪的影后呂麗萍,如今已成為“笑話”

善惡終有報,曾為安倍晉三哭喪的影后呂麗萍,如今已成為“笑話”

卷史
2025-05-02 13:38:20
果然,美國開始斷供C919發動機了!

果然,美國開始斷供C919發動機了!

牲產隊2024
2025-05-30 20:59:45
陳雨菲2-0擊敗王祉怡,獲新加坡賽女單冠軍&賽季第四冠

陳雨菲2-0擊敗王祉怡,獲新加坡賽女單冠軍&賽季第四冠

懂球帝
2025-06-01 16:15:07
步行者總結:時隔25年第2次總決賽戰雷霆 哈利PK亞歷山大沖首冠

步行者總結:時隔25年第2次總決賽戰雷霆 哈利PK亞歷山大沖首冠

醉臥浮生
2025-06-01 10:33:17
2025-06-01 19:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10599文章數 176159關注度
往期回顧 全部

科技要聞

熱搜!雷軍疑回應余承東

頭條要聞

荷蘭防相在"香會"上污蔑:中國想"偷"芯片

頭條要聞

荷蘭防相在"香會"上污蔑:中國想"偷"芯片

體育要聞

一邊倒的歐冠決賽,青春無敵的新科冠軍

娛樂要聞

張若昀夫婦國外遛娃 男方推平價兒童車

財經要聞

油價繼續下跌?歐佩克宣布將再度增產

汽車要聞

零跑汽車5月交付量達45,067臺 穩居新勢力前三

態度原創

本地
親子
教育
數碼
公開課

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

親子要聞

寶藍沒趕上校巴,去商店買了好玩的輪滑車,這樣再也不會遲到了!

教育要聞

慢燉一鍋熱氣騰騰的“童年味道”

數碼要聞

消息稱 HMD 將推出 Rubber 1/1S 智能手表,支持血氧心率檢測

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳朔县| 南康市| 轮台县| 巴彦淖尔市| 西吉县| 华蓥市| 浠水县| 民勤县| 宜川县| 九江市| 福安市| 当阳市| 阳泉市| 奉贤区| 横峰县| 德昌县| 紫阳县| 汉中市| 巨野县| 宜昌市| 广灵县| 镇江市| 利津县| 广河县| 连南| 丹凤县| 新余市| 西和县| 禄丰县| 华蓥市| 武冈市| 盱眙县| 巴楚县| 海南省| 盐亭县| 内黄县| 顺义区| 习水县| 武宁县| 田阳县| 宝山区|