99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

低Token高精度!字節復旦推出自適應推理框架CAR

0
分享至

過度依賴CoT思維鏈推理會降低模型性能,有新解了!

來自字節、復旦大學的研究人員提出自適應推理框架CAR,能根據模型困惑度動態選擇短回答或詳細的長文本推理,最終實現了準確性與效率的最佳平衡。



推理能力的進步極大提升了大語言模型(LLMs)和多模態大語言模型(MLLMs)在各類任務中的表現。

但已有研究發現,長CoT推理并非總能提升準確率,甚至會削弱模型處理簡單任務的能力(可能產生冗長輸出)

為此,研究人員提出了CAR這一基于置信度的自適應推理框架,它首先生成簡短回答并評估困惑度,僅在模型置信度低(困惑度高)時觸發推理。

在多模態視覺問答、關鍵信息提取及文本推理等多個基準測試中,CAR超越了單純的短回答與長推理方法,在準確性與效率之間取得了最佳平衡。

先導實驗設置

這項研究聚焦文本密集型視覺問答(VQA)和關鍵信息抽取(KIE)領域,選取8個具有代表性的公開數據集開展先導實驗。

其中,DocVQA、InfoVQA、ChartQA、VisualMRC等4個數據集構成VQA數據集,覆蓋文檔、圖表、信息圖等多種視覺文本形態;SROIE、CORD、FUNSD、POIE等4個數據集組成KIE數據集,主要用于票據、表格等結構化信息抽取任務。

以這些數據集為基礎,研究對Qwen2.5-0.5B模型進行微調,并在域內(如DocVQA、ChartQA)和域外(如POIE、InfoVQA)數據集上開展性能評估。

評估過程中,要求模型分別生成簡短答案和包含長文本推理過程的答案兩種輸出形式。

實驗完成后,系統性統計各數據集的準確率(Accuracy)和回答的困惑度(Perplexity,PPL)——PPL 值越低,表明模型對生成答案的置信度越高。



實驗分析結果顯示,PPL與準確率之間存在顯著的強負相關性

從數據集層面分析,準確率與PPL呈現明顯的逆向關系(見圖1),即數據集整體準確率越高,其平均PPL值越低;深入數據集內部觀察,預測正確樣本的平均PPL分數顯著低于預測錯誤樣本(見圖2)。

基于上述發現,研究創新性提出一種基于PPL的動態推理決策機制

具體而言,當模型輸出的PPL值超過設定閾值(研究以測試集PPL分布的75%分位數作為閾值)時,判定為低置信度場景,觸發長文本推理模式,以減少誤判風險;若PPL值低于閾值,則判定為高置信度場景,直接輸出簡短答案,提升推理效率。

實驗結果表明,采用該動態決策機制后,模型在絕大多數數據集上的性能均實現顯著提升。

以下為PPL取75%分位數為閾值下的性能對比:



提出自適應推理框架CAR

基于上述探索性的發現,這項研究工作擬開發一個使用困惑度(PPL)的動態推理決策框架Certainty-based Adaptive Reasoning(CAR),其目標是能夠在推理過程中自適應地在短文本推理和長文本推理之間切換。

如圖3(a)所示,研究人員首先使用包含簡短答案的示例和包含長文本推理解答的示例來訓練大語言模型(LLM)或多模態大語言模型(MLLM)。

隨后,借助訓練集的困惑度(PPL),估計正確和錯誤簡短答案的PPL分布,這些分布用于決策制定。

具體來說,如果估計的分布確定簡短答案是正確的,所提出的方法會直接輸出該正確答案。否則,它會執行長文本推理。推理過程如圖3(b)所示。



模型訓練

研究人員將同時包含簡短答案和長文本推理解答標注的訓練示例進行混合,構建新的數據集。隨后采用標準指令微調流程,模型接收由輸入文本和輸出文本組成的序列,優化目標為交叉熵損失:



模型訓練完成后,對訓練集中所有樣本進行短答案推理,生成預測答案并計算其困惑度值PPL。

Token序列的困惑度定義為:



高斯分布建模

設二元變量C表示短答案是否正確(C=1為正確,C=0為錯誤),假設正確與錯誤答案的PPL分布均服從高斯分布:



概率密度函數分別為:



最后,通過訓練數據估計其中參數(假設n1和n0分別為訓練集中正確與錯誤回答的數量):



推理過程

對新輸入x,推理步驟如下:

1、短回答推理:模型生成短回答,并計算相應的PPL為PPLnew;

2、概率計算:根據貝葉斯定理,將PPLnew代入概率密度函數,計算后驗概率;



其中,先驗概率分別為:



3、決策規則:如果短回答的正確概率高于其可能錯誤的概率,直接輸出短回答;否則觸發模型的長推理。

實驗結果

下表展示了多模態數據集上的性能表現。

首先,CARQwen2VL相比CARShort和CARLong的優越性能,證明了使用困惑度(PPL)作為推理路徑選擇指標的有效性。

此外,所提出的方法保持了還使用了更少的輸出Token數量(平均86.9個token),僅為Qwen2-VLLong所使用Token數量的15%。



下表展示了基于文本的推理任務性能對比。

CAR方法表現出穩健的性能。具體地,使用Qwen2.5-7B模型時平均準確率達81.1%(上圖);使用Llama3.1-8B時達74.9%,均優于短答案基線模型以及長文本推理模型(下圖)。

此外,CAR的性能均優于TALE和COD等先進的Token縮減方法。





小結一下,這項研究提出基于置信度的自適應推理框架(CAR),該框架可根據模型置信度動態切換短回答與長文本推理模式。

通過困惑度(PPL)量化模型對答案的置信度,CAR在高置信度時直接輸出短回答以提升效率,低置信度時觸發長文本推理以確保準確性。

按照研究團隊的說法,CAR打破了“長文本推理必然性能更好”的固有認知,為大模型推理提供了更靈活高效的解決方案,推動大模型推理向智能化、輕量化方向發展。

論文地址:https://arxiv.org/abs/2505.15154

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事業編和公務員的區別到底是什么?區別可大了,很多人不知道!

事業編和公務員的區別到底是什么?區別可大了,很多人不知道!

CG說科技
2025-06-04 23:05:19
中國女子揮刀砍死55歲日本兒童福利院員工,只因探視孩子被拒

中國女子揮刀砍死55歲日本兒童福利院員工,只因探視孩子被拒

東京在線
2025-06-05 23:59:42
為什么華人很少跟白種女人交往?網友:五大三粗,毛長體臭!

為什么華人很少跟白種女人交往?網友:五大三粗,毛長體臭!

特約前排觀眾
2025-06-02 00:05:12
新華時評·鍥而不舍落實中央八項規定精神|假調研解決不了真問題

新華時評·鍥而不舍落實中央八項規定精神|假調研解決不了真問題

新華社
2025-06-05 18:41:10
博主稱2萬元的華為Mate XT賣得非常好:比大部分國內廠商的大折疊還好

博主稱2萬元的華為Mate XT賣得非常好:比大部分國內廠商的大折疊還好

快科技
2025-06-05 17:12:51
服務員!服務員!內個戴眼鏡的,把胡椒面瓶子拿走了!

服務員!服務員!內個戴眼鏡的,把胡椒面瓶子拿走了!

熊太行
2025-06-05 14:56:06
王思聰帶懶懶坐私人飛機,懶懶曬的合照有意思,原來他也是這待遇

王思聰帶懶懶坐私人飛機,懶懶曬的合照有意思,原來他也是這待遇

凌薇看電影
2025-06-05 15:58:38
美空軍部長:希望中國永遠不要武統臺島,因為美軍已做好戰爭準備

美空軍部長:希望中國永遠不要武統臺島,因為美軍已做好戰爭準備

荷蘭豆愛健康
2025-06-05 09:31:51
弟弟失業帶一家來投靠我,我假裝出差逃避,5天后老公打來電話

弟弟失業帶一家來投靠我,我假裝出差逃避,5天后老公打來電話

白云故事
2025-06-04 12:30:08
北、上、深等地保時捷大降價!深圳地區卡宴打6.5折,帕拉梅拉優惠30多萬

北、上、深等地保時捷大降價!深圳地區卡宴打6.5折,帕拉梅拉優惠30多萬

紅星資本局
2025-06-03 19:09:07
陳赫陪老婆逛香奈兒,42歲張子萱一頭黃發好洋氣,身高170瘦又美

陳赫陪老婆逛香奈兒,42歲張子萱一頭黃發好洋氣,身高170瘦又美

阿纂看事
2025-06-05 16:30:31
女演員的身材很重要,《藏海傳》39歲白冰與47歲余男站一起很明顯

女演員的身材很重要,《藏海傳》39歲白冰與47歲余男站一起很明顯

草莓解說體育
2025-06-06 09:49:57
烏克蘭到底需要什么?

烏克蘭到底需要什么?

西樓飲月
2025-06-04 22:33:08
狂野5換4交易方案:布克聯手濃眉,獨行俠豪賭,籌碼令太陽難拒絕

狂野5換4交易方案:布克聯手濃眉,獨行俠豪賭,籌碼令太陽難拒絕

毒舌NBA
2025-06-06 08:59:09
把女兒養得自私又叛逆,我醒悟:最愚蠢的教育,就是過度尊重孩子

把女兒養得自私又叛逆,我醒悟:最愚蠢的教育,就是過度尊重孩子

詩詞中國
2025-06-04 12:56:48
機構熱捧!600104,最高暴增超5倍

機構熱捧!600104,最高暴增超5倍

數據寶
2025-06-06 07:40:22
中老年人,懇求您停止這6種運動,它們正在一點一滴毀掉您的心臟

中老年人,懇求您停止這6種運動,它們正在一點一滴毀掉您的心臟

墜入二次元的海洋
2025-06-02 15:10:15
住建部已發聲?房齡滿24年,房子一律按新規處理,老業主要發財了

住建部已發聲?房齡滿24年,房子一律按新規處理,老業主要發財了

巢客HOME
2025-06-04 06:25:02
烏克蘭到底摧毀了多少俄戰略轟炸機?是否俄“珍珠港時刻”?

烏克蘭到底摧毀了多少俄戰略轟炸機?是否俄“珍珠港時刻”?

新民晚報
2025-06-03 09:15:01
沒想到,睡遍京圈、定居美國7年,丁克半輩子的徐靜蕾成人生贏家

沒想到,睡遍京圈、定居美國7年,丁克半輩子的徐靜蕾成人生贏家

墨印齋
2025-06-05 15:34:38
2025-06-06 11:31:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176162關注度
往期回顧 全部

科技要聞

特朗普怒噴馬斯克"瘋了" 特斯拉暴跌14%!

頭條要聞

連續29年參加高考 58歲梁實自稱無奈:沒浪費公共資源

頭條要聞

連續29年參加高考 58歲梁實自稱無奈:沒浪費公共資源

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

段奧娟:告別舒適圈,擁抱無限可能

財經要聞

娃哈哈“體外”迷局待解

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

手機
本地
數碼
藝術
公開課

手機要聞

蘋果 iOS 18 普及率 82%、iPadOS 18 普及率 71%

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

數碼要聞

華為智慧屏 S6 開啟預售,入門級 MiniLED 電視首選

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蒲江县| 化隆| 平顶山市| 兴安县| 如皋市| 青神县| 宝山区| 嵩明县| 曲阜市| 克拉玛依市| 海丰县| 临洮县| 四平市| 沙洋县| 靖边县| 舒兰市| 高唐县| 大竹县| 耿马| 阿鲁科尔沁旗| 成都市| 昌都县| 阿图什市| 鄂托克前旗| 双牌县| 六盘水市| 涞源县| 突泉县| 新安县| 灯塔市| 辉南县| 赣榆县| 富蕴县| 迭部县| 金昌市| 扎囊县| 晋江市| 克东县| 文水县| 江永县| 闻喜县|