99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<menu id="81nfc"></menu>

<em id="81nfc"></em><cite id="81nfc"></cite>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

低Token高精度！字節復旦推出自適應推理框架CAR

2025-05-27 11:56:40　來源: 量子位

北京舉報

0

分享至

過度依賴CoT思維鏈推理會降低模型性能，有新解了！

來自字節、復旦大學的研究人員提出自適應推理框架CAR，能根據模型困惑度動態選擇短回答或詳細的長文本推理，最終實現了準確性與效率的最佳平衡。

推理能力的進步極大提升了大語言模型（LLMs）和多模態大語言模型（MLLMs）在各類任務中的表現。

但已有研究發現，長CoT推理并非總能提升準確率，甚至會削弱模型處理簡單任務的能力（可能產生冗長輸出）。

為此，研究人員提出了CAR這一基于置信度的自適應推理框架，它首先生成簡短回答并評估困惑度，僅在模型置信度低（困惑度高）時觸發推理。

在多模態視覺問答、關鍵信息提取及文本推理等多個基準測試中，CAR超越了單純的短回答與長推理方法，在準確性與效率之間取得了最佳平衡。

先導實驗設置

這項研究聚焦文本密集型視覺問答（VQA）和關鍵信息抽取（KIE）領域，選取8個具有代表性的公開數據集開展先導實驗。

其中，DocVQA、InfoVQA、ChartQA、VisualMRC等4個數據集構成VQA數據集，覆蓋文檔、圖表、信息圖等多種視覺文本形態；SROIE、CORD、FUNSD、POIE等4個數據集組成KIE數據集，主要用于票據、表格等結構化信息抽取任務。

以這些數據集為基礎，研究對Qwen2.5-0.5B模型進行微調，并在域內（如DocVQA、ChartQA）和域外（如POIE、InfoVQA）數據集上開展性能評估。

評估過程中，要求模型分別生成簡短答案和包含長文本推理過程的答案兩種輸出形式。

實驗完成后，系統性統計各數據集的準確率（Accuracy）和回答的困惑度（Perplexity，PPL）——PPL 值越低，表明模型對生成答案的置信度越高。

實驗分析結果顯示，PPL與準確率之間存在顯著的強負相關性。

從數據集層面分析，準確率與PPL呈現明顯的逆向關系（見圖1），即數據集整體準確率越高，其平均PPL值越低；深入數據集內部觀察，預測正確樣本的平均PPL分數顯著低于預測錯誤樣本（見圖2）。

基于上述發現，研究創新性提出一種基于PPL的動態推理決策機制。

具體而言，當模型輸出的PPL值超過設定閾值（研究以測試集PPL分布的75%分位數作為閾值）時，判定為低置信度場景，觸發長文本推理模式，以減少誤判風險；若PPL值低于閾值，則判定為高置信度場景，直接輸出簡短答案，提升推理效率。

實驗結果表明，采用該動態決策機制后，模型在絕大多數數據集上的性能均實現顯著提升。

以下為PPL取75%分位數為閾值下的性能對比：

提出自適應推理框架CAR

基于上述探索性的發現，這項研究工作擬開發一個使用困惑度（PPL）的動態推理決策框架Certainty-based Adaptive Reasoning（CAR），其目標是能夠在推理過程中自適應地在短文本推理和長文本推理之間切換。

如圖3(a)所示，研究人員首先使用包含簡短答案的示例和包含長文本推理解答的示例來訓練大語言模型（LLM）或多模態大語言模型（MLLM）。

隨后，借助訓練集的困惑度（PPL），估計正確和錯誤簡短答案的PPL分布，這些分布用于決策制定。

具體來說，如果估計的分布確定簡短答案是正確的，所提出的方法會直接輸出該正確答案。否則，它會執行長文本推理。推理過程如圖3(b)所示。

模型訓練

研究人員將同時包含簡短答案和長文本推理解答標注的訓練示例進行混合，構建新的數據集。隨后采用標準指令微調流程，模型接收由輸入文本和輸出文本組成的序列，優化目標為交叉熵損失：

模型訓練完成后，對訓練集中所有樣本進行短答案推理，生成預測答案并計算其困惑度值PPL。

Token序列的困惑度定義為：

高斯分布建模

設二元變量C表示短答案是否正確（C=1為正確，C=0為錯誤），假設正確與錯誤答案的PPL分布均服從高斯分布：

概率密度函數分別為：

最后，通過訓練數據估計其中參數（假設n1和n0分別為訓練集中正確與錯誤回答的數量）：

推理過程

對新輸入x，推理步驟如下：

1、短回答推理：模型生成短回答，并計算相應的PPL為PPLnew；

2、概率計算：根據貝葉斯定理，將PPLnew代入概率密度函數，計算后驗概率；

其中，先驗概率分別為：

3、決策規則：如果短回答的正確概率高于其可能錯誤的概率，直接輸出短回答；否則觸發模型的長推理。

實驗結果

下表展示了多模態數據集上的性能表現。

首先，CARQwen2VL相比CARShort和CARLong的優越性能，證明了使用困惑度（PPL）作為推理路徑選擇指標的有效性。

此外，所提出的方法保持了還使用了更少的輸出Token數量（平均86.9個token），僅為Qwen2-VLLong所使用Token數量的15%。

下表展示了基于文本的推理任務性能對比。

CAR方法表現出穩健的性能。具體地，使用Qwen2.5-7B模型時平均準確率達81.1%（上圖）；使用Llama3.1-8B時達74.9%，均優于短答案基線模型以及長文本推理模型（下圖）。

此外，CAR的性能均優于TALE和COD等先進的Token縮減方法。

小結一下，這項研究提出基于置信度的自適應推理框架（CAR），該框架可根據模型置信度動態切換短回答與長文本推理模式。

通過困惑度（PPL）量化模型對答案的置信度，CAR在高置信度時直接輸出短回答以提升效率，低置信度時觸發長文本推理以確保準確性。

按照研究團隊的說法，CAR打破了“長文本推理必然性能更好”的固有認知，為大模型推理提供了更靈活高效的解決方案，推動大模型推理向智能化、輕量化方向發展。

論文地址：https://arxiv.org/abs/2505.15154

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

加拿大初創制備1550nm波段光學GKP量子比特態，已完成2億美元融資

DeepTech深科技 2025-06-05 20:25:52
6 跟貼 6
沖擊自回歸，擴散模型正在改寫下一代通用模型范式

機器之心Pro 2025-06-04 11:01:11
3 跟貼 3

智能體大潮洶涌，但留給天工和階躍們的時間不多了

雷科技 2025-06-05 21:09:48
0 跟貼 0

視頻生成模型無損加速兩倍，秘訣是「抓住attention時空稀疏性」

機器之心Pro 2025-05-07 19:05:34
2 跟貼 2
ACL 2025 | 基于Token預算感知的大模型高效推理技術

機器之心Pro 2025-06-05 10:33:22
0 跟貼 0

中國團隊讓AI擁有「視覺想象力」，像人類一樣腦補畫面來思考

機器之心Pro 2025-05-29 15:26:48
0 跟貼 0

女司機開口要150的水，男收費員秒懂：沖奶粉是吧

大象新聞 2025-06-05 19:15:34
231 跟貼 231
Multi-Token突破注意力機制瓶頸，Meta發明一種很新的Transformer

機器之心Pro 2025-04-04 16:40:04
4 跟貼 4

女生上建模課曬老師與自己做的動畫，老師：依次倒下自己：一次倒下

奇妙觀探 2025-06-05 13:02:13
1 跟貼 1
DeepMind揭驚人答案：智能體就是世界模型！跟Ilya 2年前預言竟不謀而合

新智元 2025-06-05 17:10:50
12 跟貼 12
美防長對華施壓后，不到48小時，央視曝東風5參數，中方加強練兵

鳳凰張霆鋒 2025-06-05 20:07:36
0 跟貼 0
效率飆漲177%！清華、螞蟻聯合開源全異步RL新成果，8B/14B模型斬獲同尺寸SOTA

智東西 2025-06-05 20:02:52
5 跟貼 5
Meta新突破！跨模態生成告別噪聲：流匹配實現任意模態無縫流轉

機器之心Pro 2025-06-04 18:59:08
1 跟貼 1
河南一水庫水位下降現千佛石窟，有1043尊石佛幾乎全部被敲掉頭部，水庫管理人員：汛期將至，禁止參觀

魯中晨報 2025-06-02 10:19:03
3834 跟貼 3834
MIT與Adobe聯手開發AI視頻生成工具，畫質不輸Sora，還能實時修改

DeepTech深科技 2025-06-06 10:55:17
0 跟貼 0
就在這局勢緊張之際！央視罕見公布，東風5的具體參數！是在傳遞

老潘說世界 2025-06-05 16:33:09
4 跟貼 4
【行業新聞】GE建議調整流程以加速XA102的部署

兩機動力控制 2025-06-05 22:39:59
0 跟貼 0
古城孤魂的閑言碎語006

古城孤魂 2025-06-05 14:36:22
2 跟貼 2
Sakana AI推出LLM記憶管理技術NAMMs，可將內存成本降低75%

DeepTech深科技 2024-12-18 16:50:28
0 跟貼 0
隱形圓基本定理，中考易錯題，競賽題

馬老師數學課堂 2025-06-03 17:29:23
1 跟貼 1
美國法官救了全世界？關稅被叫停，特朗普憤怒上訴，還有5個變量

軍武時間線 2025-06-04 10:46:02
0 跟貼 0
解放戰爭時期，最慘烈的太原戰役戰斗序列

紅星耀華 2025-06-04 17:27:00
0 跟貼 0
上海宣布：南北高架打通新通道，通行提速！終于不用堵了→

魯中晨報 2025-06-05 20:00:00
122 跟貼 122
10步優化超越強化學習，僅需1條未標注數據！后訓練強勢破局

新智元 2025-06-04 14:41:53
0 跟貼 0
央視突然公布東風5參數！蔡正元：就是要亮給美國看的！

臺海大林 2025-06-06 00:05:02
0 跟貼 0
北京一公園門票僅0.2元售票員反復強調:別輸成2元了

上游新聞 2025-06-03 12:56:11
792 跟貼 792
大鏟car把勞斯萊斯逼的最后把原廣告下架了

野模之家 2025-06-04 14:12:58
0 跟貼 0
王皓周日考編可能和王楚欽當同事

極目新聞 2025-06-05 16:19:30
1070 跟貼 1070
聯網搜索Agent,7B媲美R1,華為盤古DeepDiver開域信息獲取新解法

機器之心Pro 2025-06-05 14:08:22
0 跟貼 0
左國慶，無償接受“保姆式服務”

新京報 2025-06-05 19:31:10
94 跟貼 94
揚州游客免費游常州恐龍園，坐過山車甩飛50多克金項鏈，結局很暖

現代快報 2025-06-05 14:52:06
392 跟貼 392
山東考古取得重磅成果，全球首次考古證實母系社會的存在

澎湃新聞 2025-06-05 13:59:26
405 跟貼 405
蘇州市市管領導干部任前公示

揚子晚報 2025-06-05 19:53:59
118 跟貼 118
日本羅森宣布推出“陳年飯團”！使用前年大米制作，像葡萄酒一樣貼年份標簽

魯中晨報 2025-06-04 20:30:04
305 跟貼 305
公告！事關淮北事業單位招聘！

淮北發布 2025-06-04 10:18:43
0 跟貼 0
為什么吵不贏杠精？我用數學的方法找出了原因

超級數學建模 2025-06-05 22:44:02
0 跟貼 0
美股三大指數集體收跌特斯拉跌超14%

財聯社 2025-06-06 04:05:28
295 跟貼 295
拿下2000臺人形機器人訂單、總合同額超1億，松延動力創始人詳解技術秘籍

智東西 2025-06-05 21:44:01
10 跟貼 10
央視曝東風-5參數，射程1.2萬公里誤差500米，鎮國神器大揭秘

科學知識點秀 2025-06-06 08:45:17
0 跟貼 0
10行代碼，AIME24/25提高15%！揭秘大模型強化學習熵機制

機器之心Pro 2025-06-05 18:59:11
1 跟貼 1

事業編和公務員的區別到底是什么？區別可大了，很多人不知道！

事業編和公務員的區別到底是什么？區別可大了，很多人不知道！

CG說科技

2025-06-04 23:05:19

中國女子揮刀砍死55歲日本兒童福利院員工，只因探視孩子被拒

中國女子揮刀砍死55歲日本兒童福利院員工，只因探視孩子被拒

東京在線

2025-06-05 23:59:42

為什么華人很少跟白種女人交往？網友：五大三粗，毛長體臭！

為什么華人很少跟白種女人交往？網友：五大三粗，毛長體臭！

特約前排觀眾

2025-06-02 00:05:12

新華時評·鍥而不舍落實中央八項規定精神｜假調研解決不了真問題

新華時評·鍥而不舍落實中央八項規定精神｜假調研解決不了真問題

新華社

2025-06-05 18:41:10

博主稱2萬元的華為Mate XT賣得非常好：比大部分國內廠商的大折疊還好

博主稱2萬元的華為Mate XT賣得非常好：比大部分國內廠商的大折疊還好

快科技

2025-06-05 17:12:51

服務員！服務員！內個戴眼鏡的，把胡椒面瓶子拿走了！

服務員！服務員！內個戴眼鏡的，把胡椒面瓶子拿走了！

熊太行

2025-06-05 14:56:06

王思聰帶懶懶坐私人飛機，懶懶曬的合照有意思，原來他也是這待遇

王思聰帶懶懶坐私人飛機，懶懶曬的合照有意思，原來他也是這待遇

凌薇看電影

2025-06-05 15:58:38

美空軍部長：希望中國永遠不要武統臺島，因為美軍已做好戰爭準備

美空軍部長：希望中國永遠不要武統臺島，因為美軍已做好戰爭準備

荷蘭豆愛健康

2025-06-05 09:31:51

弟弟失業帶一家來投靠我，我假裝出差逃避，5天后老公打來電話

弟弟失業帶一家來投靠我，我假裝出差逃避，5天后老公打來電話

白云故事

2025-06-04 12:30:08

北、上、深等地保時捷大降價！深圳地區卡宴打6.5折，帕拉梅拉優惠30多萬

北、上、深等地保時捷大降價！深圳地區卡宴打6.5折，帕拉梅拉優惠30多萬

紅星資本局

2025-06-03 19:09:07

陳赫陪老婆逛香奈兒，42歲張子萱一頭黃發好洋氣，身高170瘦又美

陳赫陪老婆逛香奈兒，42歲張子萱一頭黃發好洋氣，身高170瘦又美

阿纂看事

2025-06-05 16:30:31

女演員的身材很重要，《藏海傳》39歲白冰與47歲余男站一起很明顯

女演員的身材很重要，《藏海傳》39歲白冰與47歲余男站一起很明顯

草莓解說體育

2025-06-06 09:49:57

烏克蘭到底需要什么？

西樓飲月

2025-06-04 22:33:08

狂野5換4交易方案：布克聯手濃眉，獨行俠豪賭，籌碼令太陽難拒絕

狂野5換4交易方案：布克聯手濃眉，獨行俠豪賭，籌碼令太陽難拒絕

毒舌NBA

2025-06-06 08:59:09

把女兒養得自私又叛逆，我醒悟：最愚蠢的教育，就是過度尊重孩子

把女兒養得自私又叛逆，我醒悟：最愚蠢的教育，就是過度尊重孩子

詩詞中國

2025-06-04 12:56:48

機構熱捧！600104，最高暴增超5倍

機構熱捧！600104，最高暴增超5倍

數據寶

2025-06-06 07:40:22

中老年人，懇求您停止這6種運動，它們正在一點一滴毀掉您的心臟

中老年人，懇求您停止這6種運動，它們正在一點一滴毀掉您的心臟

墜入二次元的海洋

2025-06-02 15:10:15

住建部已發聲？房齡滿24年，房子一律按新規處理，老業主要發財了

住建部已發聲？房齡滿24年，房子一律按新規處理，老業主要發財了

巢客HOME

2025-06-04 06:25:02

烏克蘭到底摧毀了多少俄戰略轟炸機？是否俄“珍珠港時刻”？

烏克蘭到底摧毀了多少俄戰略轟炸機？是否俄“珍珠港時刻”？

新民晚報

2025-06-03 09:15:01

沒想到，睡遍京圈、定居美國7年，丁克半輩子的徐靜蕾成人生贏家

沒想到，睡遍京圈、定居美國7年，丁克半輩子的徐靜蕾成人生贏家

墨印齋

2025-06-05 15:34:38

追蹤人工智能動態

10613文章數 176162關注度

往期回顧全部

科技要聞

特朗普怒噴馬斯克"瘋了" 特斯拉暴跌14%！

頭條要聞

連續29年參加高考 58歲梁實自稱無奈：沒浪費公共資源

頭條要聞

連續29年參加高考 58歲梁實自稱無奈：沒浪費公共資源

體育要聞

提前無緣美加墨世界杯國足眾將賽后落淚

娛樂要聞

段奧娟：告別舒適圈，擁抱無限可能

財經要聞

娃哈哈“體外”迷局待解

汽車要聞

旗艦+大六座+百萬級阿維塔全新SUV預計明年量產

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

本地

數碼

藝術

公開課

手機要聞

蘋果 iOS 18 普及率 82%、iPadOS 18 普及率 71%

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

數碼要聞

華為智慧屏 S6 開啟預售，入門級 MiniLED 電視首選

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：蒲江县| 化隆| 平顶山市| 兴安县| 如皋市| 青神县| 宝山区| 嵩明县| 曲阜市| 克拉玛依市| 海丰县| 临洮县| 四平市| 沙洋县| 靖边县| 舒兰市| 高唐县| 大竹县| 耿马| 阿鲁科尔沁旗| 成都市| 昌都县| 阿图什市| 鄂托克前旗| 双牌县| 六盘水市| 涞源县| 突泉县| 新安县| 灯塔市| 辉南县| 赣榆县| 富蕴县| 迭部县| 金昌市| 扎囊县| 晋江市| 克东县| 文水县| 江永县| 闻喜县|

<sub id="hrhoc"></sub>

<sub id="hrhoc"><s id="hrhoc"></s></sub>

<cite id="hrhoc"></cite>