99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

打破思維鏈推理瓶頸!“軟推理”讓大模型學(xué)會人類抽象能力

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

不再像CoT(“思維鏈”)一樣“一個字一個字往外蹦”,加上“軟思維”就能讓大模型像人類一樣進行抽象思考。

來自SimularAI和微軟DeepSpeed的研究員聯(lián)合提出了Soft Thinking,讓模型在連續(xù)的概念空間中進行 “軟推理”,而非局限于離散的語言符號,打破了基于離散token的推理瓶頸。

相比標準CoT,Soft Thinking最高提升Pass@1平均準確率2.48%、減少token使用量22.4%。

并且,Soft Thinking是一種即插即用的推理策略,無需額外訓(xùn)練即可應(yīng)用于現(xiàn)有模型(如Llama、Qwen)。



目前主流的語言模型推理方法存在一個關(guān)鍵問題:只能逐字生成離散的語言符號(如單詞或子詞)

這就好比思考時只能一個字一個字的蹦出來,不僅限制了模型表達抽象概念的能力,還容易在復(fù)雜問題中因“單一路徑選擇”而犯錯。

人類大腦思考時并非依賴明確的語言符號,而是通過抽象概念的靈活整合進行推理。



Soft Thinking正是受此啟發(fā),將語言模型的推理從“離散符號空間”拓展到“連續(xù)概念空間”。

這樣,模型就可以捕捉到介于僅有細微差別的語義之間的概念,能夠更靈活地探索多種解題路徑,同時保持高效和可解釋性。

有網(wǎng)友表示:這種方法解決了自回歸“貪婪”的next token搜索問題。



如何讓模型像人類一樣進行抽象思考
推理流程:在連續(xù)概念空間中 “軟推理”

Soft Thinking僅修改傳統(tǒng)CoT的中間推理階段,保留最終答案的離散生成(如數(shù)學(xué)題的數(shù)字答案或代碼的具體語句)。

Soft Thinking的理論本質(zhì)是線性近似替代路徑枚舉

解復(fù)雜問題時,傳統(tǒng)CoT的推理路徑數(shù)量隨步驟呈指數(shù)級增長(如每步選1000個token,3步就有1000^3種路徑),無法顯式枚舉。

Soft Thinking通過線性化近似,將指數(shù)級路徑求和簡化為概念token的加權(quán)計算。

概率加權(quán)替代離散采樣,通過連續(xù)概念空間中的線性變換,隱式聚合多條路徑的信息,避免顯式枚舉的計算爆炸。



概念token:用概率分布代替單一符號

傳統(tǒng)方法每次生成一個確定的token(如 “30”“加”),而Soft Thinking生成一個概率分布(如 “30” 的概率40%,“乘以” 的概率30%,“分解” 的概率20%等),這個分布被稱為 “概念token”。

每個概念token相當于多個可能符號的 “混合體”,允許模型同時保留多種推理可能性

如下圖中的例子,在計算“43×34”時,模型可能同時考慮“分解34為30+4”和“直接相乘”兩種路徑的概率,而非只選其一。



連續(xù)概念空間:在 “模糊” 的語義空間中推理

通過將概念token的概率分布與模型的詞向量(Token Embedding)加權(quán)結(jié)合,形成連續(xù)的概念空間。

這里的 “連續(xù)” 意味著模型可以在不同概念之間平滑過渡,例如從“分解數(shù)字”自然過渡到“乘法運算”,而無需用明確的語言符號分隔步驟。



Cold Stop機制:避免無效循環(huán)

由于模型在訓(xùn)練中沒見過概念token(屬于 “分布外” 輸入),長時間推理可能導(dǎo)致陷入重復(fù)或混亂(類似人類思維的 “卡殼”)。

Soft Thinking引入了一個“Cold Stop”機制:通過監(jiān)測概率分布的熵值判斷模型的 “自信程度”。

當熵值持續(xù)較低時(表明模型對當前推理路徑很確定),提前終止中間步驟,直接生成答案,避免浪費計算資源。

測試結(jié)果及對比

在基準測試里,QwQ - 32B模型的平均Pass@1準確率從標準CoT的83.84%提升至86.32%,最高提升2.48%,其中在AIME 2024數(shù)據(jù)集上提升6.45%。

推理效率方面,DeepSeek-R1-Distill-Qwen-32B在數(shù)學(xué)任務(wù)中token使用量減少22.4%。



與其他方法的對比
  • COCONUT-TF(無訓(xùn)練):直接使用隱藏狀態(tài)作為輸入,完全失敗,生成長度達最大值且無正確解。
  • 平均嵌入策略:僅計算top-5 token均值,準確率低且生成長度長(如AIME 2024僅6.66%正確)。



Soft Thinking通過連續(xù)概念空間推理和Cold Stop機制智能平衡了效率與準確性,為大模型優(yōu)化提供了新思路。

感興趣的朋友可以到官方了解更多細節(jié)。

官方網(wǎng)站:https://soft-thinking.github.io/
論文地址:https://arxiv.org/abs/2505.15778
代碼地址:https://github.com/eric-ai-lab/Soft-Thinking
參考鏈接:https://x.com/xwang_lk/status/1925399783503798692

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
因流氓案“逃往”美國的龔雪,39年后回到中國,結(jié)局大不一樣

因流氓案“逃往”美國的龔雪,39年后回到中國,結(jié)局大不一樣

娛樂白名單
2025-05-23 23:26:19
女子產(chǎn)檢十次均為雙胞胎,產(chǎn)后只有一個孩子,她喂奶時竟發(fā)現(xiàn)秘密

女子產(chǎn)檢十次均為雙胞胎,產(chǎn)后只有一個孩子,她喂奶時竟發(fā)現(xiàn)秘密

罪案洞察者
2025-05-21 09:51:16
突發(fā)!臺海上空上演震撼一幕,解放軍不再口頭警告!美徹底破大防

突發(fā)!臺海上空上演震撼一幕,解放軍不再口頭警告!美徹底破大防

傲氣經(jīng)說
2025-05-24 10:08:47
為什么同意陳冠希拍攝?張柏芝多年后吐露真相:我信錯了人

為什么同意陳冠希拍攝?張柏芝多年后吐露真相:我信錯了人

不八卦掌門人
2025-05-22 21:32:45
被王曼昱打哭,采訪內(nèi)容曝光,誰注意張本美和對王曼昱稱呼改變

被王曼昱打哭,采訪內(nèi)容曝光,誰注意張本美和對王曼昱稱呼改變

東球弟
2025-05-24 14:32:56
這四種高鉀食物,多吃腿腳有勁,還能防止中風,家里有老人快收藏

這四種高鉀食物,多吃腿腳有勁,還能防止中風,家里有老人快收藏

阿龍美食記
2025-05-23 14:32:41
貼近實戰(zhàn)!山東艦最新演練現(xiàn)場→

貼近實戰(zhàn)!山東艦最新演練現(xiàn)場→

蓬勃新聞
2025-05-24 15:45:40
日本世界冠軍遭淘汰后,哭到暈厥并手腳無法動彈!被緊急送往醫(yī)院

日本世界冠軍遭淘汰后,哭到暈厥并手腳無法動彈!被緊急送往醫(yī)院

十點街球體育
2025-05-24 12:45:03
就在今天,5月24凌晨,斯諾克傳來趙心童、白雨露、舒爾第新消息

就在今天,5月24凌晨,斯諾克傳來趙心童、白雨露、舒爾第新消息

紅香娛
2025-05-24 08:32:58
沙特媒:新月已與奧斯梅恩達協(xié)議,支付7500萬歐解約金簽約三年

沙特媒:新月已與奧斯梅恩達協(xié)議,支付7500萬歐解約金簽約三年

直播吧
2025-05-24 03:33:08
地球99.999%的黃金都“鎖”在地核,最新發(fā)現(xiàn):它正在悄悄“漏財”

地球99.999%的黃金都“鎖”在地核,最新發(fā)現(xiàn):它正在悄悄“漏財”

紅星新聞
2025-05-23 17:25:24
德布勞內(nèi):23年歐冠踢皇馬前幾乎沒睡覺,對曼城球迷的感謝無以言表

德布勞內(nèi):23年歐冠踢皇馬前幾乎沒睡覺,對曼城球迷的感謝無以言表

雷速體育
2025-05-24 16:57:17
網(wǎng)友評價甜馨:沒了抖音濾鏡就是大媽,李小璐42依舊美如少女!

網(wǎng)友評價甜馨:沒了抖音濾鏡就是大媽,李小璐42依舊美如少女!

曉風說
2025-05-24 17:32:06
TVB忠臣34秒自拍片狂吸7千點讃,演技無可挑剔從未獲演技獎項

TVB忠臣34秒自拍片狂吸7千點讃,演技無可挑剔從未獲演技獎項

粵睇先生
2025-05-24 02:45:12
曾有人問卓偉趙麗穎有沒有坐過臺?卓偉回答很好品!張藝謀沒說錯

曾有人問卓偉趙麗穎有沒有坐過臺?卓偉回答很好品!張藝謀沒說錯

聯(lián)友說娛
2025-05-24 10:30:09
一次又一次挑戰(zhàn)底線,終于引起公憤了!

一次又一次挑戰(zhàn)底線,終于引起公憤了!

末名先生
2025-05-22 16:07:40
當年舉報畢福劍的那位告密者張清:眾叛親離,過得好慘

當年舉報畢福劍的那位告密者張清:眾叛親離,過得好慘

新興網(wǎng)評
2024-12-11 21:02:46
莫雷加德談再遇王楚欽:我是下風者,你們會看到一個更加冷靜的我

莫雷加德談再遇王楚欽:我是下風者,你們會看到一個更加冷靜的我

直播吧
2025-05-24 10:48:25
韓星Lisa與“神秘男子共舞”,破格舞蹈吸睛

韓星Lisa與“神秘男子共舞”,破格舞蹈吸睛

韓娛明星趣聞
2025-05-22 11:23:00
擔憂!捏捏樂博主突然宣布患癌,捏捏真相背后,你不知道的危險

擔憂!捏捏樂博主突然宣布患癌,捏捏真相背后,你不知道的危險

八斗小先生
2025-05-23 17:48:56
2025-05-24 19:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10550文章數(shù) 176151關(guān)注度
往期回顧 全部

科技要聞

不止蘋果?特朗普:三星不在美國造 也加稅

頭條要聞

孫穎莎4比0橫掃伊藤美誠晉級決賽 國乒鎖定女單冠軍

頭條要聞

孫穎莎4比0橫掃伊藤美誠晉級決賽 國乒鎖定女單冠軍

體育要聞

NBA最被高估球隊,“突然”有了冠軍相?

娛樂要聞

歌手2025第二期排名:居然是他淘汰了

財經(jīng)要聞

不得不說,特朗普殺瘋了

汽車要聞

一見傾心!東風全新SUV定妝圖曝光,顏值氣場并存

態(tài)度原創(chuàng)

健康
教育
旅游
時尚
數(shù)碼

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

新東方探索“銀發(fā)留學(xué)”,發(fā)布《中國學(xué)生出國留學(xué)發(fā)展報告》

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

入夏后中年女人這樣打扮:裙子過膝,鞋子帶跟,美得高級優(yōu)雅

數(shù)碼要聞

僅199元!小米推出室外攝像機4C:500萬像素全彩夜視、雙云臺

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 民权县| 墨玉县| 阿尔山市| 绵阳市| 太仆寺旗| 尖扎县| 晋州市| 霍山县| 东兰县| 丰宁| 武冈市| 康乐县| 南宫市| 随州市| 瑞金市| 常宁市| 浦北县| 鹿泉市| 韩城市| 宾川县| 工布江达县| 那坡县| 灌云县| 富锦市| 清徐县| 巴林右旗| 右玉县| 揭东县| 红安县| 莒南县| 仙居县| 延寿县| 海兴县| 曲麻莱县| 马关县| 恩平市| 舒城县| 和政县| 西林县| 高淳县| 延庆县|