今天給大家推薦一個(gè)熱門(mén)且好發(fā)高區(qū)的方向:大模型高效推理!
一方面,DeepSeekR1等的強(qiáng)力表現(xiàn),使Long CoT等推理技術(shù)爆火。但也伴隨著模型“過(guò)度思考”的問(wèn)題,堆高了計(jì)算成本,限制了其在各種實(shí)時(shí)場(chǎng)景中的應(yīng)用和落地。因而,對(duì)其的研究成為了迫切需求。各大頂會(huì)也都不乏其身影。比如ICLR25的DuoAttention,便是由MIT韓松團(tuán)隊(duì)提出。通過(guò)區(qū)分檢索頭和流式頭,使推理內(nèi)存減少2.55倍,解碼速度提升2.18倍,而處理文本長(zhǎng)度增加了6.4倍!
另一方面,作為新興方向,該領(lǐng)域還處在快速發(fā)展期,還存在大量的研究空白,比較容易出高質(zhì)量的創(chuàng)新點(diǎn)。
為讓大家能夠緊跟領(lǐng)域,找到更多idea啟發(fā),我給大家準(zhǔn)備了88種創(chuàng)新思路和源碼,主要涉及模型優(yōu)化、輸出精簡(jiǎn)、提示優(yōu)化等主流方向!
掃描下方二維碼,回復(fù)「高效推理」
免費(fèi)獲取全部論文合集及項(xiàng)目代碼
1.模型優(yōu)化 論文:LLM Pretraining with Continuous Concepts 內(nèi)容
該論文提出了一種名為CoCoMix的新型語(yǔ)言模型預(yù)訓(xùn)練框架,旨在通過(guò)結(jié)合離散的下一個(gè)詞元預(yù)測(cè)和連續(xù)的概念來(lái)提高模型的樣本效率和推理能力。CoCoMix利用稀疏自編碼器(SAE)從預(yù)訓(xùn)練模型的隱藏狀態(tài)中提取“連續(xù)概念”,并將其與詞元隱藏表示交錯(cuò)混合到模型的隱藏狀態(tài)中。
2.輸出精簡(jiǎn) 論文:Markov Chain of Thought for Efficient Mathematical Reasoning 內(nèi)容
該論文提出了一種名為MCoT的新框架,用于提高大型語(yǔ)言模型(LLMs)在數(shù)學(xué)推理任務(wù)中的效率和準(zhǔn)確性。MCoT通過(guò)將多步推理過(guò)程建模為馬爾可夫鏈,將每個(gè)推理步驟視為從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的轉(zhuǎn)換,從而實(shí)現(xiàn)高效的推理,展示了在復(fù)雜問(wèn)題解決和自我糾正方面的能力,為未來(lái)在更廣泛的復(fù)雜推理任務(wù)中的應(yīng)用提供了新的方向。
掃描下方二維碼,回復(fù)「高效推理」
免費(fèi)獲取全部論文合集及項(xiàng)目代碼
3.輸入提示優(yōu)化 論文:Learning to Route LLMs with Confidence Tokens 內(nèi)容
該論文提出了一種名為Self-REF的輕量級(jí)微調(diào)策略,旨在幫助大型語(yǔ)言模型(LLMs)更可靠地表達(dá)其對(duì)預(yù)測(cè)結(jié)果的置信度。Self-REF通過(guò)引入置信度標(biāo)記,使模型能夠根據(jù)預(yù)測(cè)的正確性生成相應(yīng)的置信度標(biāo)記,從而提取出置信度分?jǐn)?shù),在路由任務(wù)中能夠根據(jù)置信度將查詢(xún)有效地路由到更強(qiáng)大的LLMs。
4.高效訓(xùn)練數(shù)據(jù)和小型語(yǔ)言模型 論文:S2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning 內(nèi)容
該論文提出了S2R,這是一個(gè)高效的框架,通過(guò)強(qiáng)化學(xué)習(xí)教授大型語(yǔ)言模型(LLMs)在推理過(guò)程中進(jìn)行自我驗(yàn)證和自我糾正。S2R通過(guò)監(jiān)督微調(diào)(SFT)初始化模型的自我驗(yàn)證和自我糾正行為,并利用結(jié)果級(jí)和過(guò)程級(jí)強(qiáng)化學(xué)習(xí)進(jìn)一步增強(qiáng)這些能力。
掃描下方二維碼,回復(fù)「高效推理」
免費(fèi)獲取全部論文合集及項(xiàng)目代碼
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.