網易首頁 > 網易號 > 正文申請入駐

Talk預告｜北京大學楊靈：ReasonFlux - 思維模版+多層次強化學習打造LLM推理新范式

2025-02-18 08:24:54　來源: 將門創投

北京舉報

分享至

本期為TechBeat人工智能社區第662期線上Talk。

北京時間2月19日(周三)20:00，北京大學博士生楊靈的Talk將準時在TechBeat人工智能社區開播！

他與大家分享的主題是:“ReasonFlux - 思維模版+多層次強化學習打造LLM推理新范式”，屆時他將介紹 ReasonFlux，一個創新的層次化LLM推理框架，通過可擴展的思維模板（Thought Template）優化推理搜索空間。

Talk·信息

主題：ReasonFlux - 思維模版+多層次強化學習打造LLM推理新范式

嘉賓：北京大學 · 博士生 - 楊靈

時間：北京時間2月19日(周三)20:00

地點：TechBeat人工智能社區

http://www.techbeat.net/

Talk·介紹

大型語言模型（LLMs）在推理任務方面取得了顯著進展，但在解決如奧林匹克競賽等復雜數學問題時仍面臨挑戰。本次talk將介紹 ReasonFlux，一個創新的層次化LLM推理框架，通過可擴展的思維模板（Thought Template）優化推理搜索空間。實驗表明，ReasonFlux在MATH基準測試中達到了91.2%的準確率，比o1-preview高出6.7%；在AIME基準測試中，解決了56.7%的問題，分別比o1-preview和DeepSeek V3高出27%和45%。這些結果都表明著思維模板（Thought Template）有潛力代替CoT成為更高效的大模型推理軌跡表征。

Talk大綱

1. Buffer of Thought (NeurIPS 2024 spotlight)：思維模版（Thought Template） vs 思維鏈（Chain-of-Thought）

2. SuperCorrect (ICLR 2025)：基于思維模版的LLM多層次蒸餾技術

3. ReasonFlux：思維模版+多層次強化學習打造LLM推理新范式

Talk·預習資料

論文鏈接： https://arxiv.org/abs/2406.04271 代碼鏈接： https://github.com/YangLing0818/buffer-of-thought-llm

論文鏈接： https://arxiv.org/abs/2410.09008 代碼鏈接： https://github.com/YangLing0818/SuperCorrect-llm

論文鏈接： https://arxiv.org/abs/2502.06772 代碼鏈接： https://github.com/Gen-Verse/ReasonFlux

Talk·提問交流

在Talk界面下的【交流區】參與互動！留下你的打call和問題，和更多小伙伴們共同討論，被講者直接翻牌解答！

你的每一次貢獻，我們都會給予你相應的i豆積分，還會有驚喜獎勵哦！

Talk·嘉賓介紹

楊靈???????????

北京大學 · 博士生???

北京大學在讀博士，他的研究領域涵蓋大語言模型和擴散模型，以第一作者在ICLR/NeurIPS/ICML/CVPR等頂級人工智能會議期刊上發表論文20余篇，主導并開源RPG-DiffusionMaster，Buffer-of-Thought，ReasonFlux等多個明星研究項目。

個人主頁: https://www.techbeat.net/grzytrkj?id=8345????

-The End-

如果你也想成為講者

自薦 / 推薦

單人Talk | 團隊專場 | 錄播or直播 | 閉門交流

多種方式任你選擇！

推薦講者成功也有獎勵哦~

關于TechBeat人工智能社區

TechBeat(www.techbeat.net)隸屬于將門創投，是一個薈聚全球華人AI精英的成長社區。

我們希望為AI人才打造更專業的服務和體驗，加速并陪伴其學習成長。

期待這里可以成為你學習AI前沿知識的高地，分享自己最新工作的沃土，在AI進階之路上的升級打怪的根據地！

更多詳細介紹>>

預約本期Talk

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.