網易首頁 > 網易號 > 正文申請入駐

8卡32B模型超越o1預覽版、DeepSeek V3等提出層次化RL推理新范式

2025-02-12 11:21:55　來源: 機器之心Pro

北京舉報

分享至

AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

一．引言

推理大語言模型（LLM），如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等，通過模擬人類推理過程，在多個專業領域已超越人類專家，并通過延長推理時間提高準確性。推理模型的核心技術包括強化學習（Reinforcement Learning）和推理規模（Inference scaling）。

主流的大模型強化學習算法，如 DPO、PPO、GRPO 等，通常需要在完整的思維鏈上進行微調，需要高質量數據、精確的獎勵函數、快速反饋和在線迭代、以及大量的算力。當處理復雜任務，如高級數學和編程問題時，模型需要更細粒度的搜索、更精確的推理步驟和更長的思維鏈，導致狀態空間和策略空間的規模急劇擴大，難度大幅上升。

Inference scaling 策略，不依賴訓練，通過延長推理時間進一步提高模型的 Reasoning 能力。常見方法，如 Best-of-N 或者蒙特卡洛樹搜索（MCTS），允許 LLM 同時探索多條推理路徑，擴大搜索空間，朝著更有希望的方向前進。這些方法計算成本高，特別是步驟多或搜索空間大的時候。采樣隨機性使得確定最佳路徑困難，且依賴手動設計的搜索策略和獎勵函數，限制了泛化能力。

在此背景下，普林斯頓大學團隊聯合北京大學團隊合作開發了名為 ReasonFlux 的多層次（Hierarchical）LLM 推理框架。

文章鏈接：https://arxiv.org/abs/2502.06772
開源地址：https://github.com/Gen-Verse/ReasonFlux

（該論文作者特別聲明：本工作沒有蒸餾或用任何方式使用 DeepSeek R1。）

基于層次化強化學習（Hierachical Reinforcement Learning）思想，ReasonFlux 提出了一種更高效且通用的大模型推理范式，它具有以下特點：

思維模版：ReasonFlux 的核心在于結構化的思維模板，每個模版抽象了一個數學知識點和解題技巧。僅用 500 個通用的思維模板庫，就可解決各類數學難題。
層次化推理和強可解釋性：ReasonFlux 利用層次化推理（Hierarchical Reasoning）將思維模板組合成思維軌跡（Thought Template Trajectory）、再實例化得到完整回答。模型的推理過程不再是 “黑盒”，而是清晰的展現了推理步驟和依據，這為 LLM 的可解釋性研究提供了新的工具和視角，也為模型的調試和優化提供了便利。與 DeepSeek-R1 和 OpenAI-o1 等模型的推理方式不同，ReasonFlux 大大壓縮并凝練了推理的搜索空間，提高了強化學習的泛化能力，提高了 inference scaling 的效率。
輕量級系統：ReasonFlux 僅 32B 參數，強化訓練只用了 8 塊 NVIDIA A100-PCIE-80GB GPU。它能通過自動擴展思維模板來提升推理能力，更高效靈活。

ReasonFlux-32B 在多個數學推理基準測試中表現出色，僅僅用了 500 個基于不同數學知識點的思維模版，就展現了其強大的推理能力和躋身第一梯隊的實力。

二．ReasonFlux：

三大關鍵技術構建大模型推理新框架

ReasonFlux 的性能提升得益于其三大核心技術：

結構化的思維模板抽?。?/strong>ReasonFlux 利用大語言模型從以往的數學問題中提取了一個包含大約 500 個結構化思維模板的知識庫。每個模板都包含標簽、描述、適用范圍、應用步驟等信息，這些信息經過組織和結構化處理，為 LLM 的推理提供了元知識參考。這些模板覆蓋了多種數學問題類型和解題方法，如不等式求解、三角函數變換、極值定理等，是 ReasonFlux 進行推理的基礎。
多層次強化學習（Hierarchical RL）選擇最優的 Thought Template Trajectory：該算法通過 Hierarchical Reinforcement Learning 訓練一個 High-level 的 navigator，使其能夠對輸入問題進行拆解，轉而求解多個更簡單的子問題，根據子問題類型從模板庫中檢索相關的思維模板，并規劃出最優的 Thought Template Trajectory。它可以看作是解決問題的 “路線圖”，它由一系列的模板組合而成。這種基于 Hierarchical RL 的優化算法通過獎勵在相似問題上的泛化能力，提升了推理軌跡的魯棒性和有效性，使得 ReasonFlux 能夠舉一反三，為各種數學問題生成有效的思維模板軌跡。
新型 Inference Scaling 系統：該系統實現了結構化模板庫和 inference LLM 之間的多輪交互。“Navigator” 負責規劃模板軌跡和檢索模板，inference LLM 負責將模板實例化為具體的推理步驟，并通過分析中間結果來動態調整軌跡，實現高效的推理過程。這種交互機制使得 ReasonFlux 能夠根據問題的具體情況靈活調整推理策略，從而提高推理的準確性和效率。

（a）推理示例對比：

接下來我們來分析 ReasonFlux 在解決實際問題上相較于 o1-mini 的對比。

我們來看和 o1-mini 的對比

如上圖可知，o1-mini 在面對這道難題時，嘗試了多種策略，但均未能找到有效的突破口。它首先試圖通過引入新變量和利用對稱性來簡化方程組，但收效甚微；接著又嘗試假設變量相等來尋找特解，結果卻得出了矛盾；隨后，它試圖用一個變量表示其他變量，并嘗試平方去根號，但復雜的表達式使其望而卻步；最后，它甚至想到了三角換元，但由于未能正確應用，最終只能無奈地放棄求解。

相比之下，ReasonFlux 的解題過程如下：

分析與規劃：ReasonFlux 首先對題目進行分析，確定了解題的主要步驟：初步確定 k 值的范圍、利用三角換元、化簡方程組、求解 θ、計算目標值。這一步反映了 ReasonFlux 的問題分析和規劃能力，為后續解題過程提供了基礎。
模板化推理：ReasonFlux 隨后依次應用了 “三角換元”、“化簡方程組”、“求解 θ” 等模板，將復雜的方程組逐步簡化，并最終求解出 θ 的值。每一步都依據模板的指導，旨在保證解題過程的準確性。
逐步推導：ReasonFlux 根據求得的角度值，計算出 (x, y, z) 的值，并最終計算出目標值，從而得到 (m=1, n=32, m+n=33)。整個過程邏輯清晰，步驟明確，展示了 ReasonFlux 的規劃和推理能力。

(b) 新的 inference scaling law：

如上圖所示，隨著問題復雜度的增加，ReasonFlux 正確解答問題時所需的模板數量和交互輪數也相應增加。這表明 ReasonFlux 能夠根據問題的難度動態調整推理策略，體現了其優秀的自適應能力。并且可以觀察到，交互輪數的增長趨勢略高于模板數量，這意味著規劃能力的提升對解決復雜問題至關重要。

三．主流推理范式對比：

ReasonFlux vs Best-of-N & MCTS

目前，提升 LLM 推理性能的主流方法通常依賴于增加模型規模和計算資源。例如，增加模型參數量、采用 Best-of-N 或蒙特卡洛樹搜索 (MCTS) 等方法來擴大搜索空間以尋找更優解。然而，這些方法往往計算成本較高，且模型的推理過程難以解釋。

ReasonFlux 采用了一種不同的方法，通過構建結構化的思維模板庫和設計新的層次化強化學習算法，實現了一種更高效和可解釋的推理方式。

傳統的 Inference Scaling 方法，如 Best-of-N 和 MCTS，主要通過擴大搜索空間來提高準確率。但隨著問題復雜度的增加，搜索空間呈指數級增長，導致計算成本顯著上升。

ReasonFlux 通過引入結構化的思維模板，將搜索空間從 “原始解空間” 縮小到 “模板空間”，從而降低了搜索的難度和成本。如果說傳統的推理范式是 “大海撈針”，那么 ReasonFlux 則是 “按圖索驥”。這些模板并非簡單的規則堆砌，而是經過提煉和結構化處理的知識模板，它們將復雜的推理過程分解為一系列可復用的步驟，從而提升了推理的效率和準確率。

如上圖所示，隨著問題難度的提升，Best-of-N 和 MCTS 的探索成本（例如采樣軌跡數量和迭代次數）顯著增加，而 ReasonFlux 的探索成本（交互輪數）則保持在較低水平且相對穩定。這說明 ReasonFlux 能夠更高效地利用已有的知識模板來解決問題，而不需要像 Best-of-N 和 MCTS 那樣進行大量的試錯和探索。這得益于 ReasonFlux 的結構化模板庫和模板軌跡規劃機制，使其能夠在更小的搜索空間內找到正確的推理路徑。

四．訓練及推理框架介紹

下圖展示了 ReasonFlux 的訓練框架，其核心在于利用結構化的思維模板庫和基于思維模板軌跡獎勵的層次化強化學習算法，訓練出一個能夠進行高效推理的大模型。整個訓練過程可以分為兩個主要階段：結構化知識學習和思維模板軌跡優化。

1.結構化知識學習階段：這個階段的目標是讓模型學習思維模板庫中蘊含的結構化知識。這些結構化的 Thought template 格式如下圖所示：

通過這兩個階段的訓練，ReasonFlux 模型不僅學習到了結構化的模板知識，還學會了如何針對特定問題選擇和組合模板，形成有效的推理路徑。這種能力使得 ReasonFlux 能夠高效地解決各種復雜的數學推理問題。

下圖是 ReasonFlux 的推理框架。其核心在于 navigator、inference LLM 和結構化模板庫之間的多輪交互。這種交互機制使得 ReasonFlux 能夠根據問題的具體情況靈活調整推理策略，從而提高推理的準確性和效率。

五．數學推理數據集上的表現：

小模型媲美大模型，展現未來應用潛力

ReasonFlux 在 MATH、AIME 2024、AMC 2023、OlympiadBench 和 Gaokao En 2023 等多個具有挑戰性的數學推理數據集上進行了測試，并取得了良好的結果。

ReasonFlux-32B 在這些數據集上的表現處于前列，與其他先進模型相比具有競爭力。如下表所示，在 MATH 數據集上，ReasonFlux-32B 的準確率為 91.2%；在 AIME 2024 數據集上，ReasonFlux-32B 的準確率為 56.7%。這些結果表明 ReasonFlux 框架具有有效性。更重要的是，它表明較小規模的模型通過優化推理框架，可以達到甚至在某些情況下超越較大模型的性能。

ReasonFlux 還可用于不同大小（1.5B, 7B 和 32B）的基礎模型，并且都能獲得巨幅的推理效果提升，足見其通用性和泛化性。

ReasonFlux 的成功不僅限于數學推理領域，其背后的核心思想 —— 結構化思維模板和模板軌跡 —— 具有廣泛的應用潛力。未來，ReasonFlux 有潛力被應用于更多領域，如代碼生成，醫療診斷，具身智能等多個領域。

六．作者介紹

楊靈：北大在讀博士，普林斯頓高級研究助理，研究領域為大語言模型和擴散模型。

余昭辰：新加坡國立大學在讀碩士，北京大學 PKU-DAIR 實驗室科研助理，研究領域為大語言模型和擴散模型。

崔斌教授：崔斌現為北京大學計算機學院博雅特聘教授、博士生導師，擔任計算機學院副院長、數據科學與工程研究所所長。他的研究方向包括數據庫系統、大數據管理與分析、機器學習 / 深度學習系統等。

王夢迪教授：王夢迪現任普林斯頓大學電子與計算機工程系終身教授，并創立并擔任普林斯頓大學 “AI for Accelerated Invention” 中心的首任主任。她的研究領域涵蓋強化學習、可控大模型、優化學習理論以及 AI for Science 等多個方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網易首頁下載網易新聞客戶端

相關推薦

熱點推薦

謝賽寧團隊基準讓LLM集體自閉,DeepSeek R1、Gemini 2.5 Pro都0分

機器之心Pro 2025-06-18 17:39:51
3 跟貼 3

大模型“拼好題”，45K數據撬動18%提升，數學問題拒絕死記硬背

量子位 2025-06-17 16:17:54
0 跟貼 0

信息過載時代，如何真正「懂」LLM？從MIT分享的50個面試題開始

機器之心Pro 2025-06-18 14:34:03
0 跟貼 0

大模型亂試錯、盲調用？KnowSelf讓智能體有「知識邊界感知」能力

機器之心Pro 2025-05-21 16:32:57
0 跟貼 0

不再擔心AI“健忘”，北郵團隊開源大模型記憶操作系統

DeepTech深科技 2025-06-18 14:43:59
4 跟貼 4

美7000萬人或被取代，Agent光速卷入職場！北大校友、楊笛一新作

新智元 2025-06-18 19:08:30
4 跟貼 4

Sam Altman 最新萬字對談：理想硬件形態是 AI 伴侶，就業沖擊沒那么可怕

愛范兒 2025-06-18 16:52:16
0 跟貼 0

比爾蓋茨曾是熊孩子：16歲徒步數百英里，邊走腦中邊寫BASIC代碼

量子位 2025-02-13 14:31:27
0 跟貼 0

傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0

1422重慶高考數學文科題，求最大值?？纯磳W霸的解法！巧妙

我服子佩 2025-06-18 14:55:18
3 跟貼 3

10×加速！DCM提升推理效率！HunyuanVideo13B推理時間縮短至120秒

機器之心Pro 2025-06-18 17:30:03
0 跟貼 0

廣東東莞東華高級中學數學題求y與x的比值

三樂大掌柜 2025-06-16 10:49:57
1 跟貼 1

原來，唐朝的兵魚符長這樣！漲知識了，“合同”是這么來的

文物真有趣 2025-06-18 10:13:33
1 跟貼 1

數學130報了清華數學強基，張雪峰：可能學不明白

觀云曉塵心 2025-06-17 11:55:20
6 跟貼 6

閨女上數學課，把數學老師氣懵了，媽媽聽了原因后一臉無奈

我每天九點睡 2025-06-15 11:31:07
0 跟貼 0

小學數學思維訓練，這個是競賽題，六年級可做

公考客棧店小二 2025-06-17 18:00:00
0 跟貼 0

全金屬飛機渦扇發動機模型全金屬飛機渦扇發動機模型

制造科技 2025-06-17 12:56:21
0 跟貼 0

學習數學沒有用，初中數學壓軸題，你能做出來嗎？

馬老師數學課堂 2025-06-17 22:15:13
0 跟貼 0

小學數學思維訓練，求面積題，看看能不能瞪眼法解決

公考客棧店小二 2025-06-16 16:00:00
1 跟貼 1

音樂人科欽夫疑回應數學考10分，自稱曾三次高考，數理化加起來不夠60分

現代快報 2025-06-17 17:41:40
0 跟貼 0

小學數學競賽題，班級上一半以上的同學不會做

公考客棧店小二 2025-06-14 14:00:00
0 跟貼 0

哈梅內伊對伊朗全國講話：伊朗軍隊已做了充分準備

CCTV國際時訊 2025-06-18 18:40:04
12984 跟貼 12984

伊以沖突背后邏輯

盛世論壇 2025-06-18 11:22:45
0 跟貼 0

國際原子能機構：沒有證據顯示伊朗計劃制造核武器

央視新聞客戶端 2025-06-18 16:08:53
20844 跟貼 20844

高中數學必刷題求函數值，怎么利用函數性質快速求解？

三樂大掌柜 2025-06-18 21:33:53
1 跟貼 1

不知道怎么想的，“不會做”三個字，映入眼簾

公考客棧店小二 2025-06-16 10:00:00
22 跟貼 22

MiniMax五連發，上海大模型終于打上國際榜

未盡研究 2025-06-19 00:10:45
1 跟貼 1

多個AI測試語文高考作文穩拿高分，卻敗在了數學壓軸題上

量子位 2025-06-10 20:24:14
0 跟貼 0

20個樣本，搞定多模態思維鏈！UCSC重磅開源：邊畫框，邊思考

新智元 2025-06-18 16:55:24
0 跟貼 0

學數學思維訓練：四邊形ABCD的邊CD是6厘米，求四邊形ABCD的面

公考客棧店小二 2025-06-18 18:00:00
0 跟貼 0

敘利亞大馬士革，一切恢復原樣，沒有太大的變化

小奶羊 2025-06-17 12:47:00
12846 跟貼 12846

五年級數學：求陰影面積？會做此題數學開竅了

大力小學數學 2025-06-18 17:10:00
0 跟貼 0

當數學老師去相親...... 請問，數學老師是什么很臟的東西么?

山里小敏 2025-06-17 17:05:55
1 跟貼 1

小學數學重難題：長和寬怎么區分？

大力小學數學 2025-06-17 13:43:00
0 跟貼 0

MiniMax追著DeepSeek打

經濟觀察報 2025-06-18 19:26:10
8 跟貼 8

新史記：才女傳之王虹傳

妮妮玩不夠 2025-06-19 07:32:56
0 跟貼 0

韋東奕一代數學天才，百年難得一遇的數學天才

小賣鋪零食 2025-06-14 13:04:09
0 跟貼 0

懂了！伊以沖突背后底層邏輯！任1技術，一定懂這2點，不然白學！

股市振弘 2025-06-17 13:34:59
0 跟貼 0

巴基斯坦支持伊朗背后的地緣與經濟邏輯是什么？

深度解析熱點 2025-06-18 02:52:12
0 跟貼 0

清華SageAttention3，FP4量化5倍加速！且首次支持8比特訓練

機器之心Pro 2025-06-18 20:00:34
1 跟貼 1

中東大變局：輪到伊朗了
書生論劍
2025-06-16 02:52:14

創體壇歷史！珍妮巴斯將100億美元出售湖人，46年狂賺150倍
全景體育V
2025-06-19 06:11:15

坎耶30歲愛妻穿膚色泳衣開超跑，像卡戴珊，總被呼吁逮捕卻仍囂張
譯言
2025-06-18 11:38:29

美媒評運動能力最強的10位球星：霍華德第九，詹皇第三，字母落選
你的籃球頻道
2025-06-18 12:06:03

老毛病又犯了！馬克龍再次和女嘉賓眉來眼去，布里吉特悔之晚矣
小嵩
2025-06-18 11:45:05

廣東隊用徐杰交換狀元陳國豪并不吃虧，而且細品賺大了
大眼瞄世界
2025-06-18 23:59:02

買提江回應“聊騷”事件：本人五年前已離婚，聊天發生在去年
懂球帝
2025-06-18 21:28:29

7月1日，內蒙古與湖北將首次開通高鐵
魯中晨報
2025-06-18 17:06:06

亞洲之光！1.9億黑馬終結皇馬11連勝創世俱杯歷史獲贊能踢歐冠
我愛英超
2025-06-19 06:54:11

G7峰會上彎腰撿起特朗普掉落的文件，斯塔默回應：為了避免安全恐慌
環球網資訊
2025-06-18 09:27:49

巡視剛結束，孟智勇官宣落馬
新京報
2025-06-18 13:26:12

美媒：中國贏得全球民心的“最新武器”
參考消息
2025-06-18 10:05:18

讀了稻盛和夫我發現：發財的核心不是努力，而是打造3個關鍵系統
阿胖讀書
2025-06-16 10:59:55

天津機場航站樓突發車禍，現場情況揪心！
小虎新車推薦員
2025-06-19 00:59:19

江蘇一地回應“政府工作人員因購買方便面被通報批評”：已于第一時間報警
大象新聞
2025-06-18 16:39:29

剛剛，安徽一廳級“內鬼”被查
魯中晨報
2025-06-18 17:34:03

臨澧縣煙花廠爆炸事故，高價賠償金，老板或無力承擔，誰來兜底
生活魔術專家
2025-06-19 00:45:57

當選山西省省長次日，盧東亮外出調研
政知新媒體
2025-06-18 15:38:57

7.5立方“中國VAN”首發引爆香港！8.99萬元起售
方得網商用車
2025-06-18 13:17:40

中美俄衛星定位精度差距太大！美0.1米，俄1.5米，中國北斗是多少
慎獨贏
2025-06-11 12:35:48

2025-06-19 08:20:49

機器之心Pro

專業的人工智能媒體

10671文章數 142340關注度

往期回顧全部

科技要聞

50萬元人形機器人進廠搬運效率還不到人工一半

別叫我互聯網公司，京東的野心藏不住了

劉強東:京東給快遞員交了1000多億五險一金

Gemini 2.5穩定版上線，又推輕量模型Flash-Lite

51歲劉強東談幾年前"退休":當時太理想主義

頭條要聞

相識十幾年男子借宿初中同學家卻拿菜刀砍人致1死1傷

17歲患白血病男生離世同學們曾在病房外舉牌約定歸期

特朗普站在豪賭邊緣：美國可能正滑向另一場中東戰爭

美媒：特朗普批準攻擊伊朗但暫不下令

特朗普：美國不尋求?；?尋求的是“徹底的勝利”

頭條要聞

相識十幾年男子借宿初中同學家卻拿菜刀砍人致1死1傷

17歲患白血病男生離世同學們曾在病房外舉牌約定歸期

特朗普站在豪賭邊緣：美國可能正滑向另一場中東戰爭

美媒：特朗普批準攻擊伊朗但暫不下令

特朗普：美國不尋求停火尋求的是“徹底的勝利”

體育要聞

36歲鄧卓翔率隊9輪拿17分從墊底升第9

世界女排聯賽-中國3-1捷克吳夢潔25分莊宇珊21分

熱身-中國女籃101-92日本韓旭18+11張子宇18分

中超-10人海港3-1河南緊追3強加布萊昂連場破門

張子宇過于無解！三戰33中23轟52+24 宮魯鳴單獨指導效果拔群

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

陳冠希飛機吵架錄音曝光：這次大家紛紛力挺他，都站在他這邊

“老實人”文泰一認罪性侵：韓娛的“雙面土壤”養出了什么？

E句話|鄭乃馨辦通靈粉絲見面會？

李心月爆黃曉明離婚內幕不是表面上的和平分開？

財經要聞

被爆添加毒原料后相宜本草高管先后出走

美聯儲繼續“按兵不動” 年內仍有望降息2次

凌晨！美聯儲，重大宣布！鮑威爾發聲！

中東戰局突變，全球經濟面臨震蕩

國內紅藍黃外賣拼殺，海外一只熊貓正悶聲發大財？

汽車要聞

燈光技術升級還有插混版本全新奧迪Q3預計明年國產

智能化短板補齊/舒適性加分嵐圖FREE+6月21日下線

MINI JCW發布全新聯名涂裝出征紐博格林24小時耐力賽

限時7.99萬元起瑞虎7 PLUS&瑞虎7高能版煥新上市

沃爾沃集團和戴姆勒卡車成立合資公司

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

游戲

本地

教育

公開課

數碼要聞

小霸王推出首款迷你主機“全帥 Mini 小主機”，1199 元起

盧偉冰：期待將來和海爾、美的成為大家電頭部企業，共推行業發展

小米平板 7S Pro 現身 Geekbench：3.4GHz 玄戒 O1，16GB 內存

榮耀MagicPad 3屏幕瘋狂堆料！行業首發3.2K 165Hz高分高刷

誠意十足的視覺盛宴！300萬銷量的《劍星》PC版到底值不值得入？

外媒分享《無主4》試玩體驗：重視探索是新的開始

IGN《無主之地4》前瞻:銳意變革有點像系列的軟重啟

外媒盤點《生化9安魂曲》潛在角色陣容：里昂領銜

本地新聞

黎錦匠人鄭春榮：經緯千年我在海島織黎錦

最近的打工人，都在熬夜看這劇逐幀學習職場小技巧

請問江蘇的省會是哪里？還在踢，等結果

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

教育要聞

當公務員最多的大學有哪些？除了警校，高考的機會還有哪些？

三角形壓軸題杠上系列，專題五，內角和！

痛！兒子讀的是私立好高中，每月補課費2萬多，高考后成天到處混

你怎么選？心態沒調整好，考得比較差，本科沒問題，但是他想復讀

【悅居讀書】《別讓怪獸抓孩子》：一本讓父母和孩子共同成長的“安全童話”

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻

為什么人類有不同的膚色？

指紋識別有可能認錯人嗎？

李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

8卡32B模型超越o1預覽版、DeepSeek V3等提出層次化RL推理新范式

50萬元人形機器人進廠 搬運效率還不到人工一半

相識十幾年 男子借宿初中同學家卻拿菜刀砍人致1死1傷

相識十幾年 男子借宿初中同學家卻拿菜刀砍人致1死1傷

36歲鄧卓翔率隊9輪拿17分 從墊底升第9

前老板舉報李雪琴欠190萬轉移公司財產

被爆添加毒原料后相宜本草高管先后出走

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

小霸王推出首款迷你主機“全帥 Mini 小主機”，1199 元起

誠意十足的視覺盛宴！300萬銷量的《劍星》PC版到底值不值得入？

黎錦匠人鄭春榮：經緯千年 我在海島織黎錦

當公務員最多的大學有哪些？除了警校，高考的機會還有哪些？

50萬元人形機器人進廠搬運效率還不到人工一半

相識十幾年男子借宿初中同學家卻拿菜刀砍人致1死1傷

相識十幾年男子借宿初中同學家卻拿菜刀砍人致1死1傷

36歲鄧卓翔率隊9輪拿17分從墊底升第9

燈光技術升級還有插混版本全新奧迪Q3預計明年國產

小霸王推出首款迷你主機“全帥 Mini 小主機”，1199 元起

誠意十足的視覺盛宴！300萬銷量的《劍星》PC版到底值不值得入？

黎錦匠人鄭春榮：經緯千年我在海島織黎錦

當公務員最多的大學有哪些？除了警校，高考的機會還有哪些？