網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

對(duì)話｜有道“子曰3”數(shù)學(xué)模型開源背后

2025-07-11 20:20:14　來源: 多知

北京舉報(bào)

分享至

走出“大開發(fā)”時(shí)期。

來源|多知

作者|馮瑋

六月末，網(wǎng)易有道開源了“子曰3”數(shù)學(xué)模型（Confucius3-Math，下稱“子曰3”）。

子曰3是有道推理模型“子曰-o1” 在數(shù)學(xué)模型能力上的延伸，主打數(shù)學(xué)、邏輯與推理能力；同時(shí)也是一款專門面向教育機(jī)構(gòu)、學(xué)校與開發(fā)者使用的模型。

據(jù)有道官方測(cè)試，在CK12-math（Internal）、GAOKAO-Bench（Math）、MathBench（K12）、MATH500等數(shù)據(jù)集上，14B輕量級(jí)的“子曰3”各項(xiàng)得分均高于DeepSeek-R1等通用大模型。

值得注意的是，在GAOKAO-Bench（Math）這一基于高考數(shù)學(xué)題的大模型評(píng)測(cè)框架中，“子曰3”拿到了98.5分。

這是個(gè)不錯(cuò)的成績(jī)。

網(wǎng)易有道近兩年一直在加大對(duì)AI大模型的研發(fā)，而子曰系列正是重要成果之一。相比通用大語言模型，此次的子曰3更側(cè)重結(jié)構(gòu)化、符號(hào)化表達(dá)與嚴(yán)謹(jǐn)推理能力，符合教育、科研等需求場(chǎng)景。

發(fā)稿前，子曰3已同步開源，支持企業(yè)與個(gè)人免費(fèi)使用——這意味著教育機(jī)構(gòu)和開發(fā)者都能以低成本部署自己的數(shù)學(xué)AI應(yīng)用。

子曰3到底一個(gè)什么樣的模型？有道開發(fā)和開源子曰3的思路是什么？

多知獨(dú)家對(duì)話網(wǎng)易有道首席科學(xué)家段亦濤。

子曰錨定數(shù)學(xué)？

多知：能否介紹下子曰3的立項(xiàng)背景？

段亦濤：這次模型的升級(jí)和開源，本質(zhì)上是有道一貫秉承的AI發(fā)展思路的延續(xù)。

這個(gè)思路就是AI技術(shù)一定要在應(yīng)用中去發(fā)展。因?yàn)锳I就是一個(gè)以復(fù)刻人類智能為目標(biāo)的技術(shù)，只有在應(yīng)用中才能理解其本質(zhì)，驗(yàn)證其價(jià)值。

有道從事的是教育。這是一個(gè)AI有可能做出巨大創(chuàng)新的行業(yè)，也是一個(gè)對(duì)AI的能力提出更嚴(yán)格要求的行業(yè)。目前來看這個(gè)行業(yè)缺乏一個(gè)低成本，高性能，同時(shí)也開源的模型。這里每一點(diǎn)要求都必不可少。只有低成本才能打破數(shù)字鴻溝，均衡教育資源，保證公平性。只有高性能才能保證結(jié)果的正確性，避免誤人子弟。開源除了可以進(jìn)一步降低使用門檻，提高資源公平性之外，還可以促進(jìn)合作，聚合更多力量。

從技術(shù)發(fā)展的大趨勢(shì)和條件看，這幾年大模型的發(fā)展帶來了技術(shù)上質(zhì)的飛躍，尤其是近一年多來，模型的推理能力快速發(fā)展，有希望解決復(fù)雜的問題，達(dá)到前面說的高性能的目標(biāo)。但從應(yīng)用的要求來看，還有一定的差距。

子曰3就是在這些背景下立項(xiàng)。我們認(rèn)為當(dāng)前需求很明確，條件趨于成熟。子曰3的定位是一個(gè)低成本高性能多學(xué)科的教育模型。目前推出的子曰3數(shù)學(xué)是其中的第一步，聚焦在數(shù)學(xué)和解題答疑能力。以此為基礎(chǔ)，后續(xù)會(huì)拓展到其他學(xué)科和能力。

多知：有道現(xiàn)在對(duì)推理模型的投入好像越來越重？

段亦濤：對(duì)，推理能力一直是最新大模型發(fā)展的重點(diǎn)。

去年OpenAI 的 o1 模型在解決數(shù)學(xué)和編程等復(fù)雜多步驟任務(wù)方面取得了重大突破，引發(fā)了大家的關(guān)注，但其中的實(shí)現(xiàn)細(xì)節(jié)透露不多。DeepSeek R1披露更完整和詳細(xì)的構(gòu)建推理能力的技術(shù)。它是首個(gè)證明純強(qiáng)化學(xué)習(xí)（RL）能夠有效培養(yǎng)高級(jí)推理技能的模型，實(shí)現(xiàn)了諸如鏈?zhǔn)剿季S和自我驗(yàn)證等有機(jī)涌現(xiàn)的推理行為。除了技術(shù)成就之外，R1 的開放性還使更多人能夠獲取使用。

DeepSeek R1驗(yàn)證了我們的一些猜測(cè)。我們認(rèn)為強(qiáng)化學(xué)習(xí)有非常大的潛力，能夠大大提升模型能力的天花板。同時(shí)純強(qiáng)化學(xué)習(xí)后期訓(xùn)練更具成本效益。

這是我們決定做后面的事情的很重要的技術(shù)基礎(chǔ)。

多知：有道子曰3在對(duì)推理能力能力升級(jí)后，對(duì)于數(shù)學(xué)答疑場(chǎng)景帶來的變化有哪些？

段亦濤：答疑能力并不等同于解題能力，但前者會(huì)非常依賴后者。首先，當(dāng)我們的模型能力本身提升后，在我們實(shí)際的產(chǎn)品使用場(chǎng)景中AI的結(jié)果準(zhǔn)確率也一定會(huì)相應(yīng)提升，這會(huì)給用戶一個(gè)更好的體驗(yàn)。其次，有了更強(qiáng)的解題能力之后，再去優(yōu)化模型的答疑能力，可以起到事半功倍的效果。

所以子曰3首先針對(duì)數(shù)學(xué)解題場(chǎng)景上做了很多的優(yōu)化，比如在數(shù)據(jù)上，我們收集了幾百萬學(xué)生易錯(cuò)的試題并采用多種方法進(jìn)行過濾，用來確保數(shù)據(jù)的質(zhì)量；在訓(xùn)練階段，我們采用了純強(qiáng)化學(xué)習(xí)策略，并提出像近期樣本恢復(fù)（Recent Sample Recovery）、特定策略的難度加權(quán)（Policy-Specific Hardness Weighting）等新技術(shù)，有效地加強(qiáng)了模型的解題能力。同時(shí)我們也在訓(xùn)練過程中引入了對(duì)解題過程的價(jià)值反饋，使得模型能夠生成對(duì)用戶理解問題和解法有幫助的信息，大大提高了答疑效率和效果。

多知：在大模型訓(xùn)練中，有兩種技術(shù)方法，一個(gè)是強(qiáng)化學(xué)習(xí)，它只給答案的對(duì)錯(cuò)反饋，另外一個(gè)是之前常用的監(jiān)督學(xué)習(xí)，它給出中間的詳細(xì)步驟。您怎么看這兩種方式？

段亦濤：是的，我也和同行交流過類似的問題，的確目前這兩種方式都存在，一種是我們現(xiàn)在使用的強(qiáng)化學(xué)習(xí)優(yōu)化方法，它只給答案的對(duì)錯(cuò)反饋，不管中間步驟，由模型發(fā)揮；另一種則是一步一步鎖定答案和邏輯思路。

對(duì)于優(yōu)化模型的推理能力，它們都是有用的，也都在不同的階段使用。

但是后者更傾向于“手把手”式的教學(xué)，一方面這對(duì)數(shù)據(jù)本身的要求會(huì)更高，另一方面對(duì)模型也會(huì)施加限制，讓模型只能照貓畫虎地學(xué)習(xí)，再往前就不行了。

我們認(rèn)為，強(qiáng)化學(xué)習(xí)的路線更有潛力，天花板更高。它為模型提供自由發(fā)揮的空間，甚至可以讓模型學(xué)到超出人類自身的能力，就像我們?cè)趪錋I中做到的那樣。

全面開源：走出“大開發(fā)”時(shí)期

多知：這次為什么選擇開源？另外在合作上有什么考量么？

段亦濤：我們整體還是比較開放。

目前已經(jīng)把模型完全開源了，同步也放出相關(guān)代碼和論文細(xì)節(jié)。所以合作方想直接用也可以，想在現(xiàn)有基礎(chǔ)上進(jìn)一步開發(fā)也可以，伴隨后面新功能的不斷推出，我想我們也會(huì)有更多的合作狀態(tài)。

選擇開源一方面肯定還是希望在我們的能力范疇內(nèi)能夠幫助行業(yè)有需要的企業(yè)一起發(fā)展。另外我們自身的技術(shù)發(fā)展得益于開源社區(qū)的貢獻(xiàn)，我們也希望通過開源反哺相關(guān)的社區(qū)。

在教育領(lǐng)域，開放本身就是一個(gè)很重要的環(huán)節(jié)：我們?cè)介_放，也會(huì)有越來越多的人來關(guān)注、使用和糾察，我們就可以一起進(jìn)步，這對(duì)我們，對(duì)行業(yè)都是有益的。

現(xiàn)在很多學(xué)校和機(jī)構(gòu)需要輕量級(jí)模型以便獨(dú)立部署與定制調(diào)優(yōu)，子曰3數(shù)學(xué)模型的14B規(guī)格優(yōu)勢(shì)也相應(yīng)提升：推理部署僅需24G顯存顯卡單卡，微調(diào)訓(xùn)練通過4-8卡單機(jī)就可以完成了。

我們非常歡迎，也很期待大家來使用它。

多知：能不能具體介紹下接入方式？

段亦濤：目前我們提供了兩種，一種直接把模型拿下來去部署，基本上一張消費(fèi)級(jí)的顯卡就可以跑，這是一個(gè)非常低門檻的使用方式了。

另外一種是通過我們或者其他云服務(wù)的供應(yīng)商把模型部署起來后，再去調(diào)用。

我們目前的模型能力還聚焦在解題上，但其實(shí)公立校、培訓(xùn)機(jī)構(gòu)等等的需求都是不一樣的，比如她們可能不僅需要解題、還需要面對(duì)不同能力的人給出不同的解題思路、以及組卷、批改等等。

在各種各樣的需求下，我們的模型也會(huì)慢慢延伸為不同的功能和應(yīng)用。

這些我想很快都會(huì)在我們的客戶端上實(shí)現(xiàn)的。

多知：是不是會(huì)有這樣一個(gè)可能，伴隨著每個(gè)機(jī)構(gòu)都有自己的模型能力，接下來將不再需要依賴題庫去解題了？

段亦濤：這是必然的。以后解題都不會(huì)依賴題庫了，教育機(jī)構(gòu)只需要出題或者提供其他的服務(wù)。

我們當(dāng)前版本的模型，就可以在我們的用戶場(chǎng)景下做到96%準(zhǔn)確率。預(yù)計(jì)很快能提升到98%以上。我們的下一步在進(jìn)一步提升解題能力的同時(shí)，會(huì)拓展學(xué)科，以及構(gòu)建學(xué)習(xí)過程中其他需求的能力。

多知：能否分享下長(zhǎng)遠(yuǎn)規(guī)劃？

段亦濤：其實(shí)我們已經(jīng)在一些維度實(shí)現(xiàn)了進(jìn)展，但還沒有在這次公開。

整體來看，接下來一定是推理能力的進(jìn)一步增強(qiáng)，模型將能夠更準(zhǔn)地解更難的題；另外會(huì)支持更多學(xué)科；最后還有在其他教育和學(xué)習(xí)相關(guān)的功能上的拓展。

比如這一次我們是在答疑解題的能力上提供了更多支持，那么以后，可能同樣是一個(gè)AI老師的角色，但這位老師將可以實(shí)現(xiàn)陪伴、引導(dǎo)、答疑解惑、組卷判卷，甚至是更多學(xué)生們細(xì)碎的需求，我們都可以給出恰到好處的幫助。

大模型技術(shù)落地這個(gè)事情，在行業(yè)里還有點(diǎn)像“大開發(fā)”的階段。

我想我們相較于競(jìng)爭(zhēng)，更加需要關(guān)注的是合作，這也正式我們選擇開源的原因，因?yàn)閷?duì)整個(gè)AI行業(yè)來講，我們還有很多困難還沒有解決、還沒有開發(fā)好。

我們多試試，多做做，才會(huì)使我們對(duì)這個(gè)領(lǐng)域的認(rèn)知真正地成熟起來。而當(dāng)基礎(chǔ)設(shè)施逐漸實(shí)現(xiàn)的時(shí)候，我們同時(shí)去想大家各自靠什么方式種什么樣的果子，這樣才會(huì)有一個(gè)持續(xù)發(fā)展的行業(yè)。

對(duì)話后，我們也實(shí)測(cè)了子曰3在數(shù)學(xué)答疑中的表現(xiàn)。

實(shí)測(cè)子曰3，如何解決數(shù)學(xué)難題？

該如何理解子曰3的模型能力？

多知找到了三道數(shù)學(xué)題目來測(cè)試。

實(shí)測(cè)地址：https://confucius.youdao.com/

第一題，我們先拿一道簡(jiǎn)單的函數(shù)題開始。

函數(shù) y = √(2-x)/lg (x+1) 的定義域是 __________。

這道題其實(shí)并不難，但在這道題的解答思路里，卻展示了子曰3的一些特點(diǎn)。

比如思考過程的細(xì)致展現(xiàn)與“類人”的部分。

子曰3自稱“我”，在答題過程中出現(xiàn)了“我記得函數(shù)的定義域……”、“這應(yīng)該是指以10為底的對(duì)數(shù)吧……”、“所以現(xiàn)在我得把各個(gè)條件……”、“對(duì)嗎？或者有沒有哪里遺漏了……”等等非常擬人化的思路和表達(dá)。

子曰3還會(huì)反復(fù)檢查。

可以看到子曰3在每一步推演后都會(huì)及時(shí)考慮如限制、遺漏情況、出錯(cuò)可能。對(duì)于學(xué)生來說，也是一種必要的提示。

在全部推演完成后，子曰3又單獨(dú)拿出了幾個(gè)關(guān)鍵點(diǎn)進(jìn)行重復(fù)驗(yàn)證。

最后的答案也沒有任何問題，非常清晰。

第二題，我們選擇了2025年高考數(shù)學(xué)題。

2025年新高考一卷多選第11題，被多位老師評(píng)為今年的好題之一。

這道題的特別之處在于，其相比于常規(guī)的解三角形類題目，解題方法差別很大，這也讓今年的考生們?cè)诿鎸?duì)題目給出的三個(gè)條件時(shí)無從下手。

我們把這道題留給了子曰3。

需要注意的是，目前子曰3還不能直接通過輸入圖片或直接導(dǎo)入鏈接來識(shí)別題目。這個(gè)時(shí)候我們把題目輸入到可以識(shí)別圖片的模型中并提出“給出LaTex表達(dá)式”的要求即可以轉(zhuǎn)出。

這個(gè)部分對(duì)于初次使用的用戶還是需要適應(yīng)一下。

但掌握后可以看到子曰3也很快進(jìn)入識(shí)別理解與答疑之中。

這道題目的冷門之處在于，學(xué)生們習(xí)慣使用利用三角恒等變換公式化簡(jiǎn)的方式是無法解開的。因此在解題時(shí)需要先分析三角形的形狀，根據(jù)內(nèi)角的取值進(jìn)行分析。

子曰3并非一開始就找到了最佳方案的。

在解答過程中，子曰3嘗試了多個(gè)解題思路，在多個(gè)步驟中出現(xiàn)如“考慮另一種方式”、“這樣可能比較復(fù)雜”、“可以再想想別的方法”并馬上調(diào)整。

在最終，子曰先根據(jù)題目條件利用余弦倍角公式進(jìn)行化簡(jiǎn)，同時(shí)得到A選項(xiàng)的正確性，

其次根據(jù)題目條件得到A，B均為銳角，在A選項(xiàng)的基礎(chǔ)上借助正弦定理得出三邊之間的關(guān)系，推出C只能為銳角或直角；進(jìn)而再討論C的取值，利用反證法結(jié)合A，B為銳角得出C為直角。

最終在直角三角形的基礎(chǔ)上結(jié)合余弦和角公式和正弦定理求出邊長(zhǎng)，最終得出其余選項(xiàng)的正確性……

延續(xù)了前一題的風(fēng)格，這道題的答案還是兩次驗(yàn)證后得出。

子曰3也還是表現(xiàn)的不錯(cuò)的。

第三題，我們選擇了一道南京五年級(jí)數(shù)學(xué)應(yīng)用題，并要求它用孩子更好理解的方式講解。

這個(gè)問題比較簡(jiǎn)單，很快得到了完整的回答，同時(shí)子曰3的講解方式也比較適合小學(xué)的學(xué)生們。

也有小學(xué)生對(duì)多知解讀，這種大段的講解容易“看不下去”，添加適當(dāng)?shù)膱D片或用簡(jiǎn)短方式來提供答疑，或許也會(huì)更適合低齡用戶。

另外答案里的LaTex還剩下一點(diǎn)，沒有正確渲染出來。

不過總體上，子曰3還是很好地針對(duì)我們的數(shù)學(xué)問題給出了解題思路。

至此，子曰3的數(shù)學(xué)能力也驗(yàn)證出當(dāng)前有道對(duì)推理模型能力的提升，以及對(duì)強(qiáng)化學(xué)習(xí)落地的思考不斷深入。

另附：

附1：Demo

https://confucius.youdao.com/

附2：模型下載地址

https://github.com/netease-youdao/Confucius3-Math

附3：“子曰3”論文

《Conucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning》

作者：馮瑋

一本書洞察教育行業(yè)全貌，《教育科技這一年：教育+AI新紀(jì)元》火熱銷售中從業(yè)者必入，點(diǎn)擊小程序購買?

掃碼加入多知新書交流群，共同探討教育+AI的未來

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.