走出“大開發(fā)”時(shí)期。
來源|多知
作者|馮瑋
六月末,網(wǎng)易有道開源了“子曰3”數(shù)學(xué)模型(Confucius3-Math,下稱“子曰3”)。
子曰3是有道推理模型“子曰-o1” 在數(shù)學(xué)模型能力上的延伸,主打數(shù)學(xué)、邏輯與推理能力;同時(shí)也是一款專門面向教育機(jī)構(gòu)、學(xué)校與開發(fā)者使用的模型。
據(jù)有道官方測(cè)試,在CK12-math(Internal)、GAOKAO-Bench(Math)、MathBench(K12)、MATH500等數(shù)據(jù)集上,14B輕量級(jí)的“子曰3”各項(xiàng)得分均高于DeepSeek-R1等通用大模型。
值得注意的是,在GAOKAO-Bench(Math)這一基于高考數(shù)學(xué)題的大模型評(píng)測(cè)框架中,“子曰3”拿到了98.5分。
這是個(gè)不錯(cuò)的成績(jī)。
網(wǎng)易有道近兩年一直在加大對(duì)AI大模型的研發(fā),而子曰系列正是重要成果之一。相比通用大語言模型,此次的子曰3更側(cè)重結(jié)構(gòu)化、符號(hào)化表達(dá)與嚴(yán)謹(jǐn)推理能力,符合教育、科研等需求場(chǎng)景。
發(fā)稿前,子曰3已同步開源,支持企業(yè)與個(gè)人免費(fèi)使用——這意味著教育機(jī)構(gòu)和開發(fā)者都能以低成本部署自己的數(shù)學(xué)AI應(yīng)用。
子曰3到底一個(gè)什么樣的模型?有道開發(fā)和開源子曰3的思路是什么?
多知獨(dú)家對(duì)話網(wǎng)易有道首席科學(xué)家段亦濤。
01
子曰錨定數(shù)學(xué)?
多知:能否介紹下子曰3的立項(xiàng)背景?
段亦濤:這次模型的升級(jí)和開源,本質(zhì)上是有道一貫秉承的AI發(fā)展思路的延續(xù)。
這個(gè)思路就是AI技術(shù)一定要在應(yīng)用中去發(fā)展。因?yàn)锳I就是一個(gè)以復(fù)刻人類智能為目標(biāo)的技術(shù),只有在應(yīng)用中才能理解其本質(zhì),驗(yàn)證其價(jià)值。
有道從事的是教育。這是一個(gè)AI有可能做出巨大創(chuàng)新的行業(yè),也是一個(gè)對(duì)AI的能力提出更嚴(yán)格要求的行業(yè)。目前來看這個(gè)行業(yè)缺乏一個(gè)低成本,高性能,同時(shí)也開源的模型。這里每一點(diǎn)要求都必不可少。只有低成本才能打破數(shù)字鴻溝,均衡教育資源,保證公平性。只有高性能才能保證結(jié)果的正確性,避免誤人子弟。開源除了可以進(jìn)一步降低使用門檻,提高資源公平性之外,還可以促進(jìn)合作,聚合更多力量。
從技術(shù)發(fā)展的大趨勢(shì)和條件看,這幾年大模型的發(fā)展帶來了技術(shù)上質(zhì)的飛躍,尤其是近一年多來,模型的推理能力快速發(fā)展,有希望解決復(fù)雜的問題,達(dá)到前面說的高性能的目標(biāo)。但從應(yīng)用的要求來看,還有一定的差距。
子曰3就是在這些背景下立項(xiàng)。我們認(rèn)為當(dāng)前需求很明確,條件趨于成熟。子曰3的定位是一個(gè)低成本高性能多學(xué)科的教育模型。目前推出的子曰3數(shù)學(xué)是其中的第一步,聚焦在數(shù)學(xué)和解題答疑能力。以此為基礎(chǔ),后續(xù)會(huì)拓展到其他學(xué)科和能力。
多知:有道現(xiàn)在對(duì)推理模型的投入好像越來越重?
段亦濤:對(duì),推理能力一直是最新大模型發(fā)展的重點(diǎn)。
去年OpenAI 的 o1 模型在解決數(shù)學(xué)和編程等復(fù)雜多步驟任務(wù)方面取得了重大突破,引發(fā)了大家的關(guān)注,但其中的實(shí)現(xiàn)細(xì)節(jié)透露不多。DeepSeek R1披露更完整和詳細(xì)的構(gòu)建推理能力的技術(shù)。它是首個(gè)證明純強(qiáng)化學(xué)習(xí)(RL)能夠有效培養(yǎng)高級(jí)推理技能的模型,實(shí)現(xiàn)了諸如鏈?zhǔn)剿季S和自我驗(yàn)證等有機(jī)涌現(xiàn)的推理行為。除了技術(shù)成就之外,R1 的開放性還使更多人能夠獲取使用。
DeepSeek R1驗(yàn)證了我們的一些猜測(cè)。我們認(rèn)為強(qiáng)化學(xué)習(xí)有非常大的潛力,能夠大大提升模型能力的天花板。同時(shí)純強(qiáng)化學(xué)習(xí)后期訓(xùn)練更具成本效益。
這是我們決定做后面的事情的很重要的技術(shù)基礎(chǔ)。
多知:有道子曰3在對(duì)推理能力能力升級(jí)后,對(duì)于數(shù)學(xué)答疑場(chǎng)景帶來的變化有哪些?
段亦濤:答疑能力并不等同于解題能力,但前者會(huì)非常依賴后者。首先,當(dāng)我們的模型能力本身提升后,在我們實(shí)際的產(chǎn)品使用場(chǎng)景中AI的結(jié)果準(zhǔn)確率也一定會(huì)相應(yīng)提升,這會(huì)給用戶一個(gè)更好的體驗(yàn)。其次,有了更強(qiáng)的解題能力之后,再去優(yōu)化模型的答疑能力,可以起到事半功倍的效果。
所以子曰3首先針對(duì)數(shù)學(xué)解題場(chǎng)景上做了很多的優(yōu)化,比如在數(shù)據(jù)上,我們收集了幾百萬學(xué)生易錯(cuò)的試題并采用多種方法進(jìn)行過濾,用來確保數(shù)據(jù)的質(zhì)量;在訓(xùn)練階段,我們采用了純強(qiáng)化學(xué)習(xí)策略,并提出像近期樣本恢復(fù)(Recent Sample Recovery)、特定策略的難度加權(quán)(Policy-Specific Hardness Weighting)等新技術(shù),有效地加強(qiáng)了模型的解題能力。同時(shí)我們也在訓(xùn)練過程中引入了對(duì)解題過程的價(jià)值反饋,使得模型能夠生成對(duì)用戶理解問題和解法有幫助的信息,大大提高了答疑效率和效果。
多知:在大模型訓(xùn)練中,有兩種技術(shù)方法,一個(gè)是強(qiáng)化學(xué)習(xí),它只給答案的對(duì)錯(cuò)反饋,另外一個(gè)是之前常用的監(jiān)督學(xué)習(xí),它給出中間的詳細(xì)步驟。您怎么看這兩種方式?
段亦濤:是的,我也和同行交流過類似的問題,的確目前這兩種方式都存在,一種是我們現(xiàn)在使用的強(qiáng)化學(xué)習(xí)優(yōu)化方法,它只給答案的對(duì)錯(cuò)反饋,不管中間步驟,由模型發(fā)揮;另一種則是一步一步鎖定答案和邏輯思路。
對(duì)于優(yōu)化模型的推理能力,它們都是有用的,也都在不同的階段使用。
但是后者更傾向于“手把手”式的教學(xué),一方面這對(duì)數(shù)據(jù)本身的要求會(huì)更高,另一方面對(duì)模型也會(huì)施加限制,讓模型只能照貓畫虎地學(xué)習(xí),再往前就不行了。
我們認(rèn)為,強(qiáng)化學(xué)習(xí)的路線更有潛力,天花板更高。它為模型提供自由發(fā)揮的空間,甚至可以讓模型學(xué)到超出人類自身的能力,就像我們?cè)趪錋I中做到的那樣。
02
全面開源:走出“大開發(fā)”時(shí)期
多知:這次為什么選擇開源?另外在合作上有什么考量么?
段亦濤:我們整體還是比較開放。
目前已經(jīng)把模型完全開源了,同步也放出相關(guān)代碼和論文細(xì)節(jié)。所以合作方想直接用也可以,想在現(xiàn)有基礎(chǔ)上進(jìn)一步開發(fā)也可以,伴隨后面新功能的不斷推出,我想我們也會(huì)有更多的合作狀態(tài)。
選擇開源一方面肯定還是希望在我們的能力范疇內(nèi)能夠幫助行業(yè)有需要的企業(yè)一起發(fā)展。另外我們自身的技術(shù)發(fā)展得益于開源社區(qū)的貢獻(xiàn),我們也希望通過開源反哺相關(guān)的社區(qū)。
在教育領(lǐng)域,開放本身就是一個(gè)很重要的環(huán)節(jié):我們?cè)介_放,也會(huì)有越來越多的人來關(guān)注、使用和糾察,我們就可以一起進(jìn)步,這對(duì)我們,對(duì)行業(yè)都是有益的。
現(xiàn)在很多學(xué)校和機(jī)構(gòu)需要輕量級(jí)模型以便獨(dú)立部署與定制調(diào)優(yōu),子曰3數(shù)學(xué)模型的14B規(guī)格優(yōu)勢(shì)也相應(yīng)提升:推理部署僅需24G顯存顯卡單卡,微調(diào)訓(xùn)練通過4-8卡單機(jī)就可以完成了。
我們非常歡迎,也很期待大家來使用它。
多知:能不能具體介紹下接入方式?
段亦濤:目前我們提供了兩種,一種直接把模型拿下來去部署,基本上一張消費(fèi)級(jí)的顯卡就可以跑,這是一個(gè)非常低門檻的使用方式了。
另外一種是通過我們或者其他云服務(wù)的供應(yīng)商把模型部署起來后,再去調(diào)用。
我們目前的模型能力還聚焦在解題上,但其實(shí)公立校、培訓(xùn)機(jī)構(gòu)等等的需求都是不一樣的,比如她們可能不僅需要解題、還需要面對(duì)不同能力的人給出不同的解題思路、以及組卷、批改等等。
在各種各樣的需求下,我們的模型也會(huì)慢慢延伸為不同的功能和應(yīng)用。
這些我想很快都會(huì)在我們的客戶端上實(shí)現(xiàn)的。
多知:是不是會(huì)有這樣一個(gè)可能,伴隨著每個(gè)機(jī)構(gòu)都有自己的模型能力,接下來將不再需要依賴題庫去解題了?
段亦濤:這是必然的。以后解題都不會(huì)依賴題庫了,教育機(jī)構(gòu)只需要出題或者提供其他的服務(wù)。
我們當(dāng)前版本的模型,就可以在我們的用戶場(chǎng)景下做到96%準(zhǔn)確率。預(yù)計(jì)很快能提升到98%以上。我們的下一步在進(jìn)一步提升解題能力的同時(shí),會(huì)拓展學(xué)科,以及構(gòu)建學(xué)習(xí)過程中其他需求的能力。
多知:能否分享下長(zhǎng)遠(yuǎn)規(guī)劃?
段亦濤:其實(shí)我們已經(jīng)在一些維度實(shí)現(xiàn)了進(jìn)展,但還沒有在這次公開。
整體來看,接下來一定是推理能力的進(jìn)一步增強(qiáng),模型將能夠更準(zhǔn)地解更難的題;另外會(huì)支持更多學(xué)科;最后還有在其他教育和學(xué)習(xí)相關(guān)的功能上的拓展。
比如這一次我們是在答疑解題的能力上提供了更多支持,那么以后,可能同樣是一個(gè)AI老師的角色,但這位老師將可以實(shí)現(xiàn)陪伴、引導(dǎo)、答疑解惑、組卷判卷,甚至是更多學(xué)生們細(xì)碎的需求,我們都可以給出恰到好處的幫助。
大模型技術(shù)落地這個(gè)事情,在行業(yè)里還有點(diǎn)像“大開發(fā)”的階段。
我想我們相較于競(jìng)爭(zhēng),更加需要關(guān)注的是合作,這也正式我們選擇開源的原因,因?yàn)閷?duì)整個(gè)AI行業(yè)來講,我們還有很多困難還沒有解決、還沒有開發(fā)好。
我們多試試,多做做,才會(huì)使我們對(duì)這個(gè)領(lǐng)域的認(rèn)知真正地成熟起來。而當(dāng)基礎(chǔ)設(shè)施逐漸實(shí)現(xiàn)的時(shí)候,我們同時(shí)去想大家各自靠什么方式種什么樣的果子,這樣才會(huì)有一個(gè)持續(xù)發(fā)展的行業(yè)。
對(duì)話后,我們也實(shí)測(cè)了子曰3在數(shù)學(xué)答疑中的表現(xiàn)。
03
實(shí)測(cè)子曰3,如何解決數(shù)學(xué)難題?
該如何理解子曰3的模型能力?
多知找到了三道數(shù)學(xué)題目來測(cè)試。
實(shí)測(cè)地址:https://confucius.youdao.com/
第一題,我們先拿一道簡(jiǎn)單的函數(shù)題開始。
函數(shù) y = √(2-x)/lg (x+1) 的定義域是 __________。
這道題其實(shí)并不難,但在這道題的解答思路里,卻展示了子曰3的一些特點(diǎn)。
比如思考過程的細(xì)致展現(xiàn)與“類人”的部分。
子曰3自稱“我”,在答題過程中出現(xiàn)了“我記得函數(shù)的定義域……”、“這應(yīng)該是指以10為底的對(duì)數(shù)吧……”、“所以現(xiàn)在我得把各個(gè)條件……”、“對(duì)嗎?或者有沒有哪里遺漏了……”等等非常擬人化的思路和表達(dá)。
子曰3還會(huì)反復(fù)檢查。
可以看到子曰3在每一步推演后都會(huì)及時(shí)考慮如限制、遺漏情況、出錯(cuò)可能。對(duì)于學(xué)生來說,也是一種必要的提示。
在全部推演完成后,子曰3又單獨(dú)拿出了幾個(gè)關(guān)鍵點(diǎn)進(jìn)行重復(fù)驗(yàn)證。
最后的答案也沒有任何問題,非常清晰。
第二題,我們選擇了2025年高考數(shù)學(xué)題。
2025年新高考一卷多選第11題,被多位老師評(píng)為今年的好題之一。
這道題的特別之處在于,其相比于常規(guī)的解三角形類題目,解題方法差別很大,這也讓今年的考生們?cè)诿鎸?duì)題目給出的三個(gè)條件時(shí)無從下手。
我們把這道題留給了子曰3。
需要注意的是,目前子曰3還不能直接通過輸入圖片或直接導(dǎo)入鏈接來識(shí)別題目。這個(gè)時(shí)候我們把題目輸入到可以識(shí)別圖片的模型中并提出“給出LaTex表達(dá)式”的要求即可以轉(zhuǎn)出。
這個(gè)部分對(duì)于初次使用的用戶還是需要適應(yīng)一下。
但掌握后可以看到子曰3也很快進(jìn)入識(shí)別理解與答疑之中。
這道題目的冷門之處在于,學(xué)生們習(xí)慣使用利用三角恒等變換公式化簡(jiǎn)的方式是無法解開的。因此在解題時(shí)需要先分析三角形的形狀,根據(jù)內(nèi)角的取值進(jìn)行分析。
子曰3并非一開始就找到了最佳方案的。
在解答過程中,子曰3嘗試了多個(gè)解題思路,在多個(gè)步驟中出現(xiàn)如“考慮另一種方式”、“這樣可能比較復(fù)雜”、“可以再想想別的方法”并馬上調(diào)整。
在最終,子曰先根據(jù)題目條件利用余弦倍角公式進(jìn)行化簡(jiǎn),同時(shí)得到A選項(xiàng)的正確性,
其次根據(jù)題目條件得到A,B均為銳角,在A選項(xiàng)的基礎(chǔ)上借助正弦定理得出三邊之間的關(guān)系,推出C只能為銳角或直角;進(jìn)而再討論C的取值,利用反證法結(jié)合A,B為銳角得出C為直角。
最終在直角三角形的基礎(chǔ)上結(jié)合余弦和角公式和正弦定理求出邊長(zhǎng),最終得出其余選項(xiàng)的正確性……
延續(xù)了前一題的風(fēng)格,這道題的答案還是兩次驗(yàn)證后得出。
子曰3也還是表現(xiàn)的不錯(cuò)的。
第三題,我們選擇了一道南京五年級(jí)數(shù)學(xué)應(yīng)用題,并要求它用孩子更好理解的方式講解。
這個(gè)問題比較簡(jiǎn)單,很快得到了完整的回答,同時(shí)子曰3的講解方式也比較適合小學(xué)的學(xué)生們。
也有小學(xué)生對(duì)多知解讀,這種大段的講解容易“看不下去”,添加適當(dāng)?shù)膱D片或用簡(jiǎn)短方式來提供答疑,或許也會(huì)更適合低齡用戶。
另外答案里的LaTex還剩下一點(diǎn),沒有正確渲染出來。
不過總體上,子曰3還是很好地針對(duì)我們的數(shù)學(xué)問題給出了解題思路。
至此,子曰3的數(shù)學(xué)能力也驗(yàn)證出當(dāng)前有道對(duì)推理模型能力的提升,以及對(duì)強(qiáng)化學(xué)習(xí)落地的思考不斷深入。
另附:
附1:Demo
https://confucius.youdao.com/
附2:模型下載地址
https://github.com/netease-youdao/Confucius3-Math
附3:“子曰3”論文
《Conucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning》
作者:馮瑋
一本書洞察教育行業(yè)全貌,《教育科技這一年:教育+AI新紀(jì)元》火熱銷售中從業(yè)者必入,點(diǎn)擊小程序購買?
掃碼加入多知新書交流群,共同探討教育+AI的未來
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.