DeepSeek-R1自1月20日發(fā)布以來(lái),因其高效且低成本的特性,迅速引起全球科學(xué)界的關(guān)注。研究人員發(fā)現(xiàn),DeepSeek-R1在解決數(shù)學(xué)和科學(xué)問(wèn)題方面的能力與OpenAI 的o1模型相當(dāng)。此外,DeepSeek-R1的開(kāi)源性質(zhì)使科學(xué)家能夠根據(jù)自身需求進(jìn)行定制和優(yōu)化。
DeepSeek-R1 的低成本和開(kāi)放性為研究人員提供了前所未有的便利。他們可以通過(guò)DeepSeek提供的應(yīng)用程序接口(API)以極低的成本訪(fǎng)問(wèn)該模型。此外,研究人員還可以將模型下載到自己的服務(wù)器上進(jìn)行本地運(yùn)行和進(jìn)一步開(kāi)發(fā),這在許多封閉源模型中是無(wú)法實(shí)現(xiàn)的。
自發(fā)布以來(lái),DeepSeek-R1已被大量研究人員用于訓(xùn)練自定義推理模型。根據(jù)Hugging Face的數(shù)據(jù),自發(fā)布以來(lái),該網(wǎng)站已記錄了超過(guò) 300 萬(wàn)次 DeepSeek-R1 不同版本的下載量,包括獨(dú)立用戶(hù)已構(gòu)建的版本。
在對(duì)DeepSeek-R1在數(shù)據(jù)驅(qū)動(dòng)的科學(xué)任務(wù)上的初步測(cè)試中,研究人員發(fā)現(xiàn)該模型在數(shù)學(xué)和編程任務(wù)上表現(xiàn)出色。例如,在加州大學(xué)伯克利分校編寫(xiě)的數(shù)學(xué)問(wèn)題集MATH-500中,DeepSeek-R1 達(dá)到了97.3%的準(zhǔn)確率,超越了 96.3% 的人類(lèi)參與者。然而,DeepSeek-R1 在某些任務(wù)上仍存在挑戰(zhàn),研究人員需要具備相關(guān)領(lǐng)域的專(zhuān)業(yè)知識(shí),以有效利用該模型。
(提示:MATH-500:包含500個(gè)測(cè)試樣本的MATH評(píng)測(cè)集,全面考察數(shù)學(xué)解題能力。LiveCodeBench:評(píng)估真實(shí)編程場(chǎng)景中代碼生成和問(wèn)題解決能力的高難度評(píng)測(cè)集。)
DeepSeek-R1 的發(fā)布引發(fā)了全球科技界的廣泛關(guān)注。美國(guó)科技公司對(duì)其低成本和高效性能表示擔(dān)憂(yōu),認(rèn)為這可能對(duì)現(xiàn)有商業(yè) AI 模型構(gòu)成挑戰(zhàn)。然而,DeepSeek-R1 的開(kāi)源和低成本特性也被視為推動(dòng) AI 技術(shù)民主化的重要一步,使更多研究人員能夠參與到 AI 的研究和應(yīng)用中來(lái)。
科學(xué)任務(wù)
在對(duì)R1在數(shù)據(jù)驅(qū)動(dòng)科學(xué)任務(wù)上的能力進(jìn)行初步測(cè)試時(shí)(這些任務(wù)選自涉及生物信息學(xué)、計(jì)算化學(xué)和認(rèn)知神經(jīng)科學(xué)等主題的真實(shí)論文),Sun 表示該模型的表現(xiàn)與o1不相上下。她的團(tuán)隊(duì)要求這兩個(gè)AI模型完成他們?cè)O(shè)計(jì)的一套名為ScienceAgentBench的題組中的20個(gè)任務(wù),其中包括數(shù)據(jù)分析和數(shù)據(jù)可視化等任務(wù)。兩種模型正確解決的挑戰(zhàn)大約只有三分之一。Sun 還指出,通過(guò) API 運(yùn)行 R1 的費(fèi)用比 o1 低 13 倍,但 R1 的“思考”時(shí)間比 o1 慢。
在數(shù)學(xué)領(lǐng)域,R1也展現(xiàn)出潛力。英國(guó)牛津大學(xué)的數(shù)學(xué)家和計(jì)算機(jī)科學(xué)家 Frieder Simon要求這兩個(gè)模型在抽象的泛函分析領(lǐng)域構(gòu)造一個(gè)證明,并發(fā)現(xiàn)R1的論證比 o1更有希望。不過(guò),他表示,鑒于此類(lèi)模型也會(huì)犯錯(cuò),研究人員要想從中獲益,必須具備辨別優(yōu)劣證明的能力。
對(duì)R1充滿(mǎn)熱情的很大原因在于它以“開(kāi)放權(quán)重”方式發(fā)布,這意味著其算法中各部分之間學(xué)到的連接可以供后續(xù)構(gòu)建利用。下載 R1 或者 DeepSeek 發(fā)布的體積更小的“蒸餾”版本的科學(xué)家們,可以通過(guò)額外訓(xùn)練(即微調(diào))來(lái)提升模型在各自領(lǐng)域的性能。Sun 說(shuō),給定合適的數(shù)據(jù)集,研究人員甚至可以訓(xùn)練該模型以改善其在科學(xué)過(guò)程中特定編碼任務(wù)上的表現(xiàn)。
參考[1]https://www.nature.com/articles/d41586-025-00275-0?linkId=12723713[2]https://huggingface.co/datasets/HuggingFaceH4/MATH-500
[3]https://github.com/openai/prm800k/tree/main?tab=readme-ov-file#math-splits
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.