DeepSeek-R1自1月20日發布以來,因其高效且低成本的特性,迅速引起全球科學界的關注。研究人員發現,DeepSeek-R1在解決數學和科學問題方面的能力與OpenAI 的o1模型相當。此外,DeepSeek-R1的開源性質使科學家能夠根據自身需求進行定制和優化。
DeepSeek-R1 的低成本和開放性為研究人員提供了前所未有的便利。他們可以通過DeepSeek提供的應用程序接口(API)以極低的成本訪問該模型。此外,研究人員還可以將模型下載到自己的服務器上進行本地運行和進一步開發,這在許多封閉源模型中是無法實現的。
自發布以來,DeepSeek-R1已被大量研究人員用于訓練自定義推理模型。根據Hugging Face的數據,自發布以來,該網站已記錄了超過 300 萬次 DeepSeek-R1 不同版本的下載量,包括獨立用戶已構建的版本。
在對DeepSeek-R1在數據驅動的科學任務上的初步測試中,研究人員發現該模型在數學和編程任務上表現出色。例如,在加州大學伯克利分校編寫的數學問題集MATH-500中,DeepSeek-R1 達到了97.3%的準確率,超越了 96.3% 的人類參與者。然而,DeepSeek-R1 在某些任務上仍存在挑戰,研究人員需要具備相關領域的專業知識,以有效利用該模型。
(提示:MATH-500:包含500個測試樣本的MATH評測集,全面考察數學解題能力。LiveCodeBench:評估真實編程場景中代碼生成和問題解決能力的高難度評測集。)
DeepSeek-R1 的發布引發了全球科技界的廣泛關注。美國科技公司對其低成本和高效性能表示擔憂,認為這可能對現有商業 AI 模型構成挑戰。然而,DeepSeek-R1 的開源和低成本特性也被視為推動 AI 技術民主化的重要一步,使更多研究人員能夠參與到 AI 的研究和應用中來。
科學任務
在對R1在數據驅動科學任務上的能力進行初步測試時(這些任務選自涉及生物信息學、計算化學和認知神經科學等主題的真實論文),Sun 表示該模型的表現與o1不相上下。她的團隊要求這兩個AI模型完成他們設計的一套名為ScienceAgentBench的題組中的20個任務,其中包括數據分析和數據可視化等任務。兩種模型正確解決的挑戰大約只有三分之一。Sun 還指出,通過 API 運行 R1 的費用比 o1 低 13 倍,但 R1 的“思考”時間比 o1 慢。
在數學領域,R1也展現出潛力。英國牛津大學的數學家和計算機科學家 Frieder Simon要求這兩個模型在抽象的泛函分析領域構造一個證明,并發現R1的論證比 o1更有希望。不過,他表示,鑒于此類模型也會犯錯,研究人員要想從中獲益,必須具備辨別優劣證明的能力。
對R1充滿熱情的很大原因在于它以“開放權重”方式發布,這意味著其算法中各部分之間學到的連接可以供后續構建利用。下載 R1 或者 DeepSeek 發布的體積更小的“蒸餾”版本的科學家們,可以通過額外訓練(即微調)來提升模型在各自領域的性能。Sun 說,給定合適的數據集,研究人員甚至可以訓練該模型以改善其在科學過程中特定編碼任務上的表現。
參考[1]https://www.nature.com/articles/d41586-025-00275-0?linkId=12723713[2]https://huggingface.co/datasets/HuggingFaceH4/MATH-500
[3]https://github.com/openai/prm800k/tree/main?tab=readme-ov-file#math-splits
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.