網易首頁 > 網易號 > 正文申請入駐

準確率是DeepSeek-R1兩倍以上，開源240億參數科學推理模型

2025-06-17 16:38:35　來源: ScienceAI

天津舉報

分享至

編輯丨coisini

當前，大模型研究的重點已逐步轉向提升模型的推理能力。推理模型在數學、編程等領域的基準測試中已屢創突破。

那么，在需要認知策略、邏輯推演的科學研究領域，推理模型潛力如何呢？

最近，由前谷歌 CEO 埃里克?施密特（Eric Schmidt）投資的初創公司 FutureHouse，發布并開源了一個 240 億參數的化學任務推理模型——ether0，證明了：無需額外領域預訓練，通過后訓練即可使推理模型具備化學領域能力，且相比領域專用模型所需數據量顯著減少。

論文鏈接：https://storage.googleapis.com/aviary-public/ether0_preprint.pdf

模型鏈接：https://huggingface.co/futurehouse/ether0

科學推理模型 ether0

科學研究常涉及認知策略，如將問題分解為子問題、應對失敗案例、從目標結果逆向推理等 —— 這些策略正是推理模型所展現的特性。然而，盡管科學與推理模型在概念上高度契合，目前科學推理模型的研究仍相對匱乏，主要局限于多項選擇題基準測試。

要知道，評估解決方案的質量通常較為容易，而生成解決方案卻很困難。例如，我們雖能精確測量特定分子的溶解度，但設計具有目標溶解度的分子卻極具挑戰性。

FutureHouse 致力于改變這種現狀。

研究團隊從學術論文中整理了化學實驗數據，追蹤了分子溶解度和氣味等特性，并將其轉化為可驗證的問題。

ether0 基于 Mistral-Small-24B 架構，通過強化學習進行訓練，使用了 640,730 個基于實驗數據的化學問題，涵蓋 18 類（375 項）任務 —— 從合成可行性、血腦屏障滲透性到人體受體活性乃至氣味分析。

為實現高效訓練，該研究采用了一系列改進方案，包括推理行為蒸餾、動態課程學習等。

下圖展示了訓練流程各階段對模型多任務性能的貢獻。盡管 SFT 后初始準確率普遍較低，但在特定任務強化學習階段，所有任務性能均取得顯著提升。蒸餾過程成功將專家模型的能力遷移至通用模型，全任務強化學習階段成功修復了性能衰退，最終模型表現達到或超越對應專家模型水平。

高性能、低成本

為了全面評估 ether0 的能力，研究團隊將其與通用大語言模型（如Claude、o1）和化學專用模型（ChemDFM、TxGemma）進行對比。ether0 在所有開放答案（OA）類別中準確率最高，在選擇題（MCQ）方面也具備競爭力。

如下圖所示，幾乎在所有任務上，ether0 都超越了 GPT-4.1 和 DeepSeek-R1 等前沿模型。對于某些任務，ether0 的準確率甚至達到競爭對手的兩倍以上。

更驚人的是成本優勢：要達到類似的反應預測準確率，訓練一個非推理型模型需要消耗 50 倍以上的數據。

如下圖所示，安全對齊流程使 ether0 拒絕 80% 的不安全提問，但未對評測任務能力產生實質影響。

由于 ether0 只能以分子式和化學反應的形式生成解決方案，因此很難在獨立基準測試中與其他模型及人類表現進行交叉驗證。不過，ether0 能對未經訓練的分子結構進行正確推理。

總的來說，ether0 能理解自然語言提問，用自然語言進行推理，最終輸出分子結構，尤其擅長類藥分子設計。雖然 ether0 仍是原型產品，但研究團隊已通過其獲得多項重要發現，為未來構建通用科學推理模型指明了方向。

感興趣的讀者可以閱讀論文原文，了解更多研究內容。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

DeepMind迎來超級大腦，何愷明出任兼職杰出科學家

DeepTech深科技 2025-06-26 10:30:30
0 跟貼 0
推理越多，幻覺越重？多模態推理模型的「幻覺悖論」

新智元 2025-06-25 20:06:49
0 跟貼 0

廈大開發新型仿生電子皮膚，有望用于虛實結合的人機交互等領域

DeepTech深科技 2025-06-26 13:13:11
0 跟貼 0

《科學》重磅！中國發現丹尼索瓦人，或徹底改寫人類演化史！

徐德文科學頻道 2025-06-25 09:16:45
6 跟貼 6
7B模型超越DeepSeek-R1：模仿人類教師，弱模型也能教出強推理LLM

量子位 2025-06-25 14:29:03
16 跟貼 16

面向科學任務、自動評估多模態智能體評測環境ScienceBoard來了

機器之心Pro 2025-06-26 16:02:44
0 跟貼 0

科學的盡頭是玄學，他們都信就剩你了

戧詞奪理 2025-06-22 17:11:36
4 跟貼 4
數學家硬幣謎題！小學生都會，卻又難得要命 #科學高光故事集

胡曉閑 2025-06-23 18:36:38
0 跟貼 0

在科學的漫長進程中，經典定律往往是構筑人類認知大廈的基石

Hi秒懂科普 2025-06-23 11:23:50
0 跟貼 0
【DeepSeek談藝】盧禹舜 | 澄懷觀道大美無言

文化視界網 2025-06-26 14:44:20
0 跟貼 0
2025楊浦區“生命活力加油站”全面啟動！14位專家護航全齡健康

上海楊浦 2025-06-26 16:45:07
0 跟貼 0
【DeepSeek談藝】巴達日胡 | 繪草原精神圖譜，守本心至誠至純

文化視界網 2025-06-26 16:13:15
0 跟貼 0
西天尾鎮開展義診活動守護銀齡健康

莆田晚報 2025-06-26 16:13:48
0 跟貼 0
科學的創新創造源于幻想，源于想象

財經網科技 2025-06-26 16:18:55
0 跟貼 0
《醬園弄·懸案》原型為“民國四大奇案”之一，碎尸案曾轟動上海

主持人王洋 2025-06-25 21:28:34
1 跟貼 1
【DeepSeek談藝】劉國輝 | 筆墨跟隨時代的寫實精神與人文張力

文化視界網 2025-06-26 16:13:58
0 跟貼 0
寓教于“光” —— 秦漢學子開啟科普直通車光學奇旅

陽光報陽光網 2025-06-26 16:33:12
0 跟貼 0
美國主持人，花式夸DeepSeek：中國連取名字都完爆美國

梅慶笑場 2025-06-25 16:25:07
2 跟貼 2
廣州花都50多人凌晨四點白衣列隊行走引關注，官方：系集體辟谷

新京報 2025-06-26 14:31:28
67 跟貼 67
一對老人五臺山寺廟供奉大米遭和尚嫌棄怒扔門口！

爆料視頻 2025-06-26 09:27:24
31918 跟貼 31918
伊朗防長現身青島，意味著什么？

新民周刊 2025-06-26 09:07:47
21118 跟貼 21118
特朗普宣布停戰，美以雙方緊急停戰，背后是什么，是和平還是策略

江山此夜季 2025-06-24 22:46:19
0 跟貼 0
港大等開源GoT-R1：強化學習解鎖視覺生成推理新范式

機器之心Pro 2025-06-25 17:49:23
7 跟貼 7
央視首曝東風 5 具體參數，射程 12000 公里

壹云影視 2025-06-23 19:22:40
0 跟貼 0
伊朗外長談談判進程歐美立場分歧與外交策略調整觀察

搞笑梅姐 2025-06-26 02:14:46
0 跟貼 0
美國使用的GBU-57鉆地彈：技術參數與實戰威力的深度探討

數碼八叔 2025-06-22 14:41:18
0 跟貼 0
用參數思想求角度，設而不求，有意思！

大鵬老師講數學 2025-06-26 05:01:00
0 跟貼 0
至少邏輯上說得過去，對付日本鬼子就得這樣

小南劇社 2025-06-25 13:29:48
1 跟貼 1
3D VLA新范式！CVPR冠軍方案BridgeVLA，真機性能提升32%

新智元 2025-06-26 13:40:58
0 跟貼 0
美軍B-2A空襲后伊朗反擊，全球矚目防御策略

秋萍侃世界 2025-06-25 02:46:42
0 跟貼 0
工人徒手掰斷鋼筋河北一樓盤被曝光住建部門：質監站已介入

比奇看有趣 2025-06-26 13:59:23
2531 跟貼 2531
近乎90度轉彎設計引擔憂，印度中央邦對“直角立交橋”設計方案被采用啟動調查

環球網資訊 2025-06-26 06:55:47
160 跟貼 160
西南財大一學生發表有關地震不當言論，校方：已對其進行嚴肅處理，目前留校察看

極目新聞 2025-06-25 20:48:58
4421 跟貼 4421
伊朗通過海陸聯運和分散策略保障石油出口穩定，中國市場需求旺盛

星月幻海 2025-06-25 03:44:55
0 跟貼 0
一機場大廳兩組游客起沖突，上演全武行，女子被嚇狂跑！

爆料視頻 2025-06-26 09:00:57
1935 跟貼 1935
離譜！在美生活10年，只回了一趟澳洲，就被拘留辱罵，遣返了？

英國那些事兒 2025-04-12 23:09:54
20 跟貼 20
特朗普動手后，“好兄弟”紛紛挺身而出，強盜邏輯變全球新秩序？

兵器雜志 2025-06-23 22:13:48
0 跟貼 0
清華團隊突破算力難題：4090顯卡跑“滿血版”DeepSeek-R1

每日經濟新聞 2025-02-15 22:40:54
0 跟貼 0
小區未牽繩狗嚇到孩子被媽媽一腳踢飛，狗主人怒罵孩媽：有病！

爆料視頻 2025-06-26 10:04:43
2613 跟貼 2613
穿越者完成數千萬元天使+輪融資，中國首艘載人飛船試驗船即將投產｜硬氪首發

36氪 2025-06-26 13:22:06
0 跟貼 0

手機 / 數碼

房產 / 家居

準確率是DeepSeek-R1兩倍以上，開源240億參數科學推理模型

奧特曼剛警告完 Meta就挖走OpenAI三名大將

媒體：英國公布針對中國的審計報告 對華“既要又要”

媒體：英國公布針對中國的審計報告 對華“既要又要”

蓄謀已久的開拓者，就是最適合楊瀚森的球隊

倪妮，怎么突然下桌了？

免除蘇寧易購5億債務的神秘人是誰？

奇瑞最大轎車 風云A9L把VIP待遇和續航焦慮一起解決

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

用兒歌教孩子說“不”，開展性教育有趣比說教更管用|新京報快評

被貴妃帶火的“唐代頂流”，如今怎么不火了

熱聞|清明假期將至，熱門目的地有哪些?

滿足特朗普要求 北約峰會通過5%軍費目標

媒體：英國公布針對中國的審計報告對華“既要又要”

媒體：英國公布針對中國的審計報告對華“既要又要”

奇瑞最大轎車風云A9L把VIP待遇和續航焦慮一起解決

滿足特朗普要求北約峰會通過5%軍費目標