編輯丨coisini
當前,大模型研究的重點已逐步轉向提升模型的推理能力。推理模型在數學、編程等領域的基準測試中已屢創突破。
那么,在需要認知策略、邏輯推演的科學研究領域,推理模型潛力如何呢?
最近,由前谷歌 CEO 埃里克?施密特(Eric Schmidt)投資的初創公司 FutureHouse,發布并開源了一個 240 億參數的化學任務推理模型——ether0,證明了:無需額外領域預訓練,通過后訓練即可使推理模型具備化學領域能力,且相比領域專用模型所需數據量顯著減少。
論文鏈接:https://storage.googleapis.com/aviary-public/ether0_preprint.pdf
模型鏈接:https://huggingface.co/futurehouse/ether0
科學推理模型 ether0
科學研究常涉及認知策略,如將問題分解為子問題、應對失敗案例、從目標結果逆向推理等 —— 這些策略正是推理模型所展現的特性。然而,盡管科學與推理模型在概念上高度契合,目前科學推理模型的研究仍相對匱乏,主要局限于多項選擇題基準測試。
要知道,評估解決方案的質量通常較為容易,而生成解決方案卻很困難。例如,我們雖能精確測量特定分子的溶解度,但設計具有目標溶解度的分子卻極具挑戰性。
FutureHouse 致力于改變這種現狀。
研究團隊從學術論文中整理了化學實驗數據,追蹤了分子溶解度和氣味等特性,并將其轉化為可驗證的問題。
ether0 基于 Mistral-Small-24B 架構,通過強化學習進行訓練,使用了 640,730 個基于實驗數據的化學問題,涵蓋 18 類(375 項)任務 —— 從合成可行性、血腦屏障滲透性到人體受體活性乃至氣味分析。
為實現高效訓練,該研究采用了一系列改進方案,包括推理行為蒸餾、動態課程學習等。
下圖展示了訓練流程各階段對模型多任務性能的貢獻。盡管 SFT 后初始準確率普遍較低,但在特定任務強化學習階段,所有任務性能均取得顯著提升。蒸餾過程成功將專家模型的能力遷移至通用模型,全任務強化學習階段成功修復了性能衰退,最終模型表現達到或超越對應專家模型水平。
高性能、低成本
為了全面評估 ether0 的能力,研究團隊將其與通用大語言模型(如Claude、o1)和化學專用模型(ChemDFM、TxGemma)進行對比。ether0 在所有開放答案(OA)類別中準確率最高,在選擇題(MCQ)方面也具備競爭力。
如下圖所示,幾乎在所有任務上,ether0 都超越了 GPT-4.1 和 DeepSeek-R1 等前沿模型。對于某些任務,ether0 的準確率甚至達到競爭對手的兩倍以上。
更驚人的是成本優勢:要達到類似的反應預測準確率,訓練一個非推理型模型需要消耗 50 倍以上的數據。
如下圖所示,安全對齊流程使 ether0 拒絕 80% 的不安全提問,但未對評測任務能力產生實質影響。
由于 ether0 只能以分子式和化學反應的形式生成解決方案,因此很難在獨立基準測試中與其他模型及人類表現進行交叉驗證。不過,ether0 能對未經訓練的分子結構進行正確推理。
總的來說,ether0 能理解自然語言提問,用自然語言進行推理,最終輸出分子結構,尤其擅長類藥分子設計。雖然 ether0 仍是原型產品,但研究團隊已通過其獲得多項重要發現,為未來構建通用科學推理模型指明了方向。
感興趣的讀者可以閱讀論文原文,了解更多研究內容。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.