網易首頁 > 網易號 > 正文申請入駐

7B模型對標GPT-4o，全球首個醫療代碼生成大模型訓練平臺來了

2025-07-14 13:49:24　來源: 量子位

北京舉報

分享至

德克薩斯大學西南醫學中心團隊投稿
發自凹非寺量子位 | 公眾號 QbitAI

醫療AI場景復雜，需要“又懂醫療又懂編程”的agent。

但像GPT這樣現成的大模型難以直接部署，該如何突破技術壁壘？

答案是：打造一個統一的訓練平臺，專門訓練能夠生成醫療代碼的大模型。

最近，來自埃默里大學、佐治亞理工學院、耶魯大學和德克薩斯大學西南醫學中心的研究團隊，發布了全球首個專注于醫療代碼生成的大模型訓練平臺——MedAgentGym。

該平臺不僅提供了全面的評估基準，更重要的是建立了完整的訓練生態系統，能夠系統性提升大模型在醫療領域的代碼生成和推理能力。

實驗結果表明，經過MedAgentGym訓練的開源模型Med-Copilot-7B在多項醫療編程任務上達到了與GPT-4o相當的性能水平。

醫療AI的”編程瓶頸”

當前醫療AI應用面臨著一個關鍵技術挑戰：如何讓AI系統自動生成可靠的醫療相關代碼。

無論是處理電子健康記錄（EHR）查詢、生物信息學分析，還是構建臨床決策支持系統，都需要精確的編程能力作為支撐。

然而，現有解決方案存在明顯局限：

商業模型的現實困境

-　數據隱私風險：醫療數據的敏感性使得直接調用商業API存在合規風險
-　成本壓力：大規模醫療應用的API調用費用難以承受
-　部署限制：無法在本地或私有云環境中靈活部署

開源模型的能力短板

-　專業知識不足：缺乏深度的醫學領域知識
-　編程能力有限：在復雜的醫療編程任務上表現不佳
-　訓練資源缺乏：缺少專門的醫療代碼訓練數據和環境

研究表明，引入編程能力可以顯著提升模型在計算醫療推理任務上的表現。在MIMIC-III、eICU和MedCalcBench等數據集中，基于代碼的計算推理成功率遠高于傳統的自然語言推理方法。

在MIMIC-III、eICU和MedCalcBench三個數據集中，基于代碼的計算推理（橙色）成功率遠高于傳統的敘述式推理（藍色）。

MedAgentGym：突破性的解決方案

與其他基準相比，MedAgentGym提供了集成了可執行環境、交互式反饋和任務隔離運行設施的編碼訓練平臺。為了解決這一系列挑戰，MedAgentGym提供了一個前所未有的綜合性解決方案。該平臺的核心創新體現在三個維度：

大規模真實醫療任務集合

MedAgentGym整合了來自12個真實生物醫學場景的72,413個編程任務實例，覆蓋129個不同類別。

任務范圍橫跨四大核心領域：
-　結構化醫療信息檢索：如EHR數據庫查詢、臨床記錄分析-　醫療數據科學：包括統計分析、臨床計算等-　生物信息學建模：涵蓋序列分析、系統發育學等-　機器學習應用：臨床預測、風險評估等

數據模態極其豐富，包含臨床筆記、實驗室報告、EHR表格、生物序列等多種格式，全面考驗模型的綜合處理能力。

高效可擴展的訓練基礎設施

MedAgentGym在技術架構上實現了多項突破：

-　容器化隔離環境：每個任務都封裝在獨立的Docker容器中，預裝所有依賴項，確保環境安全性和可復現性
-　交互式反饋機制：當代碼執行出錯時，系統能將錯誤信息轉化為結構化的自然語言反饋，幫助模型進行調試和優化
-　并行處理能力：集成Ray和Joblib等后端引擎，支持大規模并行軌跡采樣和訓練

在擁有交互式調試能力時（藍色），gpt-4.1-mini模型的性能遠高于移除該能力后（橙色）的表現，證明了MedAgentGym交互式環境的巨大價值。

此外，錯誤類型分析揭示了當前模型在復雜醫療代碼任務中面臨的主要挑戰。其中，“陷入循環”不能成功debug是最主要的錯誤類型，占比高達50.39%。

全面的模型評估體系

研究團隊系統性評估了超過25個主流大模型，包括：

API商業模型：GPT系列
開源通用模型：Qwen、LLaMA、Gemma等
專業編程模型：Qwen2.5-Coder等
醫療領域模型：HuatuoGPT、MedReason等

評估結果揭示了商業模型與開源模型之間的顯著性能差距，為后續優化指明了方向。

MedAgentGym零樣本（Zero-shot）測試集結果詳細列出了超過25個前沿大模型在8個不同任務上的原始得分，是評估各模型在醫療代碼生成領域綜合實力的核心依據。

Med-Copilot：開源模型的逆襲之路

基于MedAgentGym平臺，研究團隊開發了Med-Copilot系列模型，并取得了突破性成果。

訓練策略：采用兩階段精細化訓練框架：

-　監督微調（SFT）：使用2,137個成功執行的代碼軌跡進行初始訓練
-　強化學習優化（DPO）：通過偏好優化進一步提升性能

性能突破：

Med-Copilot-7B通過SFT訓練，性能提升36.44%
結合DPO后，總體性能提升達到42.47%
最終在MedAgentGym基準上達到59.90分，接近GPT-4o的性能水平

關鍵技術創新：

研究團隊還訓練了一個AI驗證器（Verifier），能夠從多次代碼生成嘗試中自動識別最佳解決方案。實驗顯示：

在16次嘗試中，模型的潛在成功率可達45%
AI驗證器能夠以42%的準確率識別出正確答案
僅有3%的差距證明了驗證器的可靠性

僅使用SFT、僅使用DPO以及SFT與DPO結合的策略對7B和14B基礎模型性能的提升效果，驗證了SFT+DPO兩階段訓練框架的有效性。

可持續進化的藍圖：自我提升與性能擴展

MedAgentGym不僅展示了一次性的成功，更揭示了一條可持續進化的清晰路徑。其中的關鍵，在于一個強大的“AI裁判”（即驗證器，Verifier）。

性能具備高度可擴展性

研究團隊讓模型對同一個任務進行多次嘗試（最多16次），并讓“AI裁判”從這些嘗試中選出最佳答案。結果令人驚喜：

-　潛力上限 (Pass@k)：在16次嘗試中，模型只要有一次成功，就算解出。在這種理想情況下，成功率從單次嘗試的17%飆升至45%。這說明模型本身具備解決問題的潛力。
-　實際表現 (Best@k)：更關鍵的是，在“AI裁判”的幫助下，從這16次嘗試中自動選出的最佳答案，其實際成功率高達42%！

僅有3%的微小差距證明，這個AI裁判的眼光極其“毒辣”，能夠非常可靠地識別出正確的解決方案。這一成果意義重大，因為它意味著這個驗證器已經足夠強大，可以作為獎勵模型（Reward Model）賦能給PPO、GRPO等更先進的在線強化學習框架，為訓練出更強大的醫療AI鋪平了道路。

-　無論是增加訓練數據量，還是在推理時增加嘗試次數（Rollouts），模型的最終成功率都表現出穩定、顯著的提升。這為未來進一步提升模型性能指明了方向：更多的計算投入和數據積累，將帶來更強大的醫療AI智能體。

推理時增加嘗試次數（k）能提升成功率（Pass@k）；此外，顯示增加訓練數據量也能穩定提升模型表現。

-　模型可以自我提升：這種強大的驗證能力也解鎖了模型的自我提升：AI智能體可以通過“拒絕采樣+迭代DPO”的自我改進循環，利用自己生成的軌跡數據進行持續學習和優化，不斷突破性能上限 (3-5%)。

通過“拒絕采樣SFT”和兩輪DPO的自我改進循環，模型性能得以持續增長。

未來展望：加速醫療AI的普惠化進程

MedAgentGym的發布，為醫學的AI和大語言模型智能體的研究者和開發者提供了一個強大工具。它通過提供一個統一、開放、可擴展的平臺，填補了醫療代碼智能體開發領域的關鍵空白。

通過將真實世界的生物醫學任務、高效可復現的基礎設施以及對前沿模型的大規模基準測試相結合，MedAgentGym為推動LLM在醫療領域的應用奠定了一個堅實的基礎。

研究團隊希望，MedAgentGym能夠激發更多創新，促進高效、可靠、臨床接地的AI智能體的發展，最終為現實世界的醫療研究與實踐提供支持。

有理由相信，在MedAgentGym的助力下，一個能夠從成功中學習、從失敗中進化的，更加智能和高效的未來醫療新時代，正加速到來。

論文鏈接：https://arxiv.org/abs/2506.04405

項目主頁：https://wshi83.github.io/MedAgentGym-Page/

代碼鏈接：https://github.com/wshi83/MedAgentGym

數據及模型：https://huggingface.co/MedAgentGym

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.