99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

7B模型對標GPT-4o,全球首個醫療代碼生成大模型訓練平臺來了

0
分享至

德克薩斯大學西南醫學中心團隊投稿
發自 凹非寺量子位 | 公眾號 QbitAI

醫療AI場景復雜,需要“又懂醫療又懂編程”的agent。

但像GPT這樣現成的大模型難以直接部署,該如何突破技術壁壘?

答案是:打造一個統一的訓練平臺,專門訓練能夠生成醫療代碼的大模型。

最近,來自埃默里大學、佐治亞理工學院、耶魯大學和德克薩斯大學西南醫學中心的研究團隊,發布了全球首個專注于醫療代碼生成的大模型訓練平臺——MedAgentGym。



該平臺不僅提供了全面的評估基準,更重要的是建立了完整的訓練生態系統,能夠系統性提升大模型在醫療領域的代碼生成和推理能力。

實驗結果表明,經過MedAgentGym訓練的開源模型Med-Copilot-7B在多項醫療編程任務上達到了與GPT-4o相當的性能水平。

醫療AI的”編程瓶頸”

當前醫療AI應用面臨著一個關鍵技術挑戰:如何讓AI系統自動生成可靠的醫療相關代碼。

無論是處理電子健康記錄(EHR)查詢、生物信息學分析,還是構建臨床決策支持系統,都需要精確的編程能力作為支撐。

然而,現有解決方案存在明顯局限:

商業模型的現實困境

- 數據隱私風險:醫療數據的敏感性使得直接調用商業API存在合規風險
- 成本壓力:大規模醫療應用的API調用費用難以承受
- 部署限制:無法在本地或私有云環境中靈活部署

開源模型的能力短板

- 專業知識不足:缺乏深度的醫學領域知識
- 編程能力有限:在復雜的醫療編程任務上表現不佳
- 訓練資源缺乏:缺少專門的醫療代碼訓練數據和環境

研究表明,引入編程能力可以顯著提升模型在計算醫療推理任務上的表現。在MIMIC-III、eICU和MedCalcBench等數據集中,基于代碼的計算推理成功率遠高于傳統的自然語言推理方法。



在MIMIC-III、eICU和MedCalcBench三個數據集中,基于代碼的計算推理(橙色)成功率遠高于傳統的敘述式推理(藍色)。

MedAgentGym:突破性的解決方案



與其他基準相比,MedAgentGym提供了集成了可執行環境、交互式反饋和任務隔離運行設施的編碼訓練平臺。為了解決這一系列挑戰,MedAgentGym提供了一個前所未有的綜合性解決方案。該平臺的核心創新體現在三個維度:

大規模真實醫療任務集合

MedAgentGym整合了來自12個真實生物醫學場景的72,413個編程任務實例,覆蓋129個不同類別。

任務范圍橫跨四大核心領域:
- 結構化醫療信息檢索:如EHR數據庫查詢、臨床記錄分析- 醫療數據科學:包括統計分析、臨床計算等- 生物信息學建模:涵蓋序列分析、系統發育學等- 機器學習應用:臨床預測、風險評估等

數據模態極其豐富,包含臨床筆記、實驗室報告、EHR表格、生物序列等多種格式,全面考驗模型的綜合處理能力。



高效可擴展的訓練基礎設施

MedAgentGym在技術架構上實現了多項突破:

- 容器化隔離環境:每個任務都封裝在獨立的Docker容器中,預裝所有依賴項,確保環境安全性和可復現性
- 交互式反饋機制:當代碼執行出錯時,系統能將錯誤信息轉化為結構化的自然語言反饋,幫助模型進行調試和優化
- 并行處理能力:集成Ray和Joblib等后端引擎,支持大規模并行軌跡采樣和訓練



在擁有交互式調試能力時(藍色),gpt-4.1-mini模型的性能遠高于移除該能力后(橙色)的表現,證明了MedAgentGym交互式環境的巨大價值。

此外,錯誤類型分析揭示了當前模型在復雜醫療代碼任務中面臨的主要挑戰。其中,“陷入循環”不能成功debug是最主要的錯誤類型,占比高達50.39%。

全面的模型評估體系

研究團隊系統性評估了超過25個主流大模型,包括:

  • API商業模型:GPT系列
  • 開源通用模型:Qwen、LLaMA、Gemma等
  • 專業編程模型:Qwen2.5-Coder等
  • 醫療領域模型:HuatuoGPT、MedReason等

評估結果揭示了商業模型與開源模型之間的顯著性能差距,為后續優化指明了方向。



MedAgentGym零樣本(Zero-shot)測試集結果詳細列出了超過25個前沿大模型在8個不同任務上的原始得分,是評估各模型在醫療代碼生成領域綜合實力的核心依據。

Med-Copilot:開源模型的逆襲之路

基于MedAgentGym平臺,研究團隊開發了Med-Copilot系列模型,并取得了突破性成果。

訓練策略: 采用兩階段精細化訓練框架:

- 監督微調(SFT):使用2,137個成功執行的代碼軌跡進行初始訓練
- 強化學習優化(DPO):通過偏好優化進一步提升性能

性能突破

Med-Copilot-7B通過SFT訓練,性能提升36.44%
結合DPO后,總體性能提升達到42.47%
最終在MedAgentGym基準上達到59.90分,接近GPT-4o的性能水平

關鍵技術創新

研究團隊還訓練了一個AI驗證器(Verifier),能夠從多次代碼生成嘗試中自動識別最佳解決方案。實驗顯示:

  • 在16次嘗試中,模型的潛在成功率可達45%
  • AI驗證器能夠以42%的準確率識別出正確答案
  • 僅有3%的差距證明了驗證器的可靠性



僅使用SFT、僅使用DPO以及SFT與DPO結合的策略對7B和14B基礎模型性能的提升效果,驗證了SFT+DPO兩階段訓練框架的有效性。

可持續進化的藍圖:自我提升與性能擴展

MedAgentGym不僅展示了一次性的成功,更揭示了一條可持續進化的清晰路徑。其中的關鍵,在于一個強大的“AI裁判”(即驗證器,Verifier)。

性能具備高度可擴展性

研究團隊讓模型對同一個任務進行多次嘗試(最多16次),并讓“AI裁判”從這些嘗試中選出最佳答案。結果令人驚喜:

- 潛力上限 (Pass@k):在16次嘗試中,模型只要有一次成功,就算解出。在這種理想情況下,成功率從單次嘗試的17%飆升至45%。這說明模型本身具備解決問題的潛力。
- 實際表現 (Best@k):更關鍵的是,在“AI裁判”的幫助下,從這16次嘗試中自動選出的最佳答案,其實際成功率高達42%!

僅有3%的微小差距證明,這個AI裁判的眼光極其“毒辣”,能夠非常可靠地識別出正確的解決方案。這一成果意義重大,因為它意味著這個驗證器已經足夠強大,可以作為獎勵模型(Reward Model)賦能給PPO、GRPO等更先進的在線強化學習框架,為訓練出更強大的醫療AI鋪平了道路。

- 無論是增加訓練數據量,還是在推理時增加嘗試次數(Rollouts),模型的最終成功率都表現出穩定、顯著的提升。這為未來進一步提升模型性能指明了方向:更多的計算投入和數據積累,將帶來更強大的醫療AI智能體。



推理時增加嘗試次數(k)能提升成功率(Pass@k);此外,顯示增加訓練數據量也能穩定提升模型表現。

- 模型可以自我提升:這種強大的驗證能力也解鎖了模型的自我提升:AI智能體可以通過“拒絕采樣+迭代DPO”的自我改進循環,利用自己生成的軌跡數據進行持續學習和優化,不斷突破性能上限 (3-5%)。



通過“拒絕采樣SFT”和兩輪DPO的自我改進循環,模型性能得以持續增長。

未來展望:加速醫療AI的普惠化進程

MedAgentGym的發布,為醫學的AI和大語言模型智能體的研究者和開發者提供了一個強大工具。它通過提供一個統一、開放、可擴展的平臺,填補了醫療代碼智能體開發領域的關鍵空白。

通過將真實世界的生物醫學任務、高效可復現的基礎設施以及對前沿模型的大規模基準測試相結合,MedAgentGym為推動LLM在醫療領域的應用奠定了一個堅實的基礎。

研究團隊希望,MedAgentGym能夠激發更多創新,促進高效、可靠、臨床接地的AI智能體的發展,最終為現實世界的醫療研究與實踐提供支持。

有理由相信,在MedAgentGym的助力下,一個能夠從成功中學習、從失敗中進化的,更加智能和高效的未來醫療新時代,正加速到來。

論文鏈接:https://arxiv.org/abs/2506.04405

項目主頁:https://wshi83.github.io/MedAgentGym-Page/

代碼鏈接:https://github.com/wshi83/MedAgentGym

數據及模型:https://huggingface.co/MedAgentGym

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
海事系統交流任職陸續公布,鄂海亮已任浙江海事局局長

海事系統交流任職陸續公布,鄂海亮已任浙江海事局局長

澎湃新聞
2025-07-20 10:00:27
7月19日俄烏最新:最好的決定

7月19日俄烏最新:最好的決定

西樓飲月
2025-07-19 20:03:31
為啥很多國家,哪怕窮的國家,都不太喜歡中國人?

為啥很多國家,哪怕窮的國家,都不太喜歡中國人?

小談食刻美食
2025-07-18 20:59:43
Here we go!羅馬諾:利物浦將簽23歲埃基蒂克,總價達9500萬歐

Here we go!羅馬諾:利物浦將簽23歲埃基蒂克,總價達9500萬歐

直播吧
2025-07-20 17:40:48
鄭欽文幾乎已賽季報銷!手術后6個月才能復出 提前無緣年終總決賽

鄭欽文幾乎已賽季報銷!手術后6個月才能復出 提前無緣年終總決賽

風過鄉
2025-07-20 09:20:54
今日入伏,老人說最怕“入伏一日雨”,入伏天下雨有啥預兆?

今日入伏,老人說最怕“入伏一日雨”,入伏天下雨有啥預兆?

阿傖說事
2025-07-20 08:02:46
“戀愛腦”女孩看婦科火了,讓醫生三觀盡毀,網友:被PUA

“戀愛腦”女孩看婦科火了,讓醫生三觀盡毀,網友:被PUA

菁媽育兒
2025-07-15 12:30:47
志愿軍老兵:上甘嶺電影是假的,知道真相就沒人當兵了

志愿軍老兵:上甘嶺電影是假的,知道真相就沒人當兵了

史政先鋒
2025-07-20 15:27:23
三峽大壩“賬本”曝光:運行了20余年,2500億投入如今回本了嗎?

三峽大壩“賬本”曝光:運行了20余年,2500億投入如今回本了嗎?

霽寒飄雪
2025-07-20 09:18:01
中國應大力發展西部電力!谷歌前高層公開承認:制約AI發展的不是半導體,是能源電力

中國應大力發展西部電力!谷歌前高層公開承認:制約AI發展的不是半導體,是能源電力

風向觀察
2025-07-20 11:24:40
張峰,履新“全國經濟最強鎮”黨委書記

張峰,履新“全國經濟最強鎮”黨委書記

上觀新聞
2025-07-20 17:34:09
折疊屏iPhone定價或超15000元,“折痕做到了行業最佳”

折疊屏iPhone定價或超15000元,“折痕做到了行業最佳”

瀟湘晨報
2025-07-20 09:44:05
10個臺風紅色預警生效中,廣東正處于臺風“韋帕”“危險半圓”內,警惕:非登陸點也危險

10個臺風紅色預警生效中,廣東正處于臺風“韋帕”“危險半圓”內,警惕:非登陸點也危險

環球網資訊
2025-07-20 15:04:47
逼停119和120的‘暴走團’發聲,群主的解釋,讓大家發現罵對了!

逼停119和120的‘暴走團’發聲,群主的解釋,讓大家發現罵對了!

占理兒
2025-07-19 17:13:24
沈騰林允緋聞再添新料!兩人前后現身偏僻公園,孩子疑似也去了

沈騰林允緋聞再添新料!兩人前后現身偏僻公園,孩子疑似也去了

古希臘掌管月桂的神
2025-07-20 09:53:27
卡車司機帶16歲兒子出車雙雙遇難,親屬:他開車十幾年了

卡車司機帶16歲兒子出車雙雙遇難,親屬:他開車十幾年了

極目新聞
2025-07-20 11:08:16
湖南一高校成立燒烤研究院?多方回應

湖南一高校成立燒烤研究院?多方回應

大象新聞
2025-07-20 07:08:15
獲賠88萬拿55萬的律師終于發聲!案件細節披露,恐怕已經違法了!

獲賠88萬拿55萬的律師終于發聲!案件細節披露,恐怕已經違法了!

青青子衿
2025-07-19 17:48:36
熱搜第一!高鐵不允許吃方便面?12306回應,網友吵翻了

熱搜第一!高鐵不允許吃方便面?12306回應,網友吵翻了

中國基金報
2025-07-20 00:13:10
1.2 萬億世界級水電工程開工,券商周末開啟“戰斗模式”:五大板塊暗藏投資良機

1.2 萬億世界級水電工程開工,券商周末開啟“戰斗模式”:五大板塊暗藏投資良機

每日經濟新聞
2025-07-20 14:47:03
2025-07-20 18:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業行為

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業行為

體育要聞

零成本搞定艾頓斯馬特 湖人還有大動作?

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

數碼
親子
游戲
本地
公開課

數碼要聞

RTX 5050 Ti首次現身!可惜只是個誤會

親子要聞

盧靖姍挺七月孕肚健身,肚子大四肢纖細,透露還有3個月寶寶出生

《馬里奧賽車:世界》制作人員名單暗示DLC可能性

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 平陆县| 托里县| 祥云县| 江都市| 永兴县| 大理市| 齐齐哈尔市| 万盛区| 灌云县| 宜州市| 南郑县| 徐州市| 田东县| 南投县| 临颍县| 巴南区| 茂名市| 福贡县| 乌鲁木齐市| 桂林市| 酒泉市| 老河口市| 伊宁县| 屯昌县| 洛阳市| 河北省| 三台县| 都昌县| 伊宁市| 库尔勒市| 罗田县| 梅州市| 高碑店市| 织金县| 祁阳县| 密云县| 常德市| 昌平区| 杭锦旗| 石首市| 鸡泽县|