99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

7B模型對標GPT-4o,全球首個醫療代碼生成大模型訓練平臺來了

0
分享至

德克薩斯大學西南醫學中心團隊投稿 發自 凹非寺
量子位 | 公眾號 QbitAI

醫療AI場景復雜,需要“又懂醫療又懂編程”的agent。

但像GPT這樣現成的大模型難以直接部署,該如何突破技術壁壘?

答案是:打造一個統一的訓練平臺,專門訓練能夠生成醫療代碼的大模型。

最近,來自埃默里大學、佐治亞理工學院、耶魯大學和德克薩斯大學西南醫學中心的研究團隊,發布了全球首個專注于醫療代碼生成的大模型訓練平臺——MedAgentGym。



該平臺不僅提供了全面的評估基準,更重要的是建立了完整的訓練生態系統,能夠系統性提升大模型在醫療領域的代碼生成和推理能力。

實驗結果表明,經過MedAgentGym訓練的開源模型Med-Copilot-7B在多項醫療編程任務上達到了與GPT-4o相當的性能水平。

醫療AI的”編程瓶頸”

當前醫療AI應用面臨著一個關鍵技術挑戰:如何讓AI系統自動生成可靠的醫療相關代碼。

無論是處理電子健康記錄(EHR)查詢、生物信息學分析,還是構建臨床決策支持系統,都需要精確的編程能力作為支撐。

然而,現有解決方案存在明顯局限:

商業模型的現實困境

- 數據隱私風險:醫療數據的敏感性使得直接調用商業API存在合規風險
- 成本壓力:大規模醫療應用的API調用費用難以承受
- 部署限制:無法在本地或私有云環境中靈活部署

開源模型的能力短板

- 專業知識不足:缺乏深度的醫學領域知識
- 編程能力有限:在復雜的醫療編程任務上表現不佳
- 訓練資源缺乏:缺少專門的醫療代碼訓練數據和環境

研究表明,引入編程能力可以顯著提升模型在計算醫療推理任務上的表現。在MIMIC-III、eICU和MedCalcBench等數據集中,基于代碼的計算推理成功率遠高于傳統的自然語言推理方法。



在MIMIC-III、eICU和MedCalcBench三個數據集中,基于代碼的計算推理(橙色)成功率遠高于傳統的敘述式推理(藍色)。

MedAgentGym:突破性的解決方案



與其他基準相比,MedAgentGym提供了集成了可執行環境、交互式反饋和任務隔離運行設施的編碼訓練平臺。為了解決這一系列挑戰,MedAgentGym提供了一個前所未有的綜合性解決方案。該平臺的核心創新體現在三個維度:

大規模真實醫療任務集合

MedAgentGym整合了來自12個真實生物醫學場景的72,413個編程任務實例,覆蓋129個不同類別。

任務范圍橫跨四大核心領域:
- 結構化醫療信息檢索:如EHR數據庫查詢、臨床記錄分析
- 醫療數據科學:包括統計分析、臨床計算等
- 生物信息學建模:涵蓋序列分析、系統發育學等
- 機器學習應用:臨床預測、風險評估等

數據模態極其豐富,包含臨床筆記、實驗室報告、EHR表格、生物序列等多種格式,全面考驗模型的綜合處理能力。



高效可擴展的訓練基礎設施

MedAgentGym在技術架構上實現了多項突破:

- 容器化隔離環境:每個任務都封裝在獨立的Docker容器中,預裝所有依賴項,確保環境安全性和可復現性
- 交互式反饋機制:當代碼執行出錯時,系統能將錯誤信息轉化為結構化的自然語言反饋,幫助模型進行調試和優化
- 并行處理能力:集成Ray和Joblib等后端引擎,支持大規模并行軌跡采樣和訓練



在擁有交互式調試能力時(藍色),gpt-4.1-mini模型的性能遠高于移除該能力后(橙色)的表現,證明了MedAgentGym交互式環境的巨大價值。

此外,錯誤類型分析揭示了當前模型在復雜醫療代碼任務中面臨的主要挑戰。其中,“陷入循環”不能成功debug是最主要的錯誤類型,占比高達50.39%。

全面的模型評估體系

研究團隊系統性評估了超過25個主流大模型,包括:

  • API商業模型:GPT系列
  • 開源通用模型:Qwen、LLaMA、Gemma等
  • 專業編程模型:Qwen2.5-Coder等
  • 醫療領域模型:HuatuoGPT、MedReason等

評估結果揭示了商業模型與開源模型之間的顯著性能差距,為后續優化指明了方向。



MedAgentGym零樣本(Zero-shot)測試集結果詳細列出了超過25個前沿大模型在8個不同任務上的原始得分,是評估各模型在醫療代碼生成領域綜合實力的核心依據。

Med-Copilot:開源模型的逆襲之路

基于MedAgentGym平臺,研究團隊開發了Med-Copilot系列模型,并取得了突破性成果。

訓練策略: 采用兩階段精細化訓練框架:

- 監督微調(SFT):使用2,137個成功執行的代碼軌跡進行初始訓練
- 強化學習優化(DPO):通過偏好優化進一步提升性能

性能突破

Med-Copilot-7B通過SFT訓練,性能提升36.44%
結合DPO后,總體性能提升達到42.47%
最終在MedAgentGym基準上達到59.90分,接近GPT-4o的性能水平

關鍵技術創新

研究團隊還訓練了一個AI驗證器(Verifier),能夠從多次代碼生成嘗試中自動識別最佳解決方案。實驗顯示:

  • 在16次嘗試中,模型的潛在成功率可達45%
  • AI驗證器能夠以42%的準確率識別出正確答案
  • 僅有3%的差距證明了驗證器的可靠性



僅使用SFT、僅使用DPO以及SFT與DPO結合的策略對7B和14B基礎模型性能的提升效果,驗證了SFT+DPO兩階段訓練框架的有效性。

可持續進化的藍圖:自我提升與性能擴展

MedAgentGym不僅展示了一次性的成功,更揭示了一條可持續進化的清晰路徑。其中的關鍵,在于一個強大的“AI裁判”(即驗證器,Verifier)。

性能具備高度可擴展性

研究團隊讓模型對同一個任務進行多次嘗試(最多16次),并讓“AI裁判”從這些嘗試中選出最佳答案。結果令人驚喜:

- 潛力上限 (Pass@k):在16次嘗試中,模型只要有一次成功,就算解出。在這種理想情況下,成功率從單次嘗試的17%飆升至45%。這說明模型本身具備解決問題的潛力。
- 實際表現 (Best@k):更關鍵的是,在“AI裁判”的幫助下,從這16次嘗試中自動選出的最佳答案,其實際成功率高達42%!

僅有3%的微小差距證明,這個AI裁判的眼光極其“毒辣”,能夠非??煽康刈R別出正確的解決方案。這一成果意義重大,因為它意味著這個驗證器已經足夠強大,可以作為獎勵模型(Reward Model)賦能給PPO、GRPO等更先進的在線強化學習框架,為訓練出更強大的醫療AI鋪平了道路。

- 無論是增加訓練數據量,還是在推理時增加嘗試次數(Rollouts),模型的最終成功率都表現出穩定、顯著的提升。這為未來進一步提升模型性能指明了方向:更多的計算投入和數據積累,將帶來更強大的醫療AI智能體。



推理時增加嘗試次數(k)能提升成功率(Pass@k);此外,顯示增加訓練數據量也能穩定提升模型表現。

- 模型可以自我提升:這種強大的驗證能力也解鎖了模型的自我提升:AI智能體可以通過“拒絕采樣+迭代DPO”的自我改進循環,利用自己生成的軌跡數據進行持續學習和優化,不斷突破性能上限 (3-5%)。



通過“拒絕采樣SFT”和兩輪DPO的自我改進循環,模型性能得以持續增長。

未來展望:加速醫療AI的普惠化進程

MedAgentGym的發布,為醫學的AI和大語言模型智能體的研究者和開發者提供了一個強大工具。它通過提供一個統一、開放、可擴展的平臺,填補了醫療代碼智能體開發領域的關鍵空白。

通過將真實世界的生物醫學任務、高效可復現的基礎設施以及對前沿模型的大規?;鶞蕼y試相結合,MedAgentGym為推動LLM在醫療領域的應用奠定了一個堅實的基礎。

研究團隊希望,MedAgentGym能夠激發更多創新,促進高效、可靠、臨床接地的AI智能體的發展,最終為現實世界的醫療研究與實踐提供支持。

有理由相信,在MedAgentGym的助力下,一個能夠從成功中學習、從失敗中進化的,更加智能和高效的未來醫療新時代,正加速到來。

論文鏈接:https://arxiv.org/abs/2506.04405

項目主頁:https://wshi83.github.io/MedAgentGym-Page/

代碼鏈接:https://github.com/wshi83/MedAgentGym

數據及模型:https://huggingface.co/MedAgentGym

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
沒有他,中國歷史或被改寫,他被判死刑,毛主席大怒:立即放人

沒有他,中國歷史或被改寫,他被判死刑,毛主席大怒:立即放人

小莜讀史
2025-07-13 20:06:43
中國封禁了1000年的山,從唐朝開始下禁令:進入者,斬立決!

中國封禁了1000年的山,從唐朝開始下禁令:進入者,斬立決!

尚曦讀史
2025-06-21 08:37:15
周恩來宣讀干部任免名單后,傅作義高喊1句話,眾人聽后拍手稱贊

周恩來宣讀干部任免名單后,傅作義高喊1句話,眾人聽后拍手稱贊

阿器談史
2025-07-18 18:56:33
認慫了!史曉燕為杜建英發聲被罵上熱搜!本人發聲:大家誤會了

認慫了!史曉燕為杜建英發聲被罵上熱搜!本人發聲:大家誤會了

奇思妙想草葉君
2025-07-19 22:47:12
這兩件事一起看,已不是諷刺的問題!

這兩件事一起看,已不是諷刺的問題!

走讀新生
2025-07-18 17:55:53
女籃三大動態:王思雨情緒難掩,宮魯鳴確定留任,李緣何去何從成懸念!

女籃三大動態:王思雨情緒難掩,宮魯鳴確定留任,李緣何去何從成懸念!

海闊山遙YAO
2025-07-20 19:32:20
網傳大明玉遺體下游17公里找到,芯語卡在石縫,早前有個趴石頭上

網傳大明玉遺體下游17公里找到,芯語卡在石縫,早前有個趴石頭上

凡知
2025-07-19 10:50:20
15萬獎金張繼科杯冠軍,黃友政親弟+愛徒包攬雙冠,引爆乒壇!

15萬獎金張繼科杯冠軍,黃友政親弟+愛徒包攬雙冠,引爆乒壇!

冷桂零落
2025-07-20 07:24:51
47歲黃奕與Rain同框美翻,網友:韓劇女主既視感,求合作拍戲!

47歲黃奕與Rain同框美翻,網友:韓劇女主既視感,求合作拍戲!

粵語經典歌單
2025-07-20 13:52:38
中國男籃官宣:曾凡博恢復未達標無緣亞洲杯 張鎮麟也缺席拉警報

中國男籃官宣:曾凡博恢復未達標無緣亞洲杯 張鎮麟也缺席拉警報

醉臥浮生
2025-07-20 16:46:10
A股:三個信息來了,明天,周一或將這樣走!

A股:三個信息來了,明天,周一或將這樣走!

明心
2025-07-20 15:57:27
1950年,湖南一姑娘進京尋父,門衛反復詢問:你爸爸真是羅政委

1950年,湖南一姑娘進京尋父,門衛反復詢問:你爸爸真是羅政委

一只番茄魚
2025-07-20 16:50:53
四川臭名昭著的6所大學,畢業證竟如廢紙,學生需警惕

四川臭名昭著的6所大學,畢業證竟如廢紙,學生需警惕

男女那點事兒兒
2025-07-20 14:16:15
9000萬!恭喜利物浦!夏窗第六簽誕生,23歲新星高價加盟

9000萬!恭喜利物浦!夏窗第六簽誕生,23歲新星高價加盟

體育小龍說
2025-07-20 14:31:58
我被撤銷縣委書記職務后,回到老家給父親過生日,全村只來一個人

我被撤銷縣委書記職務后,回到老家給父親過生日,全村只來一個人

喬生桂
2025-07-17 12:14:52
癌細胞最“恨”的10種食物!第3種很多人天天吃卻不知它能抗癌

癌細胞最“恨”的10種食物!第3種很多人天天吃卻不知它能抗癌

人民日報健康客戶端
2025-07-19 18:14:02
悲催!一套房3年沒了300萬,一南京業主哭訴,想掙300萬比登天難

悲催!一套房3年沒了300萬,一南京業主哭訴,想掙300萬比登天難

火山詩話
2025-07-20 11:09:11
郭德綱全家現身上海,王惠看著200斤了,郭汾陽右臉抽搐表情很怪

郭德綱全家現身上海,王惠看著200斤了,郭汾陽右臉抽搐表情很怪

小嵩
2025-07-20 08:14:30
臺灣名嘴鄭麗文放話,大陸武統會倒退30年,誰給她的底氣?

臺灣名嘴鄭麗文放話,大陸武統會倒退30年,誰給她的底氣?

流年拾光
2025-07-20 18:13:13
“荷澤”艦完成海試,現已交付北海艦隊,驅逐艦第10支隊實力大增

“荷澤”艦完成海試,現已交付北海艦隊,驅逐艦第10支隊實力大增

國平視野
2025-07-20 16:17:35
2025-07-20 20:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

健康
家居
親子
手機
旅游

呼吸科專家破解呼吸道九大謠言!

家居要聞

簡構智居 現代功能美學

親子要聞

長沙才待幾天,雙胞胎小哥倆已經念起媽媽了

手機要聞

明日發布,OPPO K13 Turbo 系列手機搭載疾風散熱引擎

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 肥乡县| 大洼县| 紫阳县| 曲阳县| 兴业县| 湘乡市| 方城县| 黄梅县| 九龙城区| 宁陕县| 新郑市| 鹤峰县| 新乡市| 凤阳县| 柳州市| 麟游县| 梅河口市| 冀州市| 肥乡县| 香河县| 聊城市| 西平县| 巩义市| 都昌县| 海晏县| 饶河县| 山阳县| 肃宁县| 开江县| 娱乐| 延庆县| 乐昌市| 西安市| 长寿区| 舒城县| 泊头市| 水城县| 永兴县| 邢台市| 潍坊市| 芜湖市|