德克薩斯大學(xué)西南醫(yī)學(xué)中心團(tuán)隊(duì)投稿 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
醫(yī)療AI場(chǎng)景復(fù)雜,需要“又懂醫(yī)療又懂編程”的agent。
但像GPT這樣現(xiàn)成的大模型難以直接部署,該如何突破技術(shù)壁壘?
答案是:打造一個(gè)統(tǒng)一的訓(xùn)練平臺(tái),專(zhuān)門(mén)訓(xùn)練能夠生成醫(yī)療代碼的大模型。
最近,來(lái)自埃默里大學(xué)、佐治亞理工學(xué)院、耶魯大學(xué)和德克薩斯大學(xué)西南醫(yī)學(xué)中心的研究團(tuán)隊(duì),發(fā)布了全球首個(gè)專(zhuān)注于醫(yī)療代碼生成的大模型訓(xùn)練平臺(tái)——MedAgentGym。
該平臺(tái)不僅提供了全面的評(píng)估基準(zhǔn),更重要的是建立了完整的訓(xùn)練生態(tài)系統(tǒng),能夠系統(tǒng)性提升大模型在醫(yī)療領(lǐng)域的代碼生成和推理能力。
實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)MedAgentGym訓(xùn)練的開(kāi)源模型Med-Copilot-7B在多項(xiàng)醫(yī)療編程任務(wù)上達(dá)到了與GPT-4o相當(dāng)?shù)男阅芩健?/strong>
醫(yī)療AI的”編程瓶頸”
當(dāng)前醫(yī)療AI應(yīng)用面臨著一個(gè)關(guān)鍵技術(shù)挑戰(zhàn):如何讓AI系統(tǒng)自動(dòng)生成可靠的醫(yī)療相關(guān)代碼。
無(wú)論是處理電子健康記錄(EHR)查詢、生物信息學(xué)分析,還是構(gòu)建臨床決策支持系統(tǒng),都需要精確的編程能力作為支撐。
然而,現(xiàn)有解決方案存在明顯局限:
商業(yè)模型的現(xiàn)實(shí)困境
- 數(shù)據(jù)隱私風(fēng)險(xiǎn):醫(yī)療數(shù)據(jù)的敏感性使得直接調(diào)用商業(yè)API存在合規(guī)風(fēng)險(xiǎn)
- 成本壓力:大規(guī)模醫(yī)療應(yīng)用的API調(diào)用費(fèi)用難以承受
- 部署限制:無(wú)法在本地或私有云環(huán)境中靈活部署
開(kāi)源模型的能力短板
- 專(zhuān)業(yè)知識(shí)不足:缺乏深度的醫(yī)學(xué)領(lǐng)域知識(shí)
- 編程能力有限:在復(fù)雜的醫(yī)療編程任務(wù)上表現(xiàn)不佳
- 訓(xùn)練資源缺乏:缺少專(zhuān)門(mén)的醫(yī)療代碼訓(xùn)練數(shù)據(jù)和環(huán)境
研究表明,引入編程能力可以顯著提升模型在計(jì)算醫(yī)療推理任務(wù)上的表現(xiàn)。在MIMIC-III、eICU和MedCalcBench等數(shù)據(jù)集中,基于代碼的計(jì)算推理成功率遠(yuǎn)高于傳統(tǒng)的自然語(yǔ)言推理方法。
在MIMIC-III、eICU和MedCalcBench三個(gè)數(shù)據(jù)集中,基于代碼的計(jì)算推理(橙色)成功率遠(yuǎn)高于傳統(tǒng)的敘述式推理(藍(lán)色)。
MedAgentGym:突破性的解決方案
與其他基準(zhǔn)相比,MedAgentGym提供了集成了可執(zhí)行環(huán)境、交互式反饋和任務(wù)隔離運(yùn)行設(shè)施的編碼訓(xùn)練平臺(tái)。為了解決這一系列挑戰(zhàn),MedAgentGym提供了一個(gè)前所未有的綜合性解決方案。該平臺(tái)的核心創(chuàng)新體現(xiàn)在三個(gè)維度:
大規(guī)模真實(shí)醫(yī)療任務(wù)集合
MedAgentGym整合了來(lái)自12個(gè)真實(shí)生物醫(yī)學(xué)場(chǎng)景的72,413個(gè)編程任務(wù)實(shí)例,覆蓋129個(gè)不同類(lèi)別。
任務(wù)范圍橫跨四大核心領(lǐng)域:
- 結(jié)構(gòu)化醫(yī)療信息檢索:如EHR數(shù)據(jù)庫(kù)查詢、臨床記錄分析
- 醫(yī)療數(shù)據(jù)科學(xué):包括統(tǒng)計(jì)分析、臨床計(jì)算等
- 生物信息學(xué)建模:涵蓋序列分析、系統(tǒng)發(fā)育學(xué)等
- 機(jī)器學(xué)習(xí)應(yīng)用:臨床預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估等
數(shù)據(jù)模態(tài)極其豐富,包含臨床筆記、實(shí)驗(yàn)室報(bào)告、EHR表格、生物序列等多種格式,全面考驗(yàn)?zāi)P偷木C合處理能力。
高效可擴(kuò)展的訓(xùn)練基礎(chǔ)設(shè)施
MedAgentGym在技術(shù)架構(gòu)上實(shí)現(xiàn)了多項(xiàng)突破:
- 容器化隔離環(huán)境:每個(gè)任務(wù)都封裝在獨(dú)立的Docker容器中,預(yù)裝所有依賴項(xiàng),確保環(huán)境安全性和可復(fù)現(xiàn)性
- 交互式反饋機(jī)制:當(dāng)代碼執(zhí)行出錯(cuò)時(shí),系統(tǒng)能將錯(cuò)誤信息轉(zhuǎn)化為結(jié)構(gòu)化的自然語(yǔ)言反饋,幫助模型進(jìn)行調(diào)試和優(yōu)化
- 并行處理能力:集成Ray和Joblib等后端引擎,支持大規(guī)模并行軌跡采樣和訓(xùn)練
在擁有交互式調(diào)試能力時(shí)(藍(lán)色),gpt-4.1-mini模型的性能遠(yuǎn)高于移除該能力后(橙色)的表現(xiàn),證明了MedAgentGym交互式環(huán)境的巨大價(jià)值。
此外,錯(cuò)誤類(lèi)型分析揭示了當(dāng)前模型在復(fù)雜醫(yī)療代碼任務(wù)中面臨的主要挑戰(zhàn)。其中,“陷入循環(huán)”不能成功debug是最主要的錯(cuò)誤類(lèi)型,占比高達(dá)50.39%。
全面的模型評(píng)估體系
研究團(tuán)隊(duì)系統(tǒng)性評(píng)估了超過(guò)25個(gè)主流大模型,包括:
- API商業(yè)模型:GPT系列
- 開(kāi)源通用模型:Qwen、LLaMA、Gemma等
- 專(zhuān)業(yè)編程模型:Qwen2.5-Coder等
- 醫(yī)療領(lǐng)域模型:HuatuoGPT、MedReason等
評(píng)估結(jié)果揭示了商業(yè)模型與開(kāi)源模型之間的顯著性能差距,為后續(xù)優(yōu)化指明了方向。
MedAgentGym零樣本(Zero-shot)測(cè)試集結(jié)果詳細(xì)列出了超過(guò)25個(gè)前沿大模型在8個(gè)不同任務(wù)上的原始得分,是評(píng)估各模型在醫(yī)療代碼生成領(lǐng)域綜合實(shí)力的核心依據(jù)。
Med-Copilot:開(kāi)源模型的逆襲之路
基于MedAgentGym平臺(tái),研究團(tuán)隊(duì)開(kāi)發(fā)了Med-Copilot系列模型,并取得了突破性成果。
訓(xùn)練策略: 采用兩階段精細(xì)化訓(xùn)練框架:
- 監(jiān)督微調(diào)(SFT):使用2,137個(gè)成功執(zhí)行的代碼軌跡進(jìn)行初始訓(xùn)練
- 強(qiáng)化學(xué)習(xí)優(yōu)化(DPO):通過(guò)偏好優(yōu)化進(jìn)一步提升性能
性能突破:
Med-Copilot-7B通過(guò)SFT訓(xùn)練,性能提升36.44%
結(jié)合DPO后,總體性能提升達(dá)到42.47%
最終在MedAgentGym基準(zhǔn)上達(dá)到59.90分,接近GPT-4o的性能水平
關(guān)鍵技術(shù)創(chuàng)新:
研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)AI驗(yàn)證器(Verifier),能夠從多次代碼生成嘗試中自動(dòng)識(shí)別最佳解決方案。實(shí)驗(yàn)顯示:
- 在16次嘗試中,模型的潛在成功率可達(dá)45%
- AI驗(yàn)證器能夠以42%的準(zhǔn)確率識(shí)別出正確答案
- 僅有3%的差距證明了驗(yàn)證器的可靠性
僅使用SFT、僅使用DPO以及SFT與DPO結(jié)合的策略對(duì)7B和14B基礎(chǔ)模型性能的提升效果,驗(yàn)證了SFT+DPO兩階段訓(xùn)練框架的有效性。
可持續(xù)進(jìn)化的藍(lán)圖:自我提升與性能擴(kuò)展
MedAgentGym不僅展示了一次性的成功,更揭示了一條可持續(xù)進(jìn)化的清晰路徑。其中的關(guān)鍵,在于一個(gè)強(qiáng)大的“AI裁判”(即驗(yàn)證器,Verifier)。
性能具備高度可擴(kuò)展性
研究團(tuán)隊(duì)讓模型對(duì)同一個(gè)任務(wù)進(jìn)行多次嘗試(最多16次),并讓“AI裁判”從這些嘗試中選出最佳答案。結(jié)果令人驚喜:
- 潛力上限 (Pass@k):在16次嘗試中,模型只要有一次成功,就算解出。在這種理想情況下,成功率從單次嘗試的17%飆升至45%。這說(shuō)明模型本身具備解決問(wèn)題的潛力。
- 實(shí)際表現(xiàn) (Best@k):更關(guān)鍵的是,在“AI裁判”的幫助下,從這16次嘗試中自動(dòng)選出的最佳答案,其實(shí)際成功率高達(dá)42%!
僅有3%的微小差距證明,這個(gè)AI裁判的眼光極其“毒辣”,能夠非??煽康刈R(shí)別出正確的解決方案。這一成果意義重大,因?yàn)樗馕吨@個(gè)驗(yàn)證器已經(jīng)足夠強(qiáng)大,可以作為獎(jiǎng)勵(lì)模型(Reward Model)賦能給PPO、GRPO等更先進(jìn)的在線強(qiáng)化學(xué)習(xí)框架,為訓(xùn)練出更強(qiáng)大的醫(yī)療AI鋪平了道路。
- 無(wú)論是增加訓(xùn)練數(shù)據(jù)量,還是在推理時(shí)增加嘗試次數(shù)(Rollouts),模型的最終成功率都表現(xiàn)出穩(wěn)定、顯著的提升。這為未來(lái)進(jìn)一步提升模型性能指明了方向:更多的計(jì)算投入和數(shù)據(jù)積累,將帶來(lái)更強(qiáng)大的醫(yī)療AI智能體。
推理時(shí)增加嘗試次數(shù)(k)能提升成功率(Pass@k);此外,顯示增加訓(xùn)練數(shù)據(jù)量也能穩(wěn)定提升模型表現(xiàn)。
- 模型可以自我提升:這種強(qiáng)大的驗(yàn)證能力也解鎖了模型的自我提升:AI智能體可以通過(guò)“拒絕采樣+迭代DPO”的自我改進(jìn)循環(huán),利用自己生成的軌跡數(shù)據(jù)進(jìn)行持續(xù)學(xué)習(xí)和優(yōu)化,不斷突破性能上限 (3-5%)。
通過(guò)“拒絕采樣SFT”和兩輪DPO的自我改進(jìn)循環(huán),模型性能得以持續(xù)增長(zhǎng)。
未來(lái)展望:加速醫(yī)療AI的普惠化進(jìn)程
MedAgentGym的發(fā)布,為醫(yī)學(xué)的AI和大語(yǔ)言模型智能體的研究者和開(kāi)發(fā)者提供了一個(gè)強(qiáng)大工具。它通過(guò)提供一個(gè)統(tǒng)一、開(kāi)放、可擴(kuò)展的平臺(tái),填補(bǔ)了醫(yī)療代碼智能體開(kāi)發(fā)領(lǐng)域的關(guān)鍵空白。
通過(guò)將真實(shí)世界的生物醫(yī)學(xué)任務(wù)、高效可復(fù)現(xiàn)的基礎(chǔ)設(shè)施以及對(duì)前沿模型的大規(guī)?;鶞?zhǔn)測(cè)試相結(jié)合,MedAgentGym為推動(dòng)LLM在醫(yī)療領(lǐng)域的應(yīng)用奠定了一個(gè)堅(jiān)實(shí)的基礎(chǔ)。
研究團(tuán)隊(duì)希望,MedAgentGym能夠激發(fā)更多創(chuàng)新,促進(jìn)高效、可靠、臨床接地的AI智能體的發(fā)展,最終為現(xiàn)實(shí)世界的醫(yī)療研究與實(shí)踐提供支持。
有理由相信,在MedAgentGym的助力下,一個(gè)能夠從成功中學(xué)習(xí)、從失敗中進(jìn)化的,更加智能和高效的未來(lái)醫(yī)療新時(shí)代,正加速到來(lái)。
論文鏈接:https://arxiv.org/abs/2506.04405
項(xiàng)目主頁(yè):https://wshi83.github.io/MedAgentGym-Page/
代碼鏈接:https://github.com/wshi83/MedAgentGym
數(shù)據(jù)及模型:https://huggingface.co/MedAgentGym
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.