99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

7B模型對(duì)標(biāo)GPT-4o,全球首個(gè)醫(yī)療代碼生成大模型訓(xùn)練平臺(tái)來(lái)了

0
分享至

德克薩斯大學(xué)西南醫(yī)學(xué)中心團(tuán)隊(duì)投稿 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

醫(yī)療AI場(chǎng)景復(fù)雜,需要“又懂醫(yī)療又懂編程”的agent。

但像GPT這樣現(xiàn)成的大模型難以直接部署,該如何突破技術(shù)壁壘?

答案是:打造一個(gè)統(tǒng)一的訓(xùn)練平臺(tái),專(zhuān)門(mén)訓(xùn)練能夠生成醫(yī)療代碼的大模型。

最近,來(lái)自埃默里大學(xué)、佐治亞理工學(xué)院、耶魯大學(xué)和德克薩斯大學(xué)西南醫(yī)學(xué)中心的研究團(tuán)隊(duì),發(fā)布了全球首個(gè)專(zhuān)注于醫(yī)療代碼生成的大模型訓(xùn)練平臺(tái)——MedAgentGym。



該平臺(tái)不僅提供了全面的評(píng)估基準(zhǔn),更重要的是建立了完整的訓(xùn)練生態(tài)系統(tǒng),能夠系統(tǒng)性提升大模型在醫(yī)療領(lǐng)域的代碼生成和推理能力。

實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)MedAgentGym訓(xùn)練的開(kāi)源模型Med-Copilot-7B在多項(xiàng)醫(yī)療編程任務(wù)上達(dá)到了與GPT-4o相當(dāng)?shù)男阅芩健?/strong>

醫(yī)療AI的”編程瓶頸”

當(dāng)前醫(yī)療AI應(yīng)用面臨著一個(gè)關(guān)鍵技術(shù)挑戰(zhàn):如何讓AI系統(tǒng)自動(dòng)生成可靠的醫(yī)療相關(guān)代碼。

無(wú)論是處理電子健康記錄(EHR)查詢、生物信息學(xué)分析,還是構(gòu)建臨床決策支持系統(tǒng),都需要精確的編程能力作為支撐。

然而,現(xiàn)有解決方案存在明顯局限:

商業(yè)模型的現(xiàn)實(shí)困境

- 數(shù)據(jù)隱私風(fēng)險(xiǎn):醫(yī)療數(shù)據(jù)的敏感性使得直接調(diào)用商業(yè)API存在合規(guī)風(fēng)險(xiǎn)
- 成本壓力:大規(guī)模醫(yī)療應(yīng)用的API調(diào)用費(fèi)用難以承受
- 部署限制:無(wú)法在本地或私有云環(huán)境中靈活部署

開(kāi)源模型的能力短板

- 專(zhuān)業(yè)知識(shí)不足:缺乏深度的醫(yī)學(xué)領(lǐng)域知識(shí)
- 編程能力有限:在復(fù)雜的醫(yī)療編程任務(wù)上表現(xiàn)不佳
- 訓(xùn)練資源缺乏:缺少專(zhuān)門(mén)的醫(yī)療代碼訓(xùn)練數(shù)據(jù)和環(huán)境

研究表明,引入編程能力可以顯著提升模型在計(jì)算醫(yī)療推理任務(wù)上的表現(xiàn)。在MIMIC-III、eICU和MedCalcBench等數(shù)據(jù)集中,基于代碼的計(jì)算推理成功率遠(yuǎn)高于傳統(tǒng)的自然語(yǔ)言推理方法。



在MIMIC-III、eICU和MedCalcBench三個(gè)數(shù)據(jù)集中,基于代碼的計(jì)算推理(橙色)成功率遠(yuǎn)高于傳統(tǒng)的敘述式推理(藍(lán)色)。

MedAgentGym:突破性的解決方案



與其他基準(zhǔn)相比,MedAgentGym提供了集成了可執(zhí)行環(huán)境、交互式反饋和任務(wù)隔離運(yùn)行設(shè)施的編碼訓(xùn)練平臺(tái)。為了解決這一系列挑戰(zhàn),MedAgentGym提供了一個(gè)前所未有的綜合性解決方案。該平臺(tái)的核心創(chuàng)新體現(xiàn)在三個(gè)維度:

大規(guī)模真實(shí)醫(yī)療任務(wù)集合

MedAgentGym整合了來(lái)自12個(gè)真實(shí)生物醫(yī)學(xué)場(chǎng)景的72,413個(gè)編程任務(wù)實(shí)例,覆蓋129個(gè)不同類(lèi)別。

任務(wù)范圍橫跨四大核心領(lǐng)域:
- 結(jié)構(gòu)化醫(yī)療信息檢索:如EHR數(shù)據(jù)庫(kù)查詢、臨床記錄分析
- 醫(yī)療數(shù)據(jù)科學(xué):包括統(tǒng)計(jì)分析、臨床計(jì)算等
- 生物信息學(xué)建模:涵蓋序列分析、系統(tǒng)發(fā)育學(xué)等
- 機(jī)器學(xué)習(xí)應(yīng)用:臨床預(yù)測(cè)、風(fēng)險(xiǎn)評(píng)估等

數(shù)據(jù)模態(tài)極其豐富,包含臨床筆記、實(shí)驗(yàn)室報(bào)告、EHR表格、生物序列等多種格式,全面考驗(yàn)?zāi)P偷木C合處理能力。



高效可擴(kuò)展的訓(xùn)練基礎(chǔ)設(shè)施

MedAgentGym在技術(shù)架構(gòu)上實(shí)現(xiàn)了多項(xiàng)突破:

- 容器化隔離環(huán)境:每個(gè)任務(wù)都封裝在獨(dú)立的Docker容器中,預(yù)裝所有依賴項(xiàng),確保環(huán)境安全性和可復(fù)現(xiàn)性
- 交互式反饋機(jī)制:當(dāng)代碼執(zhí)行出錯(cuò)時(shí),系統(tǒng)能將錯(cuò)誤信息轉(zhuǎn)化為結(jié)構(gòu)化的自然語(yǔ)言反饋,幫助模型進(jìn)行調(diào)試和優(yōu)化
- 并行處理能力:集成Ray和Joblib等后端引擎,支持大規(guī)模并行軌跡采樣和訓(xùn)練



在擁有交互式調(diào)試能力時(shí)(藍(lán)色),gpt-4.1-mini模型的性能遠(yuǎn)高于移除該能力后(橙色)的表現(xiàn),證明了MedAgentGym交互式環(huán)境的巨大價(jià)值。

此外,錯(cuò)誤類(lèi)型分析揭示了當(dāng)前模型在復(fù)雜醫(yī)療代碼任務(wù)中面臨的主要挑戰(zhàn)。其中,“陷入循環(huán)”不能成功debug是最主要的錯(cuò)誤類(lèi)型,占比高達(dá)50.39%。

全面的模型評(píng)估體系

研究團(tuán)隊(duì)系統(tǒng)性評(píng)估了超過(guò)25個(gè)主流大模型,包括:

  • API商業(yè)模型:GPT系列
  • 開(kāi)源通用模型:Qwen、LLaMA、Gemma等
  • 專(zhuān)業(yè)編程模型:Qwen2.5-Coder等
  • 醫(yī)療領(lǐng)域模型:HuatuoGPT、MedReason等

評(píng)估結(jié)果揭示了商業(yè)模型與開(kāi)源模型之間的顯著性能差距,為后續(xù)優(yōu)化指明了方向。



MedAgentGym零樣本(Zero-shot)測(cè)試集結(jié)果詳細(xì)列出了超過(guò)25個(gè)前沿大模型在8個(gè)不同任務(wù)上的原始得分,是評(píng)估各模型在醫(yī)療代碼生成領(lǐng)域綜合實(shí)力的核心依據(jù)。

Med-Copilot:開(kāi)源模型的逆襲之路

基于MedAgentGym平臺(tái),研究團(tuán)隊(duì)開(kāi)發(fā)了Med-Copilot系列模型,并取得了突破性成果。

訓(xùn)練策略: 采用兩階段精細(xì)化訓(xùn)練框架:

- 監(jiān)督微調(diào)(SFT):使用2,137個(gè)成功執(zhí)行的代碼軌跡進(jìn)行初始訓(xùn)練
- 強(qiáng)化學(xué)習(xí)優(yōu)化(DPO):通過(guò)偏好優(yōu)化進(jìn)一步提升性能

性能突破

Med-Copilot-7B通過(guò)SFT訓(xùn)練,性能提升36.44%
結(jié)合DPO后,總體性能提升達(dá)到42.47%
最終在MedAgentGym基準(zhǔn)上達(dá)到59.90分,接近GPT-4o的性能水平

關(guān)鍵技術(shù)創(chuàng)新

研究團(tuán)隊(duì)還訓(xùn)練了一個(gè)AI驗(yàn)證器(Verifier),能夠從多次代碼生成嘗試中自動(dòng)識(shí)別最佳解決方案。實(shí)驗(yàn)顯示:

  • 在16次嘗試中,模型的潛在成功率可達(dá)45%
  • AI驗(yàn)證器能夠以42%的準(zhǔn)確率識(shí)別出正確答案
  • 僅有3%的差距證明了驗(yàn)證器的可靠性



僅使用SFT、僅使用DPO以及SFT與DPO結(jié)合的策略對(duì)7B和14B基礎(chǔ)模型性能的提升效果,驗(yàn)證了SFT+DPO兩階段訓(xùn)練框架的有效性。

可持續(xù)進(jìn)化的藍(lán)圖:自我提升與性能擴(kuò)展

MedAgentGym不僅展示了一次性的成功,更揭示了一條可持續(xù)進(jìn)化的清晰路徑。其中的關(guān)鍵,在于一個(gè)強(qiáng)大的“AI裁判”(即驗(yàn)證器,Verifier)。

性能具備高度可擴(kuò)展性

研究團(tuán)隊(duì)讓模型對(duì)同一個(gè)任務(wù)進(jìn)行多次嘗試(最多16次),并讓“AI裁判”從這些嘗試中選出最佳答案。結(jié)果令人驚喜:

- 潛力上限 (Pass@k):在16次嘗試中,模型只要有一次成功,就算解出。在這種理想情況下,成功率從單次嘗試的17%飆升至45%。這說(shuō)明模型本身具備解決問(wèn)題的潛力。
- 實(shí)際表現(xiàn) (Best@k):更關(guān)鍵的是,在“AI裁判”的幫助下,從這16次嘗試中自動(dòng)選出的最佳答案,其實(shí)際成功率高達(dá)42%!

僅有3%的微小差距證明,這個(gè)AI裁判的眼光極其“毒辣”,能夠非??煽康刈R(shí)別出正確的解決方案。這一成果意義重大,因?yàn)樗馕吨@個(gè)驗(yàn)證器已經(jīng)足夠強(qiáng)大,可以作為獎(jiǎng)勵(lì)模型(Reward Model)賦能給PPO、GRPO等更先進(jìn)的在線強(qiáng)化學(xué)習(xí)框架,為訓(xùn)練出更強(qiáng)大的醫(yī)療AI鋪平了道路。

- 無(wú)論是增加訓(xùn)練數(shù)據(jù)量,還是在推理時(shí)增加嘗試次數(shù)(Rollouts),模型的最終成功率都表現(xiàn)出穩(wěn)定、顯著的提升。這為未來(lái)進(jìn)一步提升模型性能指明了方向:更多的計(jì)算投入和數(shù)據(jù)積累,將帶來(lái)更強(qiáng)大的醫(yī)療AI智能體。



推理時(shí)增加嘗試次數(shù)(k)能提升成功率(Pass@k);此外,顯示增加訓(xùn)練數(shù)據(jù)量也能穩(wěn)定提升模型表現(xiàn)。

- 模型可以自我提升:這種強(qiáng)大的驗(yàn)證能力也解鎖了模型的自我提升:AI智能體可以通過(guò)“拒絕采樣+迭代DPO”的自我改進(jìn)循環(huán),利用自己生成的軌跡數(shù)據(jù)進(jìn)行持續(xù)學(xué)習(xí)和優(yōu)化,不斷突破性能上限 (3-5%)。



通過(guò)“拒絕采樣SFT”和兩輪DPO的自我改進(jìn)循環(huán),模型性能得以持續(xù)增長(zhǎng)。

未來(lái)展望:加速醫(yī)療AI的普惠化進(jìn)程

MedAgentGym的發(fā)布,為醫(yī)學(xué)的AI和大語(yǔ)言模型智能體的研究者和開(kāi)發(fā)者提供了一個(gè)強(qiáng)大工具。它通過(guò)提供一個(gè)統(tǒng)一、開(kāi)放、可擴(kuò)展的平臺(tái),填補(bǔ)了醫(yī)療代碼智能體開(kāi)發(fā)領(lǐng)域的關(guān)鍵空白。

通過(guò)將真實(shí)世界的生物醫(yī)學(xué)任務(wù)、高效可復(fù)現(xiàn)的基礎(chǔ)設(shè)施以及對(duì)前沿模型的大規(guī)?;鶞?zhǔn)測(cè)試相結(jié)合,MedAgentGym為推動(dòng)LLM在醫(yī)療領(lǐng)域的應(yīng)用奠定了一個(gè)堅(jiān)實(shí)的基礎(chǔ)。

研究團(tuán)隊(duì)希望,MedAgentGym能夠激發(fā)更多創(chuàng)新,促進(jìn)高效、可靠、臨床接地的AI智能體的發(fā)展,最終為現(xiàn)實(shí)世界的醫(yī)療研究與實(shí)踐提供支持。

有理由相信,在MedAgentGym的助力下,一個(gè)能夠從成功中學(xué)習(xí)、從失敗中進(jìn)化的,更加智能和高效的未來(lái)醫(yī)療新時(shí)代,正加速到來(lái)。

論文鏈接:https://arxiv.org/abs/2506.04405

項(xiàng)目主頁(yè):https://wshi83.github.io/MedAgentGym-Page/

代碼鏈接:https://github.com/wshi83/MedAgentGym

數(shù)據(jù)及模型:https://huggingface.co/MedAgentGym

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
郭晶晶霍啟剛夫婦來(lái)貴州了,誰(shuí)知貴州文旅卻被罵慘了

郭晶晶霍啟剛夫婦來(lái)貴州了,誰(shuí)知貴州文旅卻被罵慘了

阿廢冷眼觀察所
2025-07-13 14:39:05
32歲演員胡一天回應(yīng)送外賣(mài),此前600多天未進(jìn)組引發(fā)熱議

32歲演員胡一天回應(yīng)送外賣(mài),此前600多天未進(jìn)組引發(fā)熱議

可樂(lè)談情感
2025-07-13 18:47:28
又被坑4.9億!交了100多個(gè)男性朋友的史玉柱,處處都是江湖爛賬

又被坑4.9億!交了100多個(gè)男性朋友的史玉柱,處處都是江湖爛賬

毒sir財(cái)經(jīng)
2025-06-22 18:50:00
蔡國(guó)慶怒懟19歲選手4分鐘 ,音樂(lè)理念的碰撞,究竟誰(shuí)對(duì)誰(shuí)錯(cuò)?

蔡國(guó)慶怒懟19歲選手4分鐘 ,音樂(lè)理念的碰撞,究竟誰(shuí)對(duì)誰(shuí)錯(cuò)?

很哥
2025-07-13 15:38:10
中年男人最?lèi)?ài)的車(chē),破產(chǎn)了

中年男人最?lèi)?ài)的車(chē),破產(chǎn)了

融資中國(guó)
2025-07-13 10:55:48
人老了最大的福報(bào)不是子女孝順,是有五張王牌,多數(shù)人輸在第三張

人老了最大的福報(bào)不是子女孝順,是有五張王牌,多數(shù)人輸在第三張

情感大使館
2025-07-12 14:26:24
宋喆近況:隱居縣城,雙眼無(wú)神生活落魄,前妻楊慧早已過(guò)上新生活

宋喆近況:隱居縣城,雙眼無(wú)神生活落魄,前妻楊慧早已過(guò)上新生活

阿廢冷眼觀察所
2025-07-11 12:46:02
2001年紐約高中生劉亦菲,形體訓(xùn)練照曝光,引熱議

2001年紐約高中生劉亦菲,形體訓(xùn)練照曝光,引熱議

溫州市龍灣區(qū)融媒體中心
2025-06-30 23:00:25
省任免、2市市領(lǐng)導(dǎo)新任動(dòng)態(tài)

省任免、2市市領(lǐng)導(dǎo)新任動(dòng)態(tài)

創(chuàng)作者_(dá)GU2947
2025-07-12 20:13:07
看見(jiàn)瘦到皮包骨,向海牙法官投降的杜特爾特,才懂中國(guó)在香港布局

看見(jiàn)瘦到皮包骨,向海牙法官投降的杜特爾特,才懂中國(guó)在香港布局

云舟史策
2025-07-09 08:51:58
都是36歲,威少年薪330萬(wàn),杜蘭特5117萬(wàn),庫(kù)里人生贏家

都是36歲,威少年薪330萬(wàn),杜蘭特5117萬(wàn),庫(kù)里人生贏家

大西體育
2025-07-13 15:42:58
是時(shí)候說(shuō)出真相!打越南時(shí)損失或超乎想象,從犧牲的名將后代便知

是時(shí)候說(shuō)出真相!打越南時(shí)損失或超乎想象,從犧牲的名將后代便知

南書(shū)房
2025-05-22 23:35:04
肯尼迪的兩個(gè)情人:赫本一生被呵護(hù),夢(mèng)露被玩弄到死,差距太大了

肯尼迪的兩個(gè)情人:赫本一生被呵護(hù),夢(mèng)露被玩弄到死,差距太大了

沈言論
2025-07-13 16:55:03
刺激!華為突然官宣:7月12日,全面降價(jià)!

刺激!華為突然官宣:7月12日,全面降價(jià)!

科技堡壘
2025-07-12 12:04:34
加拿大兩架飛機(jī)空中相撞飛行員雙雙身亡,目擊者稱(chēng)聽(tīng)到巨大爆炸聲,現(xiàn)場(chǎng)冒起黑煙

加拿大兩架飛機(jī)空中相撞飛行員雙雙身亡,目擊者稱(chēng)聽(tīng)到巨大爆炸聲,現(xiàn)場(chǎng)冒起黑煙

極目新聞
2025-07-13 12:22:41
林詩(shī)棟輸給張本智和,惹怒王皓,比賽沒(méi)結(jié)束就在場(chǎng)邊訓(xùn)斥林詩(shī)棟

林詩(shī)棟輸給張本智和,惹怒王皓,比賽沒(méi)結(jié)束就在場(chǎng)邊訓(xùn)斥林詩(shī)棟

鳳幻洋
2025-07-13 14:24:24
孫悟空同款泳衣賣(mài)爆了,有商家稱(chēng)“沒(méi)貨,需要等一個(gè)月”,網(wǎng)友:穿上可以直達(dá)龍宮嗎?

孫悟空同款泳衣賣(mài)爆了,有商家稱(chēng)“沒(méi)貨,需要等一個(gè)月”,網(wǎng)友:穿上可以直達(dá)龍宮嗎?

極目新聞
2025-07-12 07:14:16
穩(wěn)準(zhǔn)狠!德國(guó)剛配合老美拆掉中國(guó)設(shè)備,中方不到24小時(shí)“秀肌肉”

穩(wěn)準(zhǔn)狠!德國(guó)剛配合老美拆掉中國(guó)設(shè)備,中方不到24小時(shí)“秀肌肉”

欽點(diǎn)歷史
2025-07-12 16:08:46
阿尼西莫娃創(chuàng)大滿貫最大差距落敗淚灑球場(chǎng),主持人暫停采訪顯溫情

阿尼西莫娃創(chuàng)大滿貫最大差距落敗淚灑球場(chǎng),主持人暫停采訪顯溫情

體育妞世界
2025-07-13 10:12:02
米粉怒了!小米路由器硬件偷偷減配,官方回應(yīng)站得住腳嗎?

米粉怒了!小米路由器硬件偷偷減配,官方回應(yīng)站得住腳嗎?

雷科技
2025-07-13 15:52:54
2025-07-13 22:59:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10851文章數(shù) 176191關(guān)注度
往期回顧 全部

科技要聞

Grok正式登陸特斯拉 "脫韁模式"讓車(chē)主上頭

頭條要聞

媒體:若遼寧艦訪俄 俄羅斯人又將不惜代價(jià)要擁有航母

頭條要聞

媒體:若遼寧艦訪俄 俄羅斯人又將不惜代價(jià)要擁有航母

體育要聞

楊瀚森兩戰(zhàn)20+9+8 隔扣成最大亮點(diǎn)

娛樂(lè)要聞

38歲何潔近照曝光,與老公用餐甜蜜

財(cái)經(jīng)要聞

宗馥莉被三名“同父異母”弟妹起訴

汽車(chē)要聞

小米YU7深度試駕:優(yōu)點(diǎn)很多缺點(diǎn)也很多

態(tài)度原創(chuàng)

手機(jī)
數(shù)碼
家居
旅游
軍事航空

手機(jī)要聞

聯(lián)想moto razr 60水晶版曝光,施華洛世奇聯(lián)名

數(shù)碼要聞

ROG×初音未來(lái)聯(lián)名丨玩+樂(lè)園ROG新品發(fā)布會(huì)燃爆BW2025

家居要聞

生活憧憬 自由浪漫之境

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

軍事要聞

金正恩:朝鮮愿無(wú)條件支持俄羅斯

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 佛坪县| 玛多县| 隆安县| 桐乡市| 错那县| 濉溪县| 嘉义市| 怀仁县| 宁明县| 彰武县| 姚安县| 双城市| 民丰县| 新竹市| 平陆县| 二连浩特市| 普格县| 大英县| 苗栗县| 大竹县| 乐陵市| 通山县| 应城市| 商丘市| 汝城县| 无锡市| 二手房| 自贡市| 克什克腾旗| 浦县| 景东| 磐石市| 犍为县| 宜宾市| 乐陵市| 景德镇市| 通河县| 秀山| 酒泉市| 安顺市| 烟台市|