昨天凌晨1點(diǎn)30分,OpenAI發(fā)布了一個(gè)專門針對(duì)醫(yī)療大模型的測(cè)試評(píng)估集——HealthBench。這一測(cè)試集包含了約5000段核心測(cè)試對(duì)話,全部由來(lái)自全球60個(gè)國(guó)家和地區(qū)的26個(gè)專業(yè)領(lǐng)域、共262名醫(yī)生共同設(shè)計(jì),極大提升了測(cè)試內(nèi)容的難度、真實(shí)性和多樣性。與傳統(tǒng)的單輪答題或選擇題不同,HealthBench采用多輪對(duì)話的形式進(jìn)行評(píng)測(cè)。
數(shù)據(jù)顯示,大型語(yǔ)言模型在醫(yī)療健康領(lǐng)域的表現(xiàn)取得了顯著提升。例如,模型的準(zhǔn)確率從之前GPT-3.5Turbo的16%提升到GPT-4o的32%,再到最新版本的o3達(dá)到60%,整體能力顯著增強(qiáng)。尤其是小型模型方面,GPT-4.1nano不僅在性能上超越了GPT-4o,而且運(yùn)行成本降低了25倍,表現(xiàn)尤為突出。
開(kāi)源地址:https://github.com/openai/simple-evals
HealthBench 是由 OpenAI 介紹的一個(gè)高質(zhì)量醫(yī)療大模型測(cè)試集。該測(cè)試集的數(shù)據(jù)來(lái)源于嚴(yán)格篩選的262名醫(yī)生,這些醫(yī)生是從1021名參與多輪測(cè)試的醫(yī)生中挑選出來(lái)的。數(shù)據(jù)收集過(guò)程中,團(tuán)隊(duì)持續(xù)審核醫(yī)生提交的數(shù)據(jù)質(zhì)量,結(jié)合自動(dòng)化質(zhì)量指標(biāo)和評(píng)分標(biāo)準(zhǔn)監(jiān)控,定期對(duì)醫(yī)生團(tuán)隊(duì)進(jìn)行調(diào)整,以保證數(shù)據(jù)的可靠性和準(zhǔn)確性。
HealthBench 的測(cè)試樣本被分為7個(gè)主題和5個(gè)評(píng)估維度。7個(gè)主題涵蓋了緊急轉(zhuǎn)診、情境尋求、全球健康、健康數(shù)據(jù)任務(wù)、專業(yè)溝通定制、不確定性下的應(yīng)對(duì)策略以及回應(yīng)的深度,每個(gè)主題聚焦于真實(shí)醫(yī)療場(chǎng)景中的關(guān)鍵問(wèn)題,旨在考察模型在不同情境下的表現(xiàn)。5個(gè)評(píng)估維度包括準(zhǔn)確性、完整性、溝通質(zhì)量、情境理解以及對(duì)指令的遵循程度,這些維度幫助對(duì)模型的能力進(jìn)行更全面且細(xì)致的分析。
多數(shù)對(duì)話內(nèi)容是通過(guò)定制的大模型生成,開(kāi)發(fā)團(tuán)隊(duì)與醫(yī)生緊密合作,詳細(xì)覆蓋關(guān)鍵醫(yī)療場(chǎng)景。例如,包含用戶逐步描述緊急醫(yī)療情況、醫(yī)療專家要求總結(jié)臨床筆記以及對(duì)模糊查詢進(jìn)行澄清等情境,這些都被轉(zhuǎn)換成多輪對(duì)話形式。此外,部分?jǐn)?shù)據(jù)來(lái)源于醫(yī)生針對(duì)大語(yǔ)言模型進(jìn)行的紅隊(duì)測(cè)試,旨在發(fā)現(xiàn)模型存在的漏洞和不當(dāng)反應(yīng);還有一部分借助Google發(fā)布的HealthSearchQA評(píng)估集,經(jīng)大模型轉(zhuǎn)換為用戶與模型之間的對(duì)話。生成的對(duì)話會(huì)通過(guò)o1-preview模型進(jìn)行相關(guān)性篩選,以保證內(nèi)容真實(shí)、一致,且聚焦健康相關(guān)話題,沒(méi)有遺漏信息。
制定評(píng)分標(biāo)準(zhǔn)是HealthBench核心環(huán)節(jié)。每條對(duì)話配有醫(yī)生編寫的評(píng)分準(zhǔn)則,涵蓋需要包含的關(guān)鍵信息、溝通清晰度以及對(duì)特定主題常見(jiàn)誤解等方面。評(píng)分尺度從-10到10不等,既對(duì)優(yōu)質(zhì)回答給予獎(jiǎng)勵(lì),也會(huì)懲罰錯(cuò)誤或不合適的內(nèi)容。
評(píng)測(cè)時(shí),模型評(píng)分器會(huì)基于對(duì)話內(nèi)容、模型回復(fù)及評(píng)分標(biāo)準(zhǔn),單獨(dú)判定每項(xiàng)標(biāo)準(zhǔn)是否滿足。滿足時(shí),模型獲得對(duì)應(yīng)分?jǐn)?shù),否則不得分。最終將所有達(dá)標(biāo)部分得分相加,除以該案例最高可能分?jǐn)?shù),計(jì)算出單次對(duì)話的得分。
在醫(yī)生參與環(huán)節(jié),OpenAI邀請(qǐng)他們針對(duì)HealthBench中的任務(wù)撰寫理想回復(fù)。醫(yī)生被分為三組:第一組僅憑自身知識(shí)(可訪問(wèn)互聯(lián)網(wǎng)但不使用AI工具)編寫;第二組參考2024年8-9月的GPT-4o及o1-preview模型生成的多個(gè)回應(yīng),并在此基礎(chǔ)上進(jìn)行優(yōu)化;第三組則以2025年4月發(fā)布的GPT-4.1和o3模型的回復(fù)為參考進(jìn)行撰寫。結(jié)果顯示,參考2024年模型回復(fù)的醫(yī)生能夠在準(zhǔn)確性和完整度上明顯提升響應(yīng)質(zhì)量,但對(duì)2025年表現(xiàn)更佳模型的回復(fù),醫(yī)生難以進(jìn)一步改進(jìn)。具體來(lái)看,針對(duì)2024年模型回復(fù),醫(yī)生改進(jìn)的比例高于惡化(56.2%比39.8%),而對(duì)2025年模型回復(fù)的改進(jìn)與惡化概率幾乎持平(分別為46.8%和47.7%)。值得注意的是,未參考任何模型的醫(yī)生給出的回復(fù)較簡(jiǎn)短,導(dǎo)致在HealthBench評(píng)分中表現(xiàn)不佳,因?yàn)樵u(píng)分與回復(fù)長(zhǎng)度存在一定關(guān)聯(lián)。
關(guān)于大模型的評(píng)測(cè)數(shù)據(jù),元評(píng)估環(huán)節(jié)設(shè)立了34項(xiàng)共識(shí)評(píng)分標(biāo)準(zhǔn)。針對(duì)每個(gè)HealthBench示例,收集多名醫(yī)生對(duì)模型響應(yīng)是否滿足標(biāo)準(zhǔn)的注釋,并將其與模型評(píng)分器輸出作對(duì)比。通過(guò)宏觀F1分?jǐn)?shù)(無(wú)加權(quán)平均各類別F1分?jǐn)?shù))評(píng)估評(píng)分器與醫(yī)生評(píng)價(jià)的一致性,這樣能平衡真陽(yáng)性和假陽(yáng)性的影響。基線采用三種方法:典型醫(yī)生基線(衡量醫(yī)生間評(píng)分一致性)、個(gè)體醫(yī)生基線(記錄單個(gè)醫(yī)生的評(píng)分表現(xiàn))和隨機(jī)基線(根據(jù)經(jīng)驗(yàn)陽(yáng)性率隨機(jī)預(yù)測(cè),F(xiàn)1分?jǐn)?shù)約為0.50)。以GPT-4.1作為主要模型評(píng)分器,結(jié)果顯示其在所有測(cè)試主題上超越了隨機(jī)基線,在7個(gè)主題里5個(gè)超過(guò)了平均醫(yī)生得分,6個(gè)主題中進(jìn)入了醫(yī)生得分的上半?yún)^(qū)間,并且在所有主題中均高于醫(yī)生得分的下三分之一水平。
結(jié)果顯示,作為評(píng)分器的GPT-4.1能夠達(dá)到與專家評(píng)分相當(dāng)?shù)乃健Q芯繄F(tuán)隊(duì)還對(duì)OpenAI于2025年4月發(fā)布的其他模型進(jìn)行了元評(píng)估,其中GPT-4.1的表現(xiàn)最為出色,o4-mini和o3緊隨其后,而GPT-4.1 mini和nano的表現(xiàn)則相對(duì)較弱。這種表現(xiàn)差異可能與GPT-4.1在提示優(yōu)化階段的使用有關(guān)。
另外,團(tuán)隊(duì)多次使用HealthBench對(duì)不同模型進(jìn)行評(píng)測(cè),發(fā)現(xiàn)模型得分的標(biāo)準(zhǔn)差僅約為0.002,說(shuō)明整體評(píng)估結(jié)果波動(dòng)較小,從側(cè)面驗(yàn)證了HealthBench評(píng)測(cè)體系的穩(wěn)定性和可靠性。
我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識(shí)。在這里,您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,讓AI助力您的未來(lái)發(fā)展。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.