網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI深夜開(kāi)源HealthBench，60個(gè)國(guó)家合力開(kāi)發(fā)5000段真實(shí)對(duì)話

2025-05-14 00:11:43　來(lái)源: moonfdd

北京舉報(bào)

分享至

昨天凌晨1點(diǎn)30分，OpenAI發(fā)布了一個(gè)專門針對(duì)醫(yī)療大模型的測(cè)試評(píng)估集——HealthBench。這一測(cè)試集包含了約5000段核心測(cè)試對(duì)話，全部由來(lái)自全球60個(gè)國(guó)家和地區(qū)的26個(gè)專業(yè)領(lǐng)域、共262名醫(yī)生共同設(shè)計(jì)，極大提升了測(cè)試內(nèi)容的難度、真實(shí)性和多樣性。與傳統(tǒng)的單輪答題或選擇題不同，HealthBench采用多輪對(duì)話的形式進(jìn)行評(píng)測(cè)。

數(shù)據(jù)顯示，大型語(yǔ)言模型在醫(yī)療健康領(lǐng)域的表現(xiàn)取得了顯著提升。例如，模型的準(zhǔn)確率從之前GPT-3.5Turbo的16%提升到GPT-4o的32%，再到最新版本的o3達(dá)到60%，整體能力顯著增強(qiáng)。尤其是小型模型方面，GPT-4.1nano不僅在性能上超越了GPT-4o，而且運(yùn)行成本降低了25倍，表現(xiàn)尤為突出。

開(kāi)源地址：https://github.com/openai/simple-evals

HealthBench 是由 OpenAI 介紹的一個(gè)高質(zhì)量醫(yī)療大模型測(cè)試集。該測(cè)試集的數(shù)據(jù)來(lái)源于嚴(yán)格篩選的262名醫(yī)生，這些醫(yī)生是從1021名參與多輪測(cè)試的醫(yī)生中挑選出來(lái)的。數(shù)據(jù)收集過(guò)程中，團(tuán)隊(duì)持續(xù)審核醫(yī)生提交的數(shù)據(jù)質(zhì)量，結(jié)合自動(dòng)化質(zhì)量指標(biāo)和評(píng)分標(biāo)準(zhǔn)監(jiān)控，定期對(duì)醫(yī)生團(tuán)隊(duì)進(jìn)行調(diào)整，以保證數(shù)據(jù)的可靠性和準(zhǔn)確性。

HealthBench 的測(cè)試樣本被分為7個(gè)主題和5個(gè)評(píng)估維度。7個(gè)主題涵蓋了緊急轉(zhuǎn)診、情境尋求、全球健康、健康數(shù)據(jù)任務(wù)、專業(yè)溝通定制、不確定性下的應(yīng)對(duì)策略以及回應(yīng)的深度，每個(gè)主題聚焦于真實(shí)醫(yī)療場(chǎng)景中的關(guān)鍵問(wèn)題，旨在考察模型在不同情境下的表現(xiàn)。5個(gè)評(píng)估維度包括準(zhǔn)確性、完整性、溝通質(zhì)量、情境理解以及對(duì)指令的遵循程度，這些維度幫助對(duì)模型的能力進(jìn)行更全面且細(xì)致的分析。

多數(shù)對(duì)話內(nèi)容是通過(guò)定制的大模型生成，開(kāi)發(fā)團(tuán)隊(duì)與醫(yī)生緊密合作，詳細(xì)覆蓋關(guān)鍵醫(yī)療場(chǎng)景。例如，包含用戶逐步描述緊急醫(yī)療情況、醫(yī)療專家要求總結(jié)臨床筆記以及對(duì)模糊查詢進(jìn)行澄清等情境，這些都被轉(zhuǎn)換成多輪對(duì)話形式。此外，部分?jǐn)?shù)據(jù)來(lái)源于醫(yī)生針對(duì)大語(yǔ)言模型進(jìn)行的紅隊(duì)測(cè)試，旨在發(fā)現(xiàn)模型存在的漏洞和不當(dāng)反應(yīng)；還有一部分借助Google發(fā)布的HealthSearchQA評(píng)估集，經(jīng)大模型轉(zhuǎn)換為用戶與模型之間的對(duì)話。生成的對(duì)話會(huì)通過(guò)o1-preview模型進(jìn)行相關(guān)性篩選，以保證內(nèi)容真實(shí)、一致，且聚焦健康相關(guān)話題，沒(méi)有遺漏信息。

制定評(píng)分標(biāo)準(zhǔn)是HealthBench核心環(huán)節(jié)。每條對(duì)話配有醫(yī)生編寫的評(píng)分準(zhǔn)則，涵蓋需要包含的關(guān)鍵信息、溝通清晰度以及對(duì)特定主題常見(jiàn)誤解等方面。評(píng)分尺度從-10到10不等，既對(duì)優(yōu)質(zhì)回答給予獎(jiǎng)勵(lì)，也會(huì)懲罰錯(cuò)誤或不合適的內(nèi)容。

評(píng)測(cè)時(shí)，模型評(píng)分器會(huì)基于對(duì)話內(nèi)容、模型回復(fù)及評(píng)分標(biāo)準(zhǔn)，單獨(dú)判定每項(xiàng)標(biāo)準(zhǔn)是否滿足。滿足時(shí)，模型獲得對(duì)應(yīng)分?jǐn)?shù)，否則不得分。最終將所有達(dá)標(biāo)部分得分相加，除以該案例最高可能分?jǐn)?shù)，計(jì)算出單次對(duì)話的得分。

在醫(yī)生參與環(huán)節(jié)，OpenAI邀請(qǐng)他們針對(duì)HealthBench中的任務(wù)撰寫理想回復(fù)。醫(yī)生被分為三組：第一組僅憑自身知識(shí)（可訪問(wèn)互聯(lián)網(wǎng)但不使用AI工具）編寫；第二組參考2024年8-9月的GPT-4o及o1-preview模型生成的多個(gè)回應(yīng)，并在此基礎(chǔ)上進(jìn)行優(yōu)化；第三組則以2025年4月發(fā)布的GPT-4.1和o3模型的回復(fù)為參考進(jìn)行撰寫。結(jié)果顯示，參考2024年模型回復(fù)的醫(yī)生能夠在準(zhǔn)確性和完整度上明顯提升響應(yīng)質(zhì)量，但對(duì)2025年表現(xiàn)更佳模型的回復(fù)，醫(yī)生難以進(jìn)一步改進(jìn)。具體來(lái)看，針對(duì)2024年模型回復(fù)，醫(yī)生改進(jìn)的比例高于惡化（56.2%比39.8%），而對(duì)2025年模型回復(fù)的改進(jìn)與惡化概率幾乎持平（分別為46.8%和47.7%）。值得注意的是，未參考任何模型的醫(yī)生給出的回復(fù)較簡(jiǎn)短，導(dǎo)致在HealthBench評(píng)分中表現(xiàn)不佳，因?yàn)樵u(píng)分與回復(fù)長(zhǎng)度存在一定關(guān)聯(lián)。

關(guān)于大模型的評(píng)測(cè)數(shù)據(jù)，元評(píng)估環(huán)節(jié)設(shè)立了34項(xiàng)共識(shí)評(píng)分標(biāo)準(zhǔn)。針對(duì)每個(gè)HealthBench示例，收集多名醫(yī)生對(duì)模型響應(yīng)是否滿足標(biāo)準(zhǔn)的注釋，并將其與模型評(píng)分器輸出作對(duì)比。通過(guò)宏觀F1分?jǐn)?shù)（無(wú)加權(quán)平均各類別F1分?jǐn)?shù)）評(píng)估評(píng)分器與醫(yī)生評(píng)價(jià)的一致性，這樣能平衡真陽(yáng)性和假陽(yáng)性的影響。基線采用三種方法：典型醫(yī)生基線（衡量醫(yī)生間評(píng)分一致性）、個(gè)體醫(yī)生基線（記錄單個(gè)醫(yī)生的評(píng)分表現(xiàn)）和隨機(jī)基線（根據(jù)經(jīng)驗(yàn)陽(yáng)性率隨機(jī)預(yù)測(cè)，F(xiàn)1分?jǐn)?shù)約為0.50）。以GPT-4.1作為主要模型評(píng)分器，結(jié)果顯示其在所有測(cè)試主題上超越了隨機(jī)基線，在7個(gè)主題里5個(gè)超過(guò)了平均醫(yī)生得分，6個(gè)主題中進(jìn)入了醫(yī)生得分的上半?yún)^(qū)間，并且在所有主題中均高于醫(yī)生得分的下三分之一水平。

結(jié)果顯示，作為評(píng)分器的GPT-4.1能夠達(dá)到與專家評(píng)分相當(dāng)?shù)乃健Ｑ芯繄F(tuán)隊(duì)還對(duì)OpenAI于2025年4月發(fā)布的其他模型進(jìn)行了元評(píng)估，其中GPT-4.1的表現(xiàn)最為出色，o4-mini和o3緊隨其后，而GPT-4.1 mini和nano的表現(xiàn)則相對(duì)較弱。這種表現(xiàn)差異可能與GPT-4.1在提示優(yōu)化階段的使用有關(guān)。

另外，團(tuán)隊(duì)多次使用HealthBench對(duì)不同模型進(jìn)行評(píng)測(cè)，發(fā)現(xiàn)模型得分的標(biāo)準(zhǔn)差僅約為0.002，說(shuō)明整體評(píng)估結(jié)果波動(dòng)較小，從側(cè)面驗(yàn)證了HealthBench評(píng)測(cè)體系的穩(wěn)定性和可靠性。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”，并致力于分享全方位的AI知識(shí)。在這里，您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。歡迎關(guān)注“福大大架構(gòu)師每日一題”，讓AI助力您的未來(lái)發(fā)展。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.