編輯 | LbP
改善人類健康將是人工智能 (AI) 的重要目標(biāo)之一。如果能夠有效開發(fā)和部署,大型語(yǔ)言模型(LLM)將有望擴(kuò)大健康信息的獲取渠道,支持臨床醫(yī)生提供高質(zhì)量的醫(yī)療服務(wù),并幫助人們維護(hù)自身和社區(qū)的健康。
為了實(shí)現(xiàn)這一目標(biāo),科學(xué)家需要保證模型既實(shí)用又安全。評(píng)估測(cè)試對(duì)于了解模型在醫(yī)療環(huán)境中的表現(xiàn)至關(guān)重要。盡管學(xué)界和業(yè)界已經(jīng)在這方面投入很大,但是現(xiàn)有大部分評(píng)估基準(zhǔn)并未反映現(xiàn)實(shí)情況。它們往往缺乏針對(duì)專家醫(yī)學(xué)意見的嚴(yán)格驗(yàn)證,使模型的優(yōu)化空間大打折扣。
OpenAI 的 Health AI 團(tuán)隊(duì)推出了 HealthBench:一個(gè)開源基準(zhǔn)測(cè)試,用于衡量醫(yī)療保健領(lǐng)域大型語(yǔ)言模型的性能和安全性。HealthBench 由 262 位在 60 個(gè)國(guó)家/地區(qū)執(zhí)業(yè)的醫(yī)生合作打造,包含 5,000 段真實(shí)的健康對(duì)話,每段對(duì)話都配有醫(yī)生創(chuàng)建的自定義評(píng)分標(biāo)準(zhǔn),用于對(duì)模型的響應(yīng)進(jìn)行評(píng)分。
圖示:參與項(xiàng)目的醫(yī)生所在的國(guó)家與地區(qū)。(來(lái)源:官網(wǎng))
與之前的多項(xiàng)選擇題或簡(jiǎn)答題基準(zhǔn)測(cè)試不同,HealthBench 通過(guò) 48,562 個(gè)獨(dú)特的評(píng)分標(biāo)準(zhǔn)進(jìn)行現(xiàn)實(shí)的開放式評(píng)估,涵蓋多個(gè)健康情境(例如,緊急情況、臨床數(shù)據(jù)轉(zhuǎn)換、全球健康)和行為維度(例如,準(zhǔn)確性、指令遵循、溝通質(zhì)量)。
圖示:HealthBench 示例包含一段對(duì)話以及醫(yī)生針對(duì)該對(duì)話編寫的評(píng)分標(biāo)準(zhǔn)。基于模型的評(píng)分器會(huì)根據(jù)每項(xiàng)標(biāo)準(zhǔn)對(duì)答案進(jìn)行評(píng)分。(來(lái)源:論文)
HealthBench 相關(guān)技術(shù)論文的預(yù)印版本已經(jīng)可以在線查看了。
論文鏈接:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
研究人員評(píng)估了 OpenAI 發(fā)布過(guò)的不同模型,HealthBench 的結(jié)果顯示:其初期階段的模型性能增長(zhǎng)相對(duì)穩(wěn)定平緩(相比之下,GPT-3.5 Turbo 的得分為 16%,而 GPT-4o 的得分為 32%);而近期的模型,性能提升更迅速(o3 得分為 60%)。
小型模型的變化尤為顯著:其中 GPT-4.1 nano 的性能優(yōu)于 2024 年 8 月發(fā)布的 GPT-4o 模型,并且成本降低了 25 倍。
圖示:各模型系列的得分與成本。(來(lái)源:論文)
他們比較了 o3、o4-mini 和 o1 模型在低、中、高推理能力下的測(cè)試時(shí)計(jì)算性能。可以發(fā)現(xiàn),它們?cè)跍y(cè)試時(shí)計(jì)算方面均有所提升。這表明推理模型可能會(huì)在未來(lái)幾個(gè)月內(nèi)進(jìn)一步提升性能。
圖示:k 個(gè)樣本的最差 HealthBench 得分。(來(lái)源:官網(wǎng))
該團(tuán)隊(duì)還展示了用 HealthBench 測(cè)試模型的可靠性。
「可靠性在醫(yī)療保健領(lǐng)域至關(guān)重要——一個(gè)糟糕的回應(yīng)可能抵消許多好的回應(yīng)。我們?cè)?HealthBench 上測(cè)量了 k 個(gè)樣本的最壞情況性能,發(fā)現(xiàn) o3 在 16 個(gè)樣本的最壞情況得分是 GPT-4o 的兩倍多。」研究人員在博客里表示。
此外,該團(tuán)隊(duì)發(fā)布了兩個(gè) HealthBench 版本:
HealthBench Consensus 包含 3,671 個(gè) HealthBench 樣本,其中包含一個(gè)經(jīng)過(guò)嚴(yán)格篩選的標(biāo)準(zhǔn)子集,這些標(biāo)準(zhǔn)已根據(jù)醫(yī)生共識(shí)進(jìn)行了多重驗(yàn)證——只有當(dāng)大多數(shù)醫(yī)生都認(rèn)為該標(biāo)準(zhǔn)適用于某個(gè)樣本時(shí),才會(huì)被納入。它的設(shè)計(jì)目標(biāo)是將模型的錯(cuò)誤率降至接近零。
HealthBench Hard 包含來(lái)自 HealthBench 的 1,000 個(gè)樣本子集,而當(dāng)下的前沿模型難以應(yīng)對(duì)這些樣本,其當(dāng)前最高得分僅 32%。研究人員希望這個(gè)版本的 HealthBench 所帶來(lái)的挑戰(zhàn)與反饋,能夠在后續(xù)的研究中提升模型的性能。
圖示:HealthBench Hard 子集分?jǐn)?shù)。(來(lái)源:官網(wǎng))
為了了解基于模型的評(píng)分系統(tǒng)是否能夠有效評(píng)估評(píng)分標(biāo)準(zhǔn),該團(tuán)隊(duì)邀請(qǐng)醫(yī)生查看 HealthBench Consensus 中的回復(fù),從而評(píng)估回復(fù)是否符合評(píng)分標(biāo)準(zhǔn)。
研究人員使用這些回復(fù)進(jìn)行「元評(píng)估」,即評(píng)估他們基于模型評(píng)分的評(píng)分標(biāo)準(zhǔn)與醫(yī)生判斷的對(duì)應(yīng)程度。為了評(píng)估評(píng)分標(biāo)準(zhǔn)是否符合要求,研究人員確定了基于模型的評(píng)分系統(tǒng)與醫(yī)生意見一致的頻率,以及醫(yī)生之間意見一致的頻率。結(jié)果顯示,模型與醫(yī)生之間的成對(duì)一致性與醫(yī)生個(gè)體之間的成對(duì)一致性相似。
圖示:HealthBench Consensus 的模型-醫(yī)生和醫(yī)生-醫(yī)生協(xié)議。(來(lái)源:論文)
「我們相信健康評(píng)估應(yīng)該值得信賴。我們測(cè)量了基于模型的評(píng)分與 HealthBench Consensus 上醫(yī)生評(píng)分的一致性,發(fā)現(xiàn)模型在 6/7 個(gè)領(lǐng)域中與醫(yī)生的評(píng)分中位數(shù)一致,這表明 HealthBench 評(píng)分與醫(yī)生的判斷相符。」這項(xiàng)研究的主要負(fù)責(zé)人 Karan Singhal 在推文里表示。
該團(tuán)隊(duì)在博文里表示:「像 HealthBench 這樣的測(cè)試基準(zhǔn)是我們持續(xù)研究的重要組成部分,旨在了解模型在高影響環(huán)境下的行為,并確保研究進(jìn)展能夠惠及現(xiàn)實(shí)世界。我們的研究結(jié)果表明,大型語(yǔ)言模型隨著時(shí)間的推移已顯著改進(jìn),并且在我們基準(zhǔn)測(cè)試中對(duì)示例的回復(fù)方面已經(jīng)超越了專家。然而,即使是最先進(jìn)的系統(tǒng)仍有很大的改進(jìn)空間,尤其是在為未指定的查詢尋找必要的上下文以及最壞情況的可靠性方面。我們期待分享未來(lái)模型的成果。」
目前,HealthBench 完整的評(píng)估套件和底層數(shù)據(jù)已經(jīng)公開在了 GitHub 代碼庫(kù)。
開源鏈接:https://github.com/openai/simple-evals
相關(guān)內(nèi)容:
https://openai.com/index/healthbench/
https://x.com/thekaransinghal/status/1921996747947311587
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.