99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI開源基準(zhǔn)測(cè)試HealthBench:評(píng)估LLM對(duì)醫(yī)療的作用

0
分享至



編輯 | LbP

改善人類健康將是人工智能 (AI) 的重要目標(biāo)之一。如果能夠有效開發(fā)和部署,大型語(yǔ)言模型(LLM)將有望擴(kuò)大健康信息的獲取渠道,支持臨床醫(yī)生提供高質(zhì)量的醫(yī)療服務(wù),并幫助人們維護(hù)自身和社區(qū)的健康。

為了實(shí)現(xiàn)這一目標(biāo),科學(xué)家需要保證模型既實(shí)用又安全。評(píng)估測(cè)試對(duì)于了解模型在醫(yī)療環(huán)境中的表現(xiàn)至關(guān)重要。盡管學(xué)界和業(yè)界已經(jīng)在這方面投入很大,但是現(xiàn)有大部分評(píng)估基準(zhǔn)并未反映現(xiàn)實(shí)情況。它們往往缺乏針對(duì)專家醫(yī)學(xué)意見的嚴(yán)格驗(yàn)證,使模型的優(yōu)化空間大打折扣。

OpenAI 的 Health AI 團(tuán)隊(duì)推出了 HealthBench:一個(gè)開源基準(zhǔn)測(cè)試,用于衡量醫(yī)療保健領(lǐng)域大型語(yǔ)言模型的性能和安全性。HealthBench 由 262 位在 60 個(gè)國(guó)家/地區(qū)執(zhí)業(yè)的醫(yī)生合作打造,包含 5,000 段真實(shí)的健康對(duì)話,每段對(duì)話都配有醫(yī)生創(chuàng)建的自定義評(píng)分標(biāo)準(zhǔn),用于對(duì)模型的響應(yīng)進(jìn)行評(píng)分。



圖示:參與項(xiàng)目的醫(yī)生所在的國(guó)家與地區(qū)。(來(lái)源:官網(wǎng))

與之前的多項(xiàng)選擇題或簡(jiǎn)答題基準(zhǔn)測(cè)試不同,HealthBench 通過(guò) 48,562 個(gè)獨(dú)特的評(píng)分標(biāo)準(zhǔn)進(jìn)行現(xiàn)實(shí)的開放式評(píng)估,涵蓋多個(gè)健康情境(例如,緊急情況、臨床數(shù)據(jù)轉(zhuǎn)換、全球健康)和行為維度(例如,準(zhǔn)確性、指令遵循、溝通質(zhì)量)。



圖示:HealthBench 示例包含一段對(duì)話以及醫(yī)生針對(duì)該對(duì)話編寫的評(píng)分標(biāo)準(zhǔn)。基于模型的評(píng)分器會(huì)根據(jù)每項(xiàng)標(biāo)準(zhǔn)對(duì)答案進(jìn)行評(píng)分。(來(lái)源:論文)

HealthBench 相關(guān)技術(shù)論文的預(yù)印版本已經(jīng)可以在線查看了。



論文鏈接:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

研究人員評(píng)估了 OpenAI 發(fā)布過(guò)的不同模型,HealthBench 的結(jié)果顯示:其初期階段的模型性能增長(zhǎng)相對(duì)穩(wěn)定平緩(相比之下,GPT-3.5 Turbo 的得分為 16%,而 GPT-4o 的得分為 32%);而近期的模型,性能提升更迅速(o3 得分為 60%)。

小型模型的變化尤為顯著:其中 GPT-4.1 nano 的性能優(yōu)于 2024 年 8 月發(fā)布的 GPT-4o 模型,并且成本降低了 25 倍。



圖示:各模型系列的得分與成本。(來(lái)源:論文)

他們比較了 o3、o4-mini 和 o1 模型在低、中、高推理能力下的測(cè)試時(shí)計(jì)算性能。可以發(fā)現(xiàn),它們?cè)跍y(cè)試時(shí)計(jì)算方面均有所提升。這表明推理模型可能會(huì)在未來(lái)幾個(gè)月內(nèi)進(jìn)一步提升性能。



圖示:k 個(gè)樣本的最差 HealthBench 得分。(來(lái)源:官網(wǎng))

該團(tuán)隊(duì)還展示了用 HealthBench 測(cè)試模型的可靠性。

「可靠性在醫(yī)療保健領(lǐng)域至關(guān)重要——一個(gè)糟糕的回應(yīng)可能抵消許多好的回應(yīng)。我們?cè)?HealthBench 上測(cè)量了 k 個(gè)樣本的最壞情況性能,發(fā)現(xiàn) o3 在 16 個(gè)樣本的最壞情況得分是 GPT-4o 的兩倍多。」研究人員在博客里表示。

此外,該團(tuán)隊(duì)發(fā)布了兩個(gè) HealthBench 版本:

HealthBench Consensus 包含 3,671 個(gè) HealthBench 樣本,其中包含一個(gè)經(jīng)過(guò)嚴(yán)格篩選的標(biāo)準(zhǔn)子集,這些標(biāo)準(zhǔn)已根據(jù)醫(yī)生共識(shí)進(jìn)行了多重驗(yàn)證——只有當(dāng)大多數(shù)醫(yī)生都認(rèn)為該標(biāo)準(zhǔn)適用于某個(gè)樣本時(shí),才會(huì)被納入。它的設(shè)計(jì)目標(biāo)是將模型的錯(cuò)誤率降至接近零。

HealthBench Hard 包含來(lái)自 HealthBench 的 1,000 個(gè)樣本子集,而當(dāng)下的前沿模型難以應(yīng)對(duì)這些樣本,其當(dāng)前最高得分僅 32%。研究人員希望這個(gè)版本的 HealthBench 所帶來(lái)的挑戰(zhàn)與反饋,能夠在后續(xù)的研究中提升模型的性能。



圖示:HealthBench Hard 子集分?jǐn)?shù)。(來(lái)源:官網(wǎng))

為了了解基于模型的評(píng)分系統(tǒng)是否能夠有效評(píng)估評(píng)分標(biāo)準(zhǔn),該團(tuán)隊(duì)邀請(qǐng)醫(yī)生查看 HealthBench Consensus 中的回復(fù),從而評(píng)估回復(fù)是否符合評(píng)分標(biāo)準(zhǔn)。

研究人員使用這些回復(fù)進(jìn)行「元評(píng)估」,即評(píng)估他們基于模型評(píng)分的評(píng)分標(biāo)準(zhǔn)與醫(yī)生判斷的對(duì)應(yīng)程度。為了評(píng)估評(píng)分標(biāo)準(zhǔn)是否符合要求,研究人員確定了基于模型的評(píng)分系統(tǒng)與醫(yī)生意見一致的頻率,以及醫(yī)生之間意見一致的頻率。結(jié)果顯示,模型與醫(yī)生之間的成對(duì)一致性與醫(yī)生個(gè)體之間的成對(duì)一致性相似。



圖示:HealthBench Consensus 的模型-醫(yī)生和醫(yī)生-醫(yī)生協(xié)議。(來(lái)源:論文)

「我們相信健康評(píng)估應(yīng)該值得信賴。我們測(cè)量了基于模型的評(píng)分與 HealthBench Consensus 上醫(yī)生評(píng)分的一致性,發(fā)現(xiàn)模型在 6/7 個(gè)領(lǐng)域中與醫(yī)生的評(píng)分中位數(shù)一致,這表明 HealthBench 評(píng)分與醫(yī)生的判斷相符。」這項(xiàng)研究的主要負(fù)責(zé)人 Karan Singhal 在推文里表示。

該團(tuán)隊(duì)在博文里表示:「像 HealthBench 這樣的測(cè)試基準(zhǔn)是我們持續(xù)研究的重要組成部分,旨在了解模型在高影響環(huán)境下的行為,并確保研究進(jìn)展能夠惠及現(xiàn)實(shí)世界。我們的研究結(jié)果表明,大型語(yǔ)言模型隨著時(shí)間的推移已顯著改進(jìn),并且在我們基準(zhǔn)測(cè)試中對(duì)示例的回復(fù)方面已經(jīng)超越了專家。然而,即使是最先進(jìn)的系統(tǒng)仍有很大的改進(jìn)空間,尤其是在為未指定的查詢尋找必要的上下文以及最壞情況的可靠性方面。我們期待分享未來(lái)模型的成果。」

目前,HealthBench 完整的評(píng)估套件和底層數(shù)據(jù)已經(jīng)公開在了 GitHub 代碼庫(kù)。

開源鏈接:https://github.com/openai/simple-evals

相關(guān)內(nèi)容:

https://openai.com/index/healthbench/

https://x.com/thekaransinghal/status/1921996747947311587

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俗稱“水米子”,30年前江里很多,上岸就死,至今無(wú)法規(guī)模化養(yǎng)殖

俗稱“水米子”,30年前江里很多,上岸就死,至今無(wú)法規(guī)模化養(yǎng)殖

貍貓之一的動(dòng)物圈
2025-06-25 09:59:53
劉畊宏做客鐘麗緹北京豪宅,趕飯點(diǎn)吃六個(gè)菜,家里有倆保姆照顧她

劉畊宏做客鐘麗緹北京豪宅,趕飯點(diǎn)吃六個(gè)菜,家里有倆保姆照顧她

清游說(shuō)娛
2025-06-18 11:14:39
楊瀚森:很喜歡20歲的生日禮物,沒(méi)辜負(fù)19歲的自己,你好NBA!

楊瀚森:很喜歡20歲的生日禮物,沒(méi)辜負(fù)19歲的自己,你好NBA!

林小湜體育頻道
2025-06-26 12:45:55
就在門頭溝!北京唯一國(guó)家一級(jí)重點(diǎn)保護(hù)野生植物,從2株擴(kuò)繁至近500株

就在門頭溝!北京唯一國(guó)家一級(jí)重點(diǎn)保護(hù)野生植物,從2株擴(kuò)繁至近500株

西山大喇叭
2025-06-26 12:29:48
人過(guò)80歲,只剩歸途,聰明的老人,會(huì)提前準(zhǔn)備好這5件事

人過(guò)80歲,只剩歸途,聰明的老人,會(huì)提前準(zhǔn)備好這5件事

小鬼頭體育
2025-06-26 09:51:38
中國(guó)女排比賽推遲!原因讓人無(wú)奈,唯一女教練帶隊(duì),訓(xùn)練可以暫停

中國(guó)女排比賽推遲!原因讓人無(wú)奈,唯一女教練帶隊(duì),訓(xùn)練可以暫停

跑者排球視角
2025-06-25 23:56:08
尼日爾暫緩 4 億美元款項(xiàng)并調(diào)整中企人員,我方早有預(yù)案妥善應(yīng)對(duì)

尼日爾暫緩 4 億美元款項(xiàng)并調(diào)整中企人員,我方早有預(yù)案妥善應(yīng)對(duì)

星宇共鳴
2025-05-21 17:58:05
警方通告!常州又一家公司暴雷!

警方通告!常州又一家公司暴雷!

常州大喇叭
2025-06-25 15:24:07
“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

有故事的人
2025-06-25 06:32:14
2025高考狀元大洗牌:河南與湖南的傳統(tǒng)強(qiáng)校均顆粒無(wú)收,太意外!

2025高考狀元大洗牌:河南與湖南的傳統(tǒng)強(qiáng)校均顆粒無(wú)收,太意外!

涵豆說(shuō)娛
2025-06-26 10:40:15
獲D評(píng)分遭看衰,為何開拓者敢16順位跳選楊瀚森?5大理由給出答案

獲D評(píng)分遭看衰,為何開拓者敢16順位跳選楊瀚森?5大理由給出答案

鍋?zhàn)踊@球
2025-06-26 11:41:52
開拓者GM羅寧:我們關(guān)注楊瀚森很久了,16號(hào)簽再不選后面可就不保險(xiǎn)了!

開拓者GM羅寧:我們關(guān)注楊瀚森很久了,16號(hào)簽再不選后面可就不保險(xiǎn)了!

雷速體育
2025-06-26 15:12:11
曝王政源已開始退贓款,母親出面,請(qǐng)求簽和解協(xié)議,受害者曬轉(zhuǎn)賬

曝王政源已開始退贓款,母親出面,請(qǐng)求簽和解協(xié)議,受害者曬轉(zhuǎn)賬

大笑江湖史
2025-06-26 11:28:00
戰(zhàn)火未歇經(jīng)濟(jì)先崩:以色列超10萬(wàn)家公司已倒閉

戰(zhàn)火未歇經(jīng)濟(jì)先崩:以色列超10萬(wàn)家公司已倒閉

敏睿縱覽
2025-06-23 16:10:02
亞足聯(lián)處罰中國(guó)足協(xié)!

亞足聯(lián)處罰中國(guó)足協(xié)!

FM93浙江交通之聲
2025-06-25 20:35:59
小楊哥倒臺(tái)竟是國(guó)家出手,三只羊迎來(lái)離職風(fēng)波!內(nèi)部紛紛爆料

小楊哥倒臺(tái)竟是國(guó)家出手,三只羊迎來(lái)離職風(fēng)波!內(nèi)部紛紛爆料

觀察鑒娛
2025-06-24 10:38:30
國(guó)家電力局長(zhǎng)意外被捕!居然早成美國(guó)間諜,被捕時(shí)叫囂我是美國(guó)人,被判5年監(jiān)禁后驅(qū)離出境

國(guó)家電力局長(zhǎng)意外被捕!居然早成美國(guó)間諜,被捕時(shí)叫囂我是美國(guó)人,被判5年監(jiān)禁后驅(qū)離出境

大白聊IT
2025-06-14 22:40:59
楊瀚森第16順位被選中!NBA高管:這是我見過(guò)的最瘋狂的選秀

楊瀚森第16順位被選中!NBA高管:這是我見過(guò)的最瘋狂的選秀

雷速體育
2025-06-26 10:25:29
東風(fēng)15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風(fēng)

東風(fēng)15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風(fēng)

科學(xué)知識(shí)點(diǎn)秀
2025-06-26 07:00:13
Skip:當(dāng)初馬威在湖人體檢未通過(guò),實(shí)屬湖人管理層臨時(shí)變卦

Skip:當(dāng)初馬威在湖人體檢未通過(guò),實(shí)屬湖人管理層臨時(shí)變卦

雷速體育
2025-06-26 16:28:13
2025-06-26 17:07:00
ScienceAI incentive-icons
ScienceAI
關(guān)注人工智能與其他前沿技術(shù)
983文章數(shù) 214關(guān)注度
往期回顧 全部

科技要聞

奧特曼剛警告完 Meta就挖走OpenAI三名大將

頭條要聞

媒體:英國(guó)公布針對(duì)中國(guó)的審計(jì)報(bào)告 對(duì)華“既要又要”

頭條要聞

媒體:英國(guó)公布針對(duì)中國(guó)的審計(jì)報(bào)告 對(duì)華“既要又要”

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊(duì)

娛樂(lè)要聞

倪妮,怎么突然下桌了?

財(cái)經(jīng)要聞

免除蘇寧易購(gòu)5億債務(wù)的神秘人是誰(shuí)?

汽車要聞

奇瑞最大轎車 風(fēng)云A9L把VIP待遇和續(xù)航焦慮一起解決

態(tài)度原創(chuàng)

游戲
教育
親子
數(shù)碼
公開課

CS2明星選手喜提保時(shí)捷911:車牌"幀數(shù)"很高很電競(jìng)

教育要聞

文科沒(méi)用?回答一下關(guān)于選專業(yè)的幾個(gè)問(wèn)題

親子要聞

用兒歌教孩子說(shuō)“不”,開展性教育有趣比說(shuō)教更管用|新京報(bào)快評(píng)

數(shù)碼要聞

田亮空降TCL奧運(yùn)中國(guó)行重慶站:體驗(yàn)眾多黑科技

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 清苑县| 上犹县| 清水河县| 舒城县| 通海县| 云林县| 榆林市| 胶南市| 中西区| 集贤县| 霍山县| 云林县| 海丰县| 汉源县| 江口县| 贵定县| 定兴县| 兴文县| 乐昌市| 滁州市| 松江区| 饶河县| 和硕县| 康马县| 东方市| 赣榆县| 黔西县| 山阴县| 元朗区| 平顶山市| 张家川| 大冶市| 遵化市| 阿拉尔市| 林周县| 枣强县| 弥勒县| 建平县| 杂多县| 芦溪县| 娱乐|