99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI深夜開(kāi)源HealthBench,60個(gè)國(guó)家合力開(kāi)發(fā)5000段真實(shí)對(duì)話

0
分享至

昨天凌晨1點(diǎn)30分,OpenAI發(fā)布了一個(gè)專門針對(duì)醫(yī)療大模型的測(cè)試評(píng)估集——HealthBench。這一測(cè)試集包含了約5000段核心測(cè)試對(duì)話,全部由來(lái)自全球60個(gè)國(guó)家和地區(qū)的26個(gè)專業(yè)領(lǐng)域、共262名醫(yī)生共同設(shè)計(jì),極大提升了測(cè)試內(nèi)容的難度、真實(shí)性和多樣性。與傳統(tǒng)的單輪答題或選擇題不同,HealthBench采用多輪對(duì)話的形式進(jìn)行評(píng)測(cè)。

數(shù)據(jù)顯示,大型語(yǔ)言模型在醫(yī)療健康領(lǐng)域的表現(xiàn)取得了顯著提升。例如,模型的準(zhǔn)確率從之前GPT-3.5Turbo的16%提升到GPT-4o的32%,再到最新版本的o3達(dá)到60%,整體能力顯著增強(qiáng)。尤其是小型模型方面,GPT-4.1nano不僅在性能上超越了GPT-4o,而且運(yùn)行成本降低了25倍,表現(xiàn)尤為突出。


開(kāi)源地址:https://github.com/openai/simple-evals

HealthBench 是由 OpenAI 介紹的一個(gè)高質(zhì)量醫(yī)療大模型測(cè)試集。該測(cè)試集的數(shù)據(jù)來(lái)源于嚴(yán)格篩選的262名醫(yī)生,這些醫(yī)生是從1021名參與多輪測(cè)試的醫(yī)生中挑選出來(lái)的。數(shù)據(jù)收集過(guò)程中,團(tuán)隊(duì)持續(xù)審核醫(yī)生提交的數(shù)據(jù)質(zhì)量,結(jié)合自動(dòng)化質(zhì)量指標(biāo)和評(píng)分標(biāo)準(zhǔn)監(jiān)控,定期對(duì)醫(yī)生團(tuán)隊(duì)進(jìn)行調(diào)整,以保證數(shù)據(jù)的可靠性和準(zhǔn)確性。

HealthBench 的測(cè)試樣本被分為7個(gè)主題和5個(gè)評(píng)估維度。7個(gè)主題涵蓋了緊急轉(zhuǎn)診、情境尋求、全球健康、健康數(shù)據(jù)任務(wù)、專業(yè)溝通定制、不確定性下的應(yīng)對(duì)策略以及回應(yīng)的深度,每個(gè)主題聚焦于真實(shí)醫(yī)療場(chǎng)景中的關(guān)鍵問(wèn)題,旨在考察模型在不同情境下的表現(xiàn)。5個(gè)評(píng)估維度包括準(zhǔn)確性、完整性、溝通質(zhì)量、情境理解以及對(duì)指令的遵循程度,這些維度幫助對(duì)模型的能力進(jìn)行更全面且細(xì)致的分析。


多數(shù)對(duì)話內(nèi)容是通過(guò)定制的大模型生成,開(kāi)發(fā)團(tuán)隊(duì)與醫(yī)生緊密合作,詳細(xì)覆蓋關(guān)鍵醫(yī)療場(chǎng)景。例如,包含用戶逐步描述緊急醫(yī)療情況、醫(yī)療專家要求總結(jié)臨床筆記以及對(duì)模糊查詢進(jìn)行澄清等情境,這些都被轉(zhuǎn)換成多輪對(duì)話形式。此外,部分?jǐn)?shù)據(jù)來(lái)源于醫(yī)生針對(duì)大語(yǔ)言模型進(jìn)行的紅隊(duì)測(cè)試,旨在發(fā)現(xiàn)模型存在的漏洞和不當(dāng)反應(yīng);還有一部分借助Google發(fā)布的HealthSearchQA評(píng)估集,經(jīng)大模型轉(zhuǎn)換為用戶與模型之間的對(duì)話。生成的對(duì)話會(huì)通過(guò)o1-preview模型進(jìn)行相關(guān)性篩選,以保證內(nèi)容真實(shí)、一致,且聚焦健康相關(guān)話題,沒(méi)有遺漏信息。

制定評(píng)分標(biāo)準(zhǔn)是HealthBench核心環(huán)節(jié)。每條對(duì)話配有醫(yī)生編寫的評(píng)分準(zhǔn)則,涵蓋需要包含的關(guān)鍵信息、溝通清晰度以及對(duì)特定主題常見(jiàn)誤解等方面。評(píng)分尺度從-10到10不等,既對(duì)優(yōu)質(zhì)回答給予獎(jiǎng)勵(lì),也會(huì)懲罰錯(cuò)誤或不合適的內(nèi)容。

評(píng)測(cè)時(shí),模型評(píng)分器會(huì)基于對(duì)話內(nèi)容、模型回復(fù)及評(píng)分標(biāo)準(zhǔn),單獨(dú)判定每項(xiàng)標(biāo)準(zhǔn)是否滿足。滿足時(shí),模型獲得對(duì)應(yīng)分?jǐn)?shù),否則不得分。最終將所有達(dá)標(biāo)部分得分相加,除以該案例最高可能分?jǐn)?shù),計(jì)算出單次對(duì)話的得分。

在醫(yī)生參與環(huán)節(jié),OpenAI邀請(qǐng)他們針對(duì)HealthBench中的任務(wù)撰寫理想回復(fù)。醫(yī)生被分為三組:第一組僅憑自身知識(shí)(可訪問(wèn)互聯(lián)網(wǎng)但不使用AI工具)編寫;第二組參考2024年8-9月的GPT-4o及o1-preview模型生成的多個(gè)回應(yīng),并在此基礎(chǔ)上進(jìn)行優(yōu)化;第三組則以2025年4月發(fā)布的GPT-4.1和o3模型的回復(fù)為參考進(jìn)行撰寫。結(jié)果顯示,參考2024年模型回復(fù)的醫(yī)生能夠在準(zhǔn)確性和完整度上明顯提升響應(yīng)質(zhì)量,但對(duì)2025年表現(xiàn)更佳模型的回復(fù),醫(yī)生難以進(jìn)一步改進(jìn)。具體來(lái)看,針對(duì)2024年模型回復(fù),醫(yī)生改進(jìn)的比例高于惡化(56.2%比39.8%),而對(duì)2025年模型回復(fù)的改進(jìn)與惡化概率幾乎持平(分別為46.8%和47.7%)。值得注意的是,未參考任何模型的醫(yī)生給出的回復(fù)較簡(jiǎn)短,導(dǎo)致在HealthBench評(píng)分中表現(xiàn)不佳,因?yàn)樵u(píng)分與回復(fù)長(zhǎng)度存在一定關(guān)聯(lián)。

關(guān)于大模型的評(píng)測(cè)數(shù)據(jù),元評(píng)估環(huán)節(jié)設(shè)立了34項(xiàng)共識(shí)評(píng)分標(biāo)準(zhǔn)。針對(duì)每個(gè)HealthBench示例,收集多名醫(yī)生對(duì)模型響應(yīng)是否滿足標(biāo)準(zhǔn)的注釋,并將其與模型評(píng)分器輸出作對(duì)比。通過(guò)宏觀F1分?jǐn)?shù)(無(wú)加權(quán)平均各類別F1分?jǐn)?shù))評(píng)估評(píng)分器與醫(yī)生評(píng)價(jià)的一致性,這樣能平衡真陽(yáng)性和假陽(yáng)性的影響。基線采用三種方法:典型醫(yī)生基線(衡量醫(yī)生間評(píng)分一致性)、個(gè)體醫(yī)生基線(記錄單個(gè)醫(yī)生的評(píng)分表現(xiàn))和隨機(jī)基線(根據(jù)經(jīng)驗(yàn)陽(yáng)性率隨機(jī)預(yù)測(cè),F(xiàn)1分?jǐn)?shù)約為0.50)。以GPT-4.1作為主要模型評(píng)分器,結(jié)果顯示其在所有測(cè)試主題上超越了隨機(jī)基線,在7個(gè)主題里5個(gè)超過(guò)了平均醫(yī)生得分,6個(gè)主題中進(jìn)入了醫(yī)生得分的上半?yún)^(qū)間,并且在所有主題中均高于醫(yī)生得分的下三分之一水平。


結(jié)果顯示,作為評(píng)分器的GPT-4.1能夠達(dá)到與專家評(píng)分相當(dāng)?shù)乃健Q芯繄F(tuán)隊(duì)還對(duì)OpenAI于2025年4月發(fā)布的其他模型進(jìn)行了元評(píng)估,其中GPT-4.1的表現(xiàn)最為出色,o4-mini和o3緊隨其后,而GPT-4.1 mini和nano的表現(xiàn)則相對(duì)較弱。這種表現(xiàn)差異可能與GPT-4.1在提示優(yōu)化階段的使用有關(guān)。

另外,團(tuán)隊(duì)多次使用HealthBench對(duì)不同模型進(jìn)行評(píng)測(cè),發(fā)現(xiàn)模型得分的標(biāo)準(zhǔn)差僅約為0.002,說(shuō)明整體評(píng)估結(jié)果波動(dòng)較小,從側(cè)面驗(yàn)證了HealthBench評(píng)測(cè)體系的穩(wěn)定性和可靠性。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識(shí)。在這里,您可以找到最新的AI科普文章、工具評(píng)測(cè)、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,讓AI助力您的未來(lái)發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大反轉(zhuǎn)!三亞27歲女游客并非被毒蛇咬傷致死,百萬(wàn)網(wǎng)紅阿寶翻車了

大反轉(zhuǎn)!三亞27歲女游客并非被毒蛇咬傷致死,百萬(wàn)網(wǎng)紅阿寶翻車了

古希臘掌管松餅的神
2025-06-05 18:19:19
提前出局!可怕的不是國(guó)足0-1印尼,而是世界杯擴(kuò)軍48隊(duì)仍進(jìn)不去

提前出局!可怕的不是國(guó)足0-1印尼,而是世界杯擴(kuò)軍48隊(duì)仍進(jìn)不去

侃球熊弟
2025-06-05 23:48:06
體制內(nèi)嚴(yán)打喝酒,什么信號(hào)?

體制內(nèi)嚴(yán)打喝酒,什么信號(hào)?

樓市黃大大
2025-06-05 21:40:53
人社部:7月31日前,勞務(wù)派遣全面整頓,派遣公司將面臨大清洗

人社部:7月31日前,勞務(wù)派遣全面整頓,派遣公司將面臨大清洗

娛樂(lè)看阿敞
2025-06-05 13:43:49
庫(kù)克尷尬了,蘋果坐了四年“全球賺錢第一”寶座后,跌至第2名了

庫(kù)克尷尬了,蘋果坐了四年“全球賺錢第一”寶座后,跌至第2名了

互聯(lián)網(wǎng).亂侃秀
2025-06-05 16:19:16
中紀(jì)委再劃紅線!公務(wù)員下班后吃飯,這4種行為將被嚴(yán)肅追咎!

中紀(jì)委再劃紅線!公務(wù)員下班后吃飯,這4種行為將被嚴(yán)肅追咎!

漣漪讀史
2025-06-04 09:00:16
給餐飲業(yè)留一條活路吧

給餐飲業(yè)留一條活路吧

今綸財(cái)經(jīng)
2025-06-04 18:07:58
白象為“多半”道歉了,申請(qǐng)過(guò)“多半袋”被駁回;康師傅“1碗半”、“一倍半”、今麥郎“一桶半”商標(biāo)均無(wú)效

白象為“多半”道歉了,申請(qǐng)過(guò)“多半袋”被駁回;康師傅“1碗半”、“一倍半”、今麥郎“一桶半”商標(biāo)均無(wú)效

界面新聞
2025-06-05 12:36:18
三亞女游客被蛇咬身亡事件帶火蛇類博主,兩天漲粉200萬(wàn),電話被打爆交給朋友接聽(tīng)

三亞女游客被蛇咬身亡事件帶火蛇類博主,兩天漲粉200萬(wàn),電話被打爆交給朋友接聽(tīng)

瀟湘晨報(bào)
2025-06-05 18:15:10
特朗普最新回應(yīng)稱,普京打來(lái)投訴電話,還暗示將會(huì)炸翻整個(gè)烏克蘭

特朗普最新回應(yīng)稱,普京打來(lái)投訴電話,還暗示將會(huì)炸翻整個(gè)烏克蘭

碳基生物關(guān)懷組織
2025-06-05 18:27:12
約基奇加盟快船,NBA震撼交易方案曝光,杜蘭特怒斥這是作弊

約基奇加盟快船,NBA震撼交易方案曝光,杜蘭特怒斥這是作弊

夕落秋山
2025-06-06 00:30:15
綠發(fā)會(huì)秘書長(zhǎng)不干了!但為時(shí)已晚,被央視軍事報(bào)道向境外傳資料!

綠發(fā)會(huì)秘書長(zhǎng)不干了!但為時(shí)已晚,被央視軍事報(bào)道向境外傳資料!

古希臘掌管松餅的神
2025-06-05 11:10:10
世界杯新軍,烏茲別克斯坦成為亞足聯(lián)史上第14支世界杯參賽隊(duì)

世界杯新軍,烏茲別克斯坦成為亞足聯(lián)史上第14支世界杯參賽隊(duì)

懂球帝
2025-06-06 02:04:32
隨著薩巴倫卡2-1斯瓦泰克,法網(wǎng)首個(gè)決賽誕生,鄭欽文鎖定世界前5

隨著薩巴倫卡2-1斯瓦泰克,法網(wǎng)首個(gè)決賽誕生,鄭欽文鎖定世界前5

侃球熊弟
2025-06-05 23:31:07
隨著沙特2-0巴林,世預(yù)賽最新積分榜:印尼晉級(jí)附加賽,國(guó)足出局

隨著沙特2-0巴林,世預(yù)賽最新積分榜:印尼晉級(jí)附加賽,國(guó)足出局

侃球熊弟
2025-06-06 02:05:43
桂林多地聽(tīng)到巨響,有居民稱玻璃被震碎,當(dāng)?shù)兀簳何唇拥奖ê脱萘?xí)報(bào)告

桂林多地聽(tīng)到巨響,有居民稱玻璃被震碎,當(dāng)?shù)兀簳何唇拥奖ê脱萘?xí)報(bào)告

極目新聞
2025-06-05 19:32:31
西子電梯科技有限公司總裁劉文超據(jù)稱墜樓離世,杭州警方已排除刑事案件

西子電梯科技有限公司總裁劉文超據(jù)稱墜樓離世,杭州警方已排除刑事案件

紅星新聞
2025-06-05 20:45:13
可以提前備戰(zhàn)了!國(guó)足無(wú)緣2026世界杯,2年后將迎2030世預(yù)賽

可以提前備戰(zhàn)了!國(guó)足無(wú)緣2026世界杯,2年后將迎2030世預(yù)賽

直播吧
2025-06-05 23:56:22
扎哈羅娃:中國(guó)留學(xué)生在美國(guó)遭歧視不要沮喪,歡迎轉(zhuǎn)學(xué)至俄羅斯

扎哈羅娃:中國(guó)留學(xué)生在美國(guó)遭歧視不要沮喪,歡迎轉(zhuǎn)學(xué)至俄羅斯

碳基生物關(guān)懷組織
2025-06-05 18:31:01
沒(méi)有奇跡!國(guó)足連續(xù)6屆無(wú)緣世界杯,已空等23年,30+老將悲情謝幕

沒(méi)有奇跡!國(guó)足連續(xù)6屆無(wú)緣世界杯,已空等23年,30+老將悲情謝幕

我愛(ài)英超
2025-06-05 23:57:56
2025-06-06 02:35:00
moonfdd incentive-icons
moonfdd
福大大架構(gòu)師每日一題
840文章數(shù) 31關(guān)注度
往期回顧 全部

科技要聞

對(duì)話盛景網(wǎng)聯(lián)彭志強(qiáng):跳出SaaS虧損黑洞!從“賣工具”到“賣結(jié)果”的AI RaaS轉(zhuǎn)型法則

頭條要聞

27歲女子被咬傷身亡 三亞衛(wèi)健委再通報(bào)搶救全過(guò)程

頭條要聞

27歲女子被咬傷身亡 三亞衛(wèi)健委再通報(bào)搶救全過(guò)程

體育要聞

提前無(wú)緣美加墨世界杯 國(guó)足眾將賽后落淚

娛樂(lè)要聞

陳赫宴請(qǐng)好友,李乃文攜妻子罕見(jiàn)亮相

財(cái)經(jīng)要聞

習(xí)近平同美國(guó)總統(tǒng)特朗普通電話

汽車要聞

旗艦+大六座+百萬(wàn)級(jí) 阿維塔全新SUV預(yù)計(jì)明年量產(chǎn)

態(tài)度原創(chuàng)

教育
時(shí)尚
本地
數(shù)碼
手機(jī)

教育要聞

通知!高考期間部分學(xué)校周邊部分路段采取交通管控

泰權(quán)威!復(fù)刻三分已成濃顏貴女

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

數(shù)碼要聞

蘋果上線2025隱私安全廣告:岳云鵬傾情回歸,守護(hù)iPhone安全防線

手機(jī)要聞

印度區(qū)域iPhone維修業(yè)務(wù)從緯創(chuàng)轉(zhuǎn)移 蘋果加大對(duì)塔塔的依賴

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 营口市| 苍溪县| 淮阳县| 东宁县| 石台县| 科技| 五河县| 呈贡县| 德格县| 新闻| 公主岭市| 青铜峡市| 刚察县| 平江县| 永吉县| 塔河县| 仙桃市| 丹巴县| 五大连池市| 酒泉市| 绥中县| 隆回县| 雷州市| 桐庐县| 吉林省| 麟游县| 石泉县| 枣阳市| 民县| 扎鲁特旗| 库伦旗| 乡宁县| 阳泉市| 桓仁| 华蓥市| 宁德市| 南靖县| 岳普湖县| 龙川县| 灯塔市| 双辽市|