99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI深夜開源HealthBench,60個國家合力開發5000段真實對話

0
分享至

今天凌晨1點30,OpenAI開源了一個專門面向醫療大模型的測試評估集——HealthBench。

與以往測試集不同的是,該測試集的5000段核心測試對話,全部由來自60個國家/地區的26個專業262名醫生打造,極大增強了該測試集的難度、真實性以及豐富度。并且采用了多輪對話測試,而不是簡單的答題或選擇題模式。

根據測試數據顯示,大模型在醫療保健領域的表現有了顯著提升。例如,從之前的GPT-3.5Turbo的16%到GPT-4o的32%,再到o3的60%,整體性能有了顯著進步。尤其是小型模型的進步更為突出,GPT-4.1nano不僅在性能上超越了GPT-4o,而且成本降低了25倍。


開源地址:https://github.com/openai/simple-evals

HealthBench簡單介紹

據OpenAI透露,這262名醫生是從1021位醫生多輪測試中嚴格篩選出來的,在數據收集過程中,還會持續對醫生輸入的質量進行審查,依據自動化質量指標和對評分標準的審核,對醫生團隊進行輪換,確保數據的高質量。

HealthBench的示例被劃分為7個主題和5個軸。7個主題分別為緊急轉診、情境尋求、全球健康、健康數據任務、專業定制溝通、不確定性下的響應和響應深度,每個主題都聚焦于現實世界健康交互的重要方面,評估模型在相應場景下的表現。

5個軸包括準確性、完整性、溝通質量、情境感知和指令遵循,用于衡量模型行為的不同維度,使評估能夠更全面、細致地分析模型性能。


多數對話通過定制的大模型合成生成,由開發團隊與醫生合作,詳細列舉重要的醫療場景,例如,用戶逐步描述暗示醫療緊急情況、醫療專業人員要求總結臨床筆記、模糊查詢需要澄清等,然后將這些場景轉化為多輪對話。

此外,部分數據來自醫生對大語言模型在醫療場景中的紅隊測試,用于識別模型的弱點和不當響應;還有一部分數據源自Google發布的HealthSearchQA評估數據集,通過大語言模型將其中的查詢改寫為用戶與模型的對話。生成對話后,會使用o1-preview進行相關性過濾,確保對話真實、自洽、與身體健康相關且無不完整消息。

創建評分標準是HealthBench的關鍵環節。每個對話都有對應的由醫生編寫的評分標準。評分標準涵蓋了各種屬性,例如應包含的具體事實、清晰溝通的方面、對特定主題的常見誤解等,并且每個標準都有從 -10 到 10 的非零分值,用于獎勵或懲罰模型的響應。

評估時,基于模型的評分器會根據對話、模型響應和評分標準,獨立判斷每個標準是否被滿足。如果滿足,模型將獲得相應的全部分值;否則不得分。最終,通過對所有滿足標準的分值進行求和,并除以該示例的最大可能得分,得到單個示例的分數。

醫生參與構建流程

在醫生撰寫響應的實驗中,OpenAI邀請醫生針對HealthBench任務撰寫他們認為的理想響應。醫生被分為三組,第一組醫生在沒有任何AI輔助的情況下,僅根據HealthBench中的對話撰寫響應,他們可以使用互聯網但不能使用AI工具;

第二組醫生可以參考2024年8-9月的模型GPT-4o和o1-preview生成的四個響應,并在此基礎上進行改進;第三組醫生則參考2025年4月的模型GPT-4.1和o3的響應進行撰寫。

醫生在參考2024年模型響應的基礎上,能夠在一定程度上提高響應的性能,尤其在完整性和準確性方面有較為明顯的提升。

然而,當參考2025年性能更好的模型響應時,醫生并不能進一步提高響應質量。在比較醫生撰寫的響應與參考響應的得分時發現,對于2024年模型的參考響應,醫生撰寫的響應改進的比例高于惡化的比例56.2%vs39.8%;

而對于2025年模型的參考響應,醫生改進和惡化參考響應的可能性幾乎相同46.8%vs47.7%。此外,沒有參考模型響應的醫生撰寫的響應相對較短,這在一定程度上影響了其在HealthBench上的得分,因為HealthBench分數與響應長度存在一定的相關性。

大模型測試數據

在驗證評分器可靠性的元評估中,一共有34個預定義的共識評分標準。對于每個HealthBench Consensus示例,收集多個醫生對特定響應是否滿足標準的注釋,將這些注釋與基于模型的評分器的評分進行比較。采用宏觀F1分數來評估模型評分與醫生評分的一致性,宏觀F1分數是每個類別的F1分數的無加權平均值,能夠平衡對真陽性和假陽性的敏感度。

通過三種方法建立基線:典型醫生基線,通過計算每個醫生與其他醫生評分的 MF1 分數來估計人類專家之間的一致性;個體醫生基線,報告每個個體醫生的 MF1 分數;

隨機基線,以經驗陽性率返回 “met” 的弱基線,其 MF1 分數為 0.50。以 GPT-4.1 作為主要的基于模型的評分器進行評估,結果顯示,GPT-4.1 在所有主題上都超過了隨機基線,在7個主題中的5個主題上超過了平均醫生得分,在6個主題上位于醫生得分的上半部分,在所有主題上都高于醫生得分的下三分之一。


這表明GPT-4.1 作為模型評分器能夠與專家評分相匹配。此外,研究團隊還使用 OpenAI 的 2025年4月的其他模型作為評分器進行元評估,發現 GPT-4.1 的表現最佳,o4-mini 和 o3 稍次,GPT-4.1 mini 和 nano 則表現較差。

這可能與GPT-4.1 在提示調整過程中被使用有關。同時多次運行HealthBench評估不同模型,發現模型得分的標準差約為 0.002,表明評估結果的總體可變性較低,進一步證明了 HealthBench 評估的可靠性。

本文素材來源OpenAI,如有侵權請聯系刪除

報告下載

大 佬觀點分享

關于RPA、AI、企業數字化轉型

(點擊文字即可閱讀)

| |

| | |


| | |

| | |

| |

行業知識交流分享,結識擴展人脈圈層

公眾號后臺回復【RPA】或者【流程挖掘】

可受邀加入相關的交流群

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國雷達對B21的視距僅120公里,我們將面臨前所未有的防空壓力?

中國雷達對B21的視距僅120公里,我們將面臨前所未有的防空壓力?

慎獨贏
2025-02-06 14:19:43
湖人舊將卡魯索奪第2冠:總決賽4場上雙+2場20分 湖管后悔嗎

湖人舊將卡魯索奪第2冠:總決賽4場上雙+2場20分 湖管后悔嗎

醉臥浮生
2025-06-23 10:50:16
前擊劍運動員秦雪,退役后當主播,近照中,紅色穿搭實在太養眼了

前擊劍運動員秦雪,退役后當主播,近照中,紅色穿搭實在太養眼了

塞外書語
2025-06-22 14:28:35
謝逸楓:顫抖吧!前5月全國賣地收入斷崖式下滑,怎么辦

謝逸楓:顫抖吧!前5月全國賣地收入斷崖式下滑,怎么辦

謝逸楓看樓市
2025-06-22 21:39:44
王石再預測中國未來房地產走向:若無意外,大概率又是對的!

王石再預測中國未來房地產走向:若無意外,大概率又是對的!

巢客HOME
2025-03-21 09:10:03
網友說,鄭中基前妻余思敏,給所有女人都上了一課

網友說,鄭中基前妻余思敏,給所有女人都上了一課

丫頭舫
2025-06-21 15:40:20
冀曉青,履新職

冀曉青,履新職

新京報
2025-06-23 09:46:57
梁洛施和男友現身機場!送長子李長治登機,倆人感情穩定常住北京

梁洛施和男友現身機場!送長子李長治登機,倆人感情穩定常住北京

麥大人
2025-06-22 14:45:10
速看!高考成績出來了,請不要打擾別人的幸福

速看!高考成績出來了,請不要打擾別人的幸福

教師吧
2025-06-23 15:12:30
要感謝歐盟嗎?各大名企嚴格執行8小時工作法案,996福報被廢

要感謝歐盟嗎?各大名企嚴格執行8小時工作法案,996福報被廢

大風文字
2025-02-17 11:39:05
遠在歐洲的匈牙利,渾身透著中國“味兒”,怎么回事?

遠在歐洲的匈牙利,渾身透著中國“味兒”,怎么回事?

大道微言
2025-06-20 21:16:36
馬上沖擊高溫線!局地可達40℃!新臺風剛剛生成,上海本輪最大降水在這里↗

馬上沖擊高溫線!局地可達40℃!新臺風剛剛生成,上海本輪最大降水在這里↗

魯中晨報
2025-06-23 15:23:06
請停止為過去的地主資本家歌功頌德!這是何等荒謬,又是何等無知

請停止為過去的地主資本家歌功頌德!這是何等荒謬,又是何等無知

剛哥說法365
2025-06-21 15:33:24
美中將:為了集中反華力量,美國必須鏟除伊朗,戰斗烈度將創紀錄

美中將:為了集中反華力量,美國必須鏟除伊朗,戰斗烈度將創紀錄

議紀史
2025-06-22 14:35:07
許小年教授,為何被網友罵慘了?

許小年教授,為何被網友罵慘了?

老蔣談策劃
2025-06-23 12:12:19
污水廠遭拖欠逾億元污水處理費,起訴臨潁縣政府索賠5.7億;當地回應:資金困難,擬回購該廠

污水廠遭拖欠逾億元污水處理費,起訴臨潁縣政府索賠5.7億;當地回應:資金困難,擬回購該廠

大風新聞
2025-06-23 09:51:06
從5萬到1萬考生,短短幾年暴跌80%!中國美院淪落到招不滿學生了

從5萬到1萬考生,短短幾年暴跌80%!中國美院淪落到招不滿學生了

火山詩話
2025-06-22 10:01:52
美國出手打擊伊朗,為何全球市場依然淡定?

美國出手打擊伊朗,為何全球市場依然淡定?

華爾街見聞官方
2025-06-23 16:34:03
為什么F35和F22戰斗機性能參數都已公開,而殲20和殲35卻要保密?

為什么F35和F22戰斗機性能參數都已公開,而殲20和殲35卻要保密?

阿龍聊軍事
2025-06-21 11:12:27
“夏補鉀,身不乏”,夏季多吃8種高鉀食物,渾身有勁,精神足

“夏補鉀,身不乏”,夏季多吃8種高鉀食物,渾身有勁,精神足

美食店主
2025-06-22 08:52:29
2025-06-23 17:03:00
RPA中國 incentive-icons
RPA中國
RPA行業生態平臺
2695文章數 1247關注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機內部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊魂

娛樂要聞

魏大勛和秦嵐沒分手!

財經要聞

關稅重磅!美國宣布,今起加征

汽車要聞

單電機200kW 奔馳純電長軸距CLA申報信息曝光

態度原創

藝術
游戲
健康
家居
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

角逐MMO巔峰?《劍靈》巔峰服上線;《冒險島》開啟首個賽季服

呼吸科專家破解呼吸道九大謠言!

家居要聞

山水之間 墨染風雨云間

軍事要聞

伊朗:即便核設施被毀 游戲也遠未結束

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 通化县| 错那县| 中山市| 馆陶县| 中超| 荥经县| 禄劝| 甘洛县| 晋城| 通化县| 道真| 泗洪县| 新宁县| 通辽市| 金华市| 苍梧县| 翁源县| 宁蒗| 隆子县| 公安县| 南和县| 台安县| 惠来县| 吉安市| 靖安县| 咸丰县| 平安县| 马龙县| 海口市| 日土县| 雷波县| 石狮市| 扶余县| 富川| 无极县| 时尚| 板桥市| 昆明市| 安阳县| 洛宁县| 左贡县|