99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

2天完成人類12年工作,AI自動更新文獻綜述,準確率碾壓人類近15%

0
分享至

鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

當碳基生物還在為寫文獻綜述,打開了一百個瀏覽器窗口時,隔壁AI已經卷起來了。(doge)

兩天完成人類12年工作——



醫學研究領域中,系統評價(SRs)作為臨床決策的黃金標準,平均耗時超過16個月,花費10萬美元以上,且容易延長無效或有害治療方法的使用。

于是多倫多大學、哈佛醫學院等機構聯合開發了AI端到端工作流程——otto-SR

結合GPT-4.1o3-mini進行篩選和數據提取,僅花費兩天時間就完成了傳統方法需要12年才能完成的Cochrane系統評價更新。



在多項指標上更是超越人類,基準測試中otto-SR靈敏度達96.7%(人類81.7%),特異度93.9%,數據提取準確率93.1%(人類79.7%),還發現了發現人類遺漏的54篇關鍵研究。

所以那些年我們在PubMed上熬的夜、掉的頭發,又算什么……



擦干眼淚,下面一起來看具體實現過程。

用于系統綜述自動化的智能工作流程

團隊引入了一種基于LLM的端到端工作流程otto-SR,支持從初始檢索到數據分析,完全自動化和人機協作的系統綜述流程。



otto-SR首先會收集從原始檢索中識別的RIS格式的引用文獻,GPT-4.1隨即會作為獨立評審員進行篩選。

篩選出的文章集合將輸入o3-mini-high模型進行數據提取,其中PDF格式將會由Gemini 2.0 flash處理并轉換為結構化Markdown文件,并用于下游任務。

具體而言,可以細分為篩選和提取兩種功能:

SR文獻篩選

研究團隊開發了一種篩選Agent,利用擅長指令跟隨的GPT-4.1模型,并結合優化的提示策略,可以在摘要和全文階段對文獻進行篩選。

另外,該Agent會將各綜述的初始目標和合格標準納入補充說明。

研究在五項綜述的完整原始檢索(總計32357條引文)中,進行otto-SR篩選性能評估。

綜述涵蓋牛津循證醫學中心(CEBM)的四種問題類型(患病率、診斷試驗準確性、預后、干預效益),并橫向對比雙人人類評審員(當前標準工作流程)Elicit(基于LLM的商業系統綜述自動化軟件)的評估結果。



在摘要篩選階段,otto-SR實現了最高的敏感性96.6%,在特異性上以93.9%和人類評審的95.7%相當。

在全文篩選階段,otto-SR也同樣保持了最高的敏感性96.2%,而人類評審員的敏感性顯著下降至63.3%,特異性則兩者都保持較高水平。

因此研究發現,otto-SR可以比傳統的雙人人工篩選,在捕獲更多的相關研究時,還能保持足夠的特異性。

SR數據提取

研究團隊選擇OpenAI o3mini-high模型作為提取Agent,因為其強大的科學推理能力、穩健的長上下文檢索能力和成本效益,其中Prompt均采用原作者定義的變量描述。

研究在七項綜述495項研究中比較otto-SR和Elicit的數據提取性能,再讓雙人人類評審員在每項綜述的隨機抽樣文獻子集中進行評估。



結果發現,otto-SR的平均加權準確率可達93.1%,遠高于雙人人類評審員的79.7%和Elicit的74.8%。

另外,為了解決部分情況下,otto-SR的提取值與原綜述作者存在差異,團隊引入盲法評審員小組進行抉擇,其中在69.3%的案例中選擇支持otto-SR。

相比之下,盲法評審員小組只在28.1%的案例中支持雙人人類提取員,在22.4%的案例中支持Elicit。

這進一步體現了otto-SR在數據提取性能上的優越性,顯著高于其他方法。

可快速重現和更新綜述

為了評估otto-SR的實際適用性,團隊對Cochrane數據庫的2024年4月期SRs進行完整復現,而這些系統綜述通常用于為臨床指南提供信息。

將檢索更新至2025年5月8日,針對可用的12篇綜述,共識別出146276條引文,然后經過去重處理后,交由otto-SR根據原標準進行篩選。

再將結果過濾至與原始檢索截止日期一致,otto-SR共確定了54項被遺漏的合格研究(中位數2,IQR:每項綜述1至6.25),另外經過人工評審后,發現otto-SR錯誤納入了10篇假陽性文章,其中九篇都可能包含相關數據。

而將日期擴展回2025年5月8日,則多出14項合格研究(總計n=64,中位數2.5,IQR 每項綜述1至7.25),包含另外2篇假陽性文章,其中1篇包含相關數據。

以上工作將符合條件的文章數量翻了一倍,并讓研究人員需要12個工作年才能完成的工作,縮短至48小時內。



將提取數據與原綜述進行Meta分析,涉及三個比較組:

  1. 匹配組:otto-SR與原Cochrane分析中包含的相同文章集。
  2. 擴展組:包括otto-SR識別的所有合格研究,過濾至原始檢索截止日期。
  3. 更新組:評估所有文章,檢索截止日期更新為2025年5月8日。

另外考慮到可能存在的數據提取任務,還引入雙人人工審查為每個組得出校正值,即移除假陽性文章和添加假陰性文章。

在匹配組中,otto-SR生成的Meta分析效應估計值,與原Cochrane數據和校正數據集的95%CI重疊。

在擴展分析中,則發現有兩篇綜述產生了新的統計學意義,也存在一篇綜述失去了意義。



例如在營養領域綜述中,otto-SR識別出5項額外研究,并發現了一個有趣的事實:胃手術前進行術前免疫增強,可能會將平均住院時間縮減一天。



otto-SR的出現,將會極大地緩解系統評價緩慢而費力的過程,在未來,可能將會從需要數月甚至數年才能完成的工作縮減至幾個小時或幾分鐘,從而可以更快地對新療法或者大流行病做出反應。



另外,一些因為資金不足而缺乏進行系統評價的地區,也能夠享受到前沿醫學,正如作者在文章末尾寫道:

  • 簡言之,黃金標準已不再屬于人類。
    In short, the gold standard is no longer human.

參考鏈接:
[1]https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1
[2]https://x.com/rohitarorayyc/status/1933641750754558238
[3]https://ottosr.com/blog/announcement/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
預告:國新辦將于6月20日下午3時就“牢記廣電初心使命 用心服務人民群眾”舉行中外記者見面會

預告:國新辦將于6月20日下午3時就“牢記廣電初心使命 用心服務人民群眾”舉行中外記者見面會

財聯社
2025-06-17 22:33:36
確定了:由莘莊站改為上海南站,涉2個班次!7月起金山鐵路調整→

確定了:由莘莊站改為上海南站,涉2個班次!7月起金山鐵路調整→

上觀新聞
2025-06-18 12:15:43
正負值+9!李月汝飛翼首秀救主,助隊終結七連敗

正負值+9!李月汝飛翼首秀救主,助隊終結七連敗

體育見習官
2025-06-18 12:04:29
小米YU7被質疑輪胎太窄影響安全性,雷軍連夜發文解釋

小米YU7被質疑輪胎太窄影響安全性,雷軍連夜發文解釋

金融界
2025-06-17 18:05:33
父親幫同學手術后卻被反手舉報降職,半年后她復發,父親:治不了

父親幫同學手術后卻被反手舉報降職,半年后她復發,父親:治不了

溫情郵局
2025-05-14 09:54:44
字母哥宣布攜手杜蘭特加盟火箭!但提出2個重要條件

字母哥宣布攜手杜蘭特加盟火箭!但提出2個重要條件

老韓談體育
2025-06-18 12:23:31
韓星文泰一承認輪奸中國女生!律師試圖賣慘減刑,被揭露制造偽證

韓星文泰一承認輪奸中國女生!律師試圖賣慘減刑,被揭露制造偽證

萌神木木
2025-06-18 14:31:50
伊朗又斷網了?巴列維王儲再發聲!波斯人:我們一個都不想要

伊朗又斷網了?巴列維王儲再發聲!波斯人:我們一個都不想要

歷史擺渡
2025-06-17 17:50:02
Labubu之父稱故意保留9顆尖牙:就像年輕人抗拒被標準化定義

Labubu之父稱故意保留9顆尖牙:就像年輕人抗拒被標準化定義

觀威海
2025-06-17 09:36:23
北京最下飯的駐京辦,都在這里了

北京最下飯的駐京辦,都在這里了

北京吃貨小分隊
2025-06-18 12:26:27
奔馳發兩張海報回懟某豪華新能源車,字字不提、句句皆是

奔馳發兩張海報回懟某豪華新能源車,字字不提、句句皆是

天行艦
2025-06-17 07:39:41
有特權就無所謂?一言不發的那爾那茜,終于不再顧及所謂的體面

有特權就無所謂?一言不發的那爾那茜,終于不再顧及所謂的體面

姩姩有娛呀
2025-06-17 20:13:18
蒙古最強悍皇后,背7歲丈夫征戰四方,丈夫長大后與其生下8個孩子

蒙古最強悍皇后,背7歲丈夫征戰四方,丈夫長大后與其生下8個孩子

文史道
2025-06-02 17:18:48
一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

一家三口先后離世!提醒:冰箱久放7種食物,是癌癥“幫兇”

小蜜情感說
2025-06-14 11:00:34
王寶強兒女已長大,這五官和顏值,到底是誰的孩子?一看很明確了

王寶強兒女已長大,這五官和顏值,到底是誰的孩子?一看很明確了

趣文說娛
2025-06-18 09:53:28
初中同學吐槽:韋東奕鼻涕流到嘴邊才擦,語文不好經常遲到!

初中同學吐槽:韋東奕鼻涕流到嘴邊才擦,語文不好經常遲到!

古希臘掌管松餅的神
2025-06-17 15:58:58
56歲高曉松與高中女友相約聚會,曬二人戀愛時合影,被嘲像兩代人

56歲高曉松與高中女友相約聚會,曬二人戀愛時合影,被嘲像兩代人

娛圈小愚
2025-06-18 08:53:07
以軍稱對伊朗首都德黑蘭展開新一輪襲擊

以軍稱對伊朗首都德黑蘭展開新一輪襲擊

澎湃新聞
2025-06-18 16:26:11
掃地出門!阿森納正式出售“頭號廢柴”!塔帥欽點1.7億“頂星”

掃地出門!阿森納正式出售“頭號廢柴”!塔帥欽點1.7億“頂星”

頭狼追球
2025-06-18 10:33:34
高鐵F座保衛戰:我的座位我做主!憑啥讓給你?

高鐵F座保衛戰:我的座位我做主!憑啥讓給你?

紅網論壇
2025-06-17 17:47:23
2025-06-18 17:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10692文章數 176167關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

特朗普要求伊朗無條件投降 外交部回應

頭條要聞

特朗普要求伊朗無條件投降 外交部回應

體育要聞

從春晚秧歌到拳擊擂臺,中國機器人打服老外

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

財經要聞

潘功勝李云澤吳清發聲 資本市場關鍵信號

汽車要聞

六色可選!秦L EV發布限定改色車膜 1999元包安裝

態度原創

房產
藝術
親子
家居
手機

房產要聞

硬核補貨!海口主城買入低密洋房的機會,終于等到了!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

為什么要多生孩子

家居要聞

溫暖明亮 三代同堂之家

手機要聞

特朗普T1手機號稱“美國制造”?分析師無情打臉:基本不可能

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 信丰县| 瓦房店市| 达拉特旗| 鱼台县| 新沂市| 霍城县| 嘉峪关市| 石屏县| 彭水| 广德县| 同仁县| 大埔区| 太原市| 宜黄县| 武汉市| 昌宁县| 吴旗县| 外汇| 介休市| 剑阁县| 比如县| 温宿县| 共和县| 霍城县| 古蔺县| 永川市| 遂溪县| 扶沟县| 克东县| 满城县| 龙胜| 错那县| 大足县| 蒙城县| 罗田县| 红安县| 乌拉特中旗| 石家庄市| 藁城市| 镇安县| 大渡口区|