網易首頁 > 網易號 > 正文申請入駐

2天完成人類12年工作，AI自動更新文獻綜述，準確率碾壓人類近15%

2025-06-17 16:57:18　來源: 量子位

北京舉報

分享至

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

當碳基生物還在為寫文獻綜述，打開了一百個瀏覽器窗口時，隔壁AI已經卷起來了。（doge）

兩天完成人類12年工作——

醫學研究領域中，系統評價（SRs）作為臨床決策的黃金標準，平均耗時超過16個月，花費10萬美元以上，且容易延長無效或有害治療方法的使用。

于是多倫多大學、哈佛醫學院等機構聯合開發了AI端到端工作流程——otto-SR。

結合GPT-4.1和o3-mini進行篩選和數據提取，僅花費兩天時間就完成了傳統方法需要12年才能完成的Cochrane系統評價更新。

在多項指標上更是超越人類，基準測試中otto-SR靈敏度達96.7%（人類81.7%），特異度93.9%，數據提取準確率93.1%（人類79.7%），還發現了發現人類遺漏的54篇關鍵研究。

所以那些年我們在PubMed上熬的夜、掉的頭發，又算什么……

擦干眼淚，下面一起來看具體實現過程。

用于系統綜述自動化的智能工作流程

團隊引入了一種基于LLM的端到端工作流程otto-SR，支持從初始檢索到數據分析，完全自動化和人機協作的系統綜述流程。

otto-SR首先會收集從原始檢索中識別的RIS格式的引用文獻，GPT-4.1隨即會作為獨立評審員進行篩選。

篩選出的文章集合將輸入o3-mini-high模型進行數據提取，其中PDF格式將會由Gemini 2.0 flash處理并轉換為結構化Markdown文件，并用于下游任務。

具體而言，可以細分為篩選和提取兩種功能：

SR文獻篩選

研究團隊開發了一種篩選Agent，利用擅長指令跟隨的GPT-4.1模型，并結合優化的提示策略，可以在摘要和全文階段對文獻進行篩選。

另外，該Agent會將各綜述的初始目標和合格標準納入補充說明。

研究在五項綜述的完整原始檢索（總計32357條引文）中，進行otto-SR篩選性能評估。

綜述涵蓋牛津循證醫學中心（CEBM）的四種問題類型（患病率、診斷試驗準確性、預后、干預效益），并橫向對比雙人人類評審員（當前標準工作流程）和Elicit（基于LLM的商業系統綜述自動化軟件）的評估結果。

在摘要篩選階段，otto-SR實現了最高的敏感性96.6%，在特異性上以93.9%和人類評審的95.7%相當。

在全文篩選階段，otto-SR也同樣保持了最高的敏感性96.2%，而人類評審員的敏感性顯著下降至63.3%，特異性則兩者都保持較高水平。

因此研究發現，otto-SR可以比傳統的雙人人工篩選，在捕獲更多的相關研究時，還能保持足夠的特異性。

SR數據提取

研究團隊選擇OpenAI o3mini-high模型作為提取Agent，因為其強大的科學推理能力、穩健的長上下文檢索能力和成本效益，其中Prompt均采用原作者定義的變量描述。

研究在七項綜述495項研究中比較otto-SR和Elicit的數據提取性能，再讓雙人人類評審員在每項綜述的隨機抽樣文獻子集中進行評估。

結果發現，otto-SR的平均加權準確率可達93.1%，遠高于雙人人類評審員的79.7%和Elicit的74.8%。

另外，為了解決部分情況下，otto-SR的提取值與原綜述作者存在差異，團隊引入盲法評審員小組進行抉擇，其中在69.3%的案例中選擇支持otto-SR。

相比之下，盲法評審員小組只在28.1%的案例中支持雙人人類提取員，在22.4%的案例中支持Elicit。

這進一步體現了otto-SR在數據提取性能上的優越性，顯著高于其他方法。

可快速重現和更新綜述

為了評估otto-SR的實際適用性，團隊對Cochrane數據庫的2024年4月期SRs進行完整復現，而這些系統綜述通常用于為臨床指南提供信息。

將檢索更新至2025年5月8日，針對可用的12篇綜述，共識別出146276條引文，然后經過去重處理后，交由otto-SR根據原標準進行篩選。

再將結果過濾至與原始檢索截止日期一致，otto-SR共確定了54項被遺漏的合格研究（中位數2，IQR：每項綜述1至6.25），另外經過人工評審后，發現otto-SR錯誤納入了10篇假陽性文章，其中九篇都可能包含相關數據。

而將日期擴展回2025年5月8日，則多出14項合格研究（總計n=64，中位數2.5，IQR 每項綜述1至7.25），包含另外2篇假陽性文章，其中1篇包含相關數據。

以上工作將符合條件的文章數量翻了一倍，并讓研究人員需要12個工作年才能完成的工作，縮短至48小時內。

將提取數據與原綜述進行Meta分析，涉及三個比較組：

匹配組：otto-SR與原Cochrane分析中包含的相同文章集。
擴展組：包括otto-SR識別的所有合格研究，過濾至原始檢索截止日期。
更新組：評估所有文章，檢索截止日期更新為2025年5月8日。

另外考慮到可能存在的數據提取任務，還引入雙人人工審查為每個組得出校正值，即移除假陽性文章和添加假陰性文章。

在匹配組中，otto-SR生成的Meta分析效應估計值，與原Cochrane數據和校正數據集的95%CI重疊。

在擴展分析中，則發現有兩篇綜述產生了新的統計學意義，也存在一篇綜述失去了意義。

例如在營養領域綜述中，otto-SR識別出5項額外研究，并發現了一個有趣的事實：胃手術前進行術前免疫增強，可能會將平均住院時間縮減一天。

otto-SR的出現，將會極大地緩解系統評價緩慢而費力的過程，在未來，可能將會從需要數月甚至數年才能完成的工作縮減至幾個小時或幾分鐘，從而可以更快地對新療法或者大流行病做出反應。

另外，一些因為資金不足而缺乏進行系統評價的地區，也能夠享受到前沿醫學，正如作者在文章末尾寫道：

簡言之，黃金標準已不再屬于人類。
In short, the gold standard is no longer human.

參考鏈接：
[1]https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1
[2]https://x.com/rohitarorayyc/status/1933641750754558238
[3]https://ottosr.com/blog/announcement/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.