99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

12年博士研究,AI兩天爆肝完成!科研效率狂飆3000倍,驚動學術圈

0
分享至

  

  新智元報道

  編輯:桃子

  【新智元導讀】AI兩天爆肝12年研究,精準吊打人類!多大、哈佛MIT等17家機構聯手放大招,基于GPT-4.1和o3-mini,篩選文獻提取數據,效率飆3000倍重塑AI科研工作流。

  多倫多大學、哈佛MIT等機構聯手AI,短短2天內,竟干完了科學家12年的活!

  研究一出,在全網掀起了巨震。

  沃頓商學院CS教授Ethan Mollick大受震撼,「AI綜述論文體量越來越大,而準確性超越了人類」。

  

  17家研究機構同著一篇論文,他們目標直指,借助GPT-4.1和o3-mini自動化系統綜述。

  為此,研究人員設計了otto-SR平臺,并在2天內,完成了為期12年的系統綜述研究。

  

  論文地址:https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1.full.pdf

  結果顯示,otto-SR在所有任務中,比如篩查靈敏度、提取、篩選特異度方面,能夠媲美甚至超越人類。

  

  在一項具體的測試中,復現并更新一期完整的Cochrane系統綜述,包含了12篇為臨床指南提供依據的綜述。

  令人驚嘆的是,otto-SR識別出的相關研究數量(114篇),是原始綜述(64篇)的2倍之多。

  

  這套AI工作流,讓系統綜述速度飆升3000倍。

  這一速度與傳統人工流程相比,堪稱革命性突破。

  

  otto-SR證實了LLM能以更高準確率,自主執行復雜的科研任務。未來,有望通過快速、可靠的系統綜述,為循證醫學帶來革命性變革。

  人類免疫學家Derya Unutmaz教授認為,這是一個非常了不起的成就。

  

  AI取得如此驚艷的成果,究竟是如何做到的?

  AI全新工作流:

  GPT-4.1篩選,o3-mini提取

  在循證醫學領域,系統綜述(Systematic Reviews)是科學決策的基石。

  一般來說,傳統的系統綜述的完成,往往需要耗費16個月,超10萬美金的成本。

  更重要的是,系統綜述的延誤,可能導致低效甚至有害療法長期被使用,對患者來說是一場災難。

  全新otto-SR是一套基于大模型的「端到端」創新工作流。

  如下圖1所示,不論是「全自動」,還是「人機協同」,兩種綜述綜述模式均支持。

  

  以下是otto-SR的核心模塊:

  1 文獻篩選智能體

  GPT-4.1作為獨立評審員,執行摘要和全文篩選。原始檢索獲得的文獻以RIS格式上傳,系統即可高效處理。

  2 數據提取智能體

  由o3-mini-high執行數據提取任務,快速從文獻中提取關鍵變量。

  3 PDF處理

  通過Gemini 2.0 flash將PDF文件轉換為結構化Markdown格式,便于后續分析。

  摘要+全文篩選,趕超人類

  在摘要篩選階段,otto-SR篩選智能體表現優異。

  其加權靈敏度高達96.6%(區間94.1-100.0%),顯著優于Elicit(88.5%)和雙人評審組(87.3%)。

  在特異度方面,雙人評審組以95.7%位居榜首,otto-SR篩選智能體(93.9%)緊隨其后,優于Elicit(84.2%)。

  這表明otto-SR在最大化捕獲相關文獻(真陽性)的能力上遠超傳統方法,同時保持了較高的篩選準確性。

  

  在全文篩選階段,otto-SR篩選智能體繼續保持領先,靈敏度達96.2%(區間92.3-100.0%),而雙人評審組的靈敏度顯著下降至63.3%。

  在特異度方面,otto-SR(96.9%)與雙人評審組(98.1%)均表現優異,而Elicit因不支持全文篩選未參與比較。

  

  綜合表明,otto-SR在保持高特異度(最小化誤納)的同時,能夠捕獲更多相關研究(真陽性),相較于傳統雙人評審和商Elicit展現了顯著優勢。

  數據提取,刷爆準確率

  在七項系統綜述中,otto-SR數據提取智能體的平均加權準確率高達93.1%(區間91.1-97.0%),顯著優于雙人評審組(79.7%[69.1-91.0%])和Elicit(74.8%[58.8-83.1%])。

  在otto-SR提取智能體的6.9%誤差案例中,事后分析揭示了主要原因:

  · 0.83%(39/4459)因模型無法獲取補充文件或需申請的數據;

  · 0.67%(30/4459)源于解析錯誤;

  · 0.49%(22/4459)屬于otto-SR與原作者均不準確的情況。

  這些發現為未來的優化提供了明確方向,例如改進對補充文件的處理能力和解析準確性。

  

  短短2天,AI爆肝12年工作

  既然GPT-4.1+o3-mini在性能評估中刷新SOTA,那么在實際挑戰任務中,表現又如何呢?

  為了驗證實用價值,作者對「Cochrane系統綜述數據庫」的12篇系統綜述,共146,276篇文獻,進行了復現與更新測試。

  

  otto-SR智能工作流

  otto-SR聚焦每篇綜述的主要結局(Primary Outcome),讓入選標準更清晰。

  篩選智能體準確識別了全部64項納入研究;數據提取智能體按Cochrane原始變量定義提取主要結局數據,程序化剔除了缺失主要結局值、重復研究或無干預-對照組的記錄。

  結果顯示,otto-SR錯誤排除研究的中位數為0篇(IQR 0-0.25)。

  

  值得一提的是,在限定原始檢索截止日期的分析中,otto-SR意外發現了54篇可能被原綜述遺漏的合格研究。

  人工復核確認其中10篇為假陽性,但9篇可能通過作者溝通獲取相關數據。

  進一步更新檢索至2025年5月8日,otto-SR又發現了14篇新合格研究,其中僅2篇假陽性,1篇可能含相關數據。

  另外,在營養學綜述中,otto-SR發現了5項新增研究。這一發現展示了otto-SR挖掘新證據、優化結論的能力。

  

  作者介紹

  Christian Cao

  

  Christian Cao目前是多倫多大學醫學院在讀博士。

  目前其研究方向聚焦于開發人工智能模型,致力于預測可避免的住院事件及糖尿病相關并發癥。

  Rohit Arora

  

  Rohit Arora目前是哈佛大學生物信息學一年級博士生。

  他專注于人工智能在科學研究中的應用,研究方向集中于藥物發現與蛋白質設計。

  參考資料:

  https://x.com/emollick/status/1933704272601911536

  https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1

  https://www.reddit.com/r/singularity/comments/1lb6lel/llm_combo_gpt41_o3minihigh_gemini_20_flash/

  https://x.com/ChristianCao11/status/1933201859470053592

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2006年,十幾名刑警狂毆四名交警,全市交警列隊討公道,結局如何

2006年,十幾名刑警狂毆四名交警,全市交警列隊討公道,結局如何

阿胡
2024-01-08 17:03:39
蘋果新機突然官宣,新配色來了!

蘋果新機突然官宣,新配色來了!

Q科技基地
2025-06-22 12:56:44
伊朗要創造人類歷史?連續擊落4架F-35,卻連以軍導彈都攔截不了

伊朗要創造人類歷史?連續擊落4架F-35,卻連以軍導彈都攔截不了

阿芒娛樂說
2025-06-22 23:55:11
新華社快訊:敘利亞首都大馬士革一座教堂發生爆炸25人喪生

新華社快訊:敘利亞首都大馬士革一座教堂發生爆炸25人喪生

新華社
2025-06-23 00:23:01
內賈德及其家人突傳死訊

內賈德及其家人突傳死訊

高博新視野
2025-06-19 16:30:07
官宣!G7票價創紀錄,哈利伯頓傷情更新,亞歷山大把話挑明

官宣!G7票價創紀錄,哈利伯頓傷情更新,亞歷山大把話挑明

世界體育圈
2025-06-22 10:37:52
朗尼克:花5000萬簽28或30歲球員沒意義,比如拜仁應簽20歲的凱恩

朗尼克:花5000萬簽28或30歲球員沒意義,比如拜仁應簽20歲的凱恩

直播吧
2025-06-22 16:40:16
分析:凱文·杜蘭特重磅交易后,火箭隊和太陽隊的NBA排名

分析:凱文·杜蘭特重磅交易后,火箭隊和太陽隊的NBA排名

好火子
2025-06-23 02:07:25
女網紅曬豪宅曝一年電費40萬,驚動電力局后底細被扒她老公職業值得細品…

女網紅曬豪宅曝一年電費40萬,驚動電力局后底細被扒她老公職業值得細品…

浪花媽媽
2025-06-21 23:14:14
滕帥大手筆!3500萬歐寬薩成隊史標王,藥廠已花6000萬&賣人近2億

滕帥大手筆!3500萬歐寬薩成隊史標王,藥廠已花6000萬&賣人近2億

直播吧
2025-06-22 18:47:15
小因扎吉:所有頂級俱樂部齊聚于世俱杯,唯獨缺了巴薩

小因扎吉:所有頂級俱樂部齊聚于世俱杯,唯獨缺了巴薩

懂球帝
2025-06-22 14:43:16
降幅高達50%左右!全國醫院檢查費用大幅下調,放射類首當其沖…

降幅高達50%左右!全國醫院檢查費用大幅下調,放射類首當其沖…

火山詩話
2025-06-22 17:53:28
大雨、暴雨,局部大暴雨!河南新一輪降雨要來了

大雨、暴雨,局部大暴雨!河南新一輪降雨要來了

魯中晨報
2025-06-22 17:33:28
亞軍沒盤子!王欣瑜僅獲項鏈+鮮花,冠軍選手:連拿獎杯手表香檳

亞軍沒盤子!王欣瑜僅獲項鏈+鮮花,冠軍選手:連拿獎杯手表香檳

侃球熊弟
2025-06-22 21:22:22
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

TVB的四小花
2025-06-14 00:38:15
中國一旦發生戰爭,要記得第一時間要帶好這5樣東西,才能保命

中國一旦發生戰爭,要記得第一時間要帶好這5樣東西,才能保命

阿策聊實事
2025-04-27 17:15:00
美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒有第三隊

美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒有第三隊

直播吧
2025-06-23 01:35:17
Shams:杜蘭特 8 換 1 被太陽交易至火箭!

Shams:杜蘭特 8 換 1 被太陽交易至火箭!

貴圈真亂
2025-06-23 01:21:02
央媒發聲!四天狂掠60萬,承包商血本無歸,紀委終于介入!

央媒發聲!四天狂掠60萬,承包商血本無歸,紀委終于介入!

朗威談星座
2025-06-21 12:12:54
2025-06-23 02:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

教育
手機
本地
藝術
房產

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學!

手機要聞

華為鴻蒙 HarmonyOS 5.0.1.130 版本游戲場景新增“高性能”模式

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 莱阳市| 桐乡市| 南昌市| 固始县| 苏州市| 苗栗县| 额敏县| 开阳县| 瑞丽市| 如皋市| 土默特左旗| 固阳县| 卓资县| 玉林市| 墨脱县| 南宁市| 秀山| 高阳县| 鹤岗市| 长治市| 莒南县| 上饶市| 阿拉善盟| 西丰县| 三明市| 廊坊市| 周至县| 遂溪县| 明水县| 莆田市| 榆中县| 随州市| 汨罗市| 彰化县| 三门峡市| 霞浦县| 南投县| 漳州市| 安图县| 敖汉旗| 金堂县|