99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

12年博士研究,AI兩天爆肝完成!科研效率狂飆3000倍,驚動學術圈

爆肝12年賺2000萬粉絲之后

0
分享至


新智元報道

編輯:桃子

【新智元導讀】AI兩天爆肝12年研究,精準吊打人類!多大、哈佛MIT等17家機構聯手放大招,基于GPT-4.1和o3-mini,篩選文獻提取數據,效率飆3000倍重塑AI科研工作流。

多倫多大學、哈佛MIT等機構聯手AI,短短2天內,竟干完了科學家12年的活!

研究一出,在全網掀起了巨震。

沃頓商學院CS教授Ethan Mollick大受震撼,「AI綜述論文體量越來越大,而準確性超越了人類」。


17家研究機構同著一篇論文,他們目標直指,借助GPT-4.1和o3-mini自動化系統綜述。

為此,研究人員設計了otto-SR平臺,并在2天內,完成了為期12年的系統綜述研究。


論文地址:https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1.full.pdf

結果顯示,otto-SR在所有任務中,比如篩查靈敏度、提取、篩選特異度方面,能夠媲美甚至超越人類。


在一項具體的測試中,復現并更新一期完整的Cochrane系統綜述,包含了12篇為臨床指南提供依據的綜述。

令人驚嘆的是,otto-SR識別出的相關研究數量(114篇),是原始綜述(64篇)的2倍之多。


這套AI工作流,讓系統綜述速度飆升3000倍。

這一速度與傳統人工流程相比,堪稱革命性突破。


otto-SR證實了LLM能以更高準確率,自主執行復雜的科研任務。未來,有望通過快速、可靠的系統綜述,為循證醫學帶來革命性變革。

人類免疫學家Derya Unutmaz教授認為,這是一個非常了不起的成就。


AI取得如此驚艷的成果,究竟是如何做到的?

AI全新工作流:

GPT-4.1篩選,o3-mini提取

在循證醫學領域,系統綜述(Systematic Reviews)是科學決策的基石。

一般來說,傳統的系統綜述的完成,往往需要耗費16個月,超10萬美金的成本。

更重要的是,系統綜述的延誤,可能導致低效甚至有害療法長期被使用,對患者來說是一場災難。

全新otto-SR是一套基于大模型的「端到端」創新工作流。

如下圖1所示,不論是「全自動」,還是「人機協同」,兩種綜述綜述模式均支持。


以下是otto-SR的核心模塊:

1 文獻篩選智能體

GPT-4.1作為獨立評審員,執行摘要和全文篩選。原始檢索獲得的文獻以RIS格式上傳,系統即可高效處理。

2 數據提取智能體

由o3-mini-high執行數據提取任務,快速從文獻中提取關鍵變量。

3 PDF處理

通過Gemini 2.0 flash將PDF文件轉換為結構化Markdown格式,便于后續分析。

摘要+全文篩選,趕超人類

在摘要篩選階段,otto-SR篩選智能體表現優異。

其加權靈敏度高達96.6%(區間94.1-100.0%),顯著優于Elicit(88.5%)和雙人評審組(87.3%)。

在特異度方面,雙人評審組以95.7%位居榜首,otto-SR篩選智能體(93.9%)緊隨其后,優于Elicit(84.2%)。

這表明otto-SR在最大化捕獲相關文獻(真陽性)的能力上遠超傳統方法,同時保持了較高的篩選準確性。


在全文篩選階段,otto-SR篩選智能體繼續保持領先,靈敏度達96.2%(區間92.3-100.0%),而雙人評審組的靈敏度顯著下降至63.3%。

在特異度方面,otto-SR(96.9%)與雙人評審組(98.1%)均表現優異,而Elicit因不支持全文篩選未參與比較。


綜合表明,otto-SR在保持高特異度(最小化誤納)的同時,能夠捕獲更多相關研究(真陽性),相較于傳統雙人評審和商Elicit展現了顯著優勢。

數據提取,刷爆準確率

在七項系統綜述中,otto-SR數據提取智能體的平均加權準確率高達93.1%(區間91.1-97.0%),顯著優于雙人評審組(79.7%[69.1-91.0%])和Elicit(74.8%[58.8-83.1%])。

在otto-SR提取智能體的6.9%誤差案例中,事后分析揭示了主要原因:

· 0.83%(39/4459)因模型無法獲取補充文件或需申請的數據;

· 0.67%(30/4459)源于解析錯誤;

· 0.49%(22/4459)屬于otto-SR與原作者均不準確的情況。

這些發現為未來的優化提供了明確方向,例如改進對補充文件的處理能力和解析準確性。


短短2天,AI爆肝12年工作

既然GPT-4.1+o3-mini在性能評估中刷新SOTA,那么在實際挑戰任務中,表現又如何呢?

為了驗證實用價值,作者對「Cochrane系統綜述數據庫」的12篇系統綜述,共146,276篇文獻,進行了復現與更新測試。


otto-SR智能工作流

otto-SR聚焦每篇綜述的主要結局(Primary Outcome),讓入選標準更清晰。

篩選智能體準確識別了全部64項納入研究;數據提取智能體按Cochrane原始變量定義提取主要結局數據,程序化剔除了缺失主要結局值、重復研究或無干預-對照組的記錄。

結果顯示,otto-SR錯誤排除研究的中位數為0篇(IQR 0-0.25)。


值得一提的是,在限定原始檢索截止日期的分析中,otto-SR意外發現了54篇可能被原綜述遺漏的合格研究。

人工復核確認其中10篇為假陽性,但9篇可能通過作者溝通獲取相關數據。

進一步更新檢索至2025年5月8日,otto-SR又發現了14篇新合格研究,其中僅2篇假陽性,1篇可能含相關數據。

另外,在營養學綜述中,otto-SR發現了5項新增研究。這一發現展示了otto-SR挖掘新證據、優化結論的能力。


作者介紹

Christian Cao


Christian Cao目前是多倫多大學醫學院在讀博士。

目前其研究方向聚焦于開發人工智能模型,致力于預測可避免的住院事件及糖尿病相關并發癥。

Rohit Arora


Rohit Arora目前是哈佛大學生物信息學一年級博士生。

他專注于人工智能在科學研究中的應用,研究方向集中于藥物發現與蛋白質設計。

參考資料:

https://x.com/emollick/status/1933704272601911536

https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1

https://www.reddit.com/r/singularity/comments/1lb6lel/llm_combo_gpt41_o3minihigh_gemini_20_flash/

https://x.com/ChristianCao11/status/1933201859470053592


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這一次,下了章子怡面子的趙麗穎,終于不再顧忌內娛所謂的體面!

這一次,下了章子怡面子的趙麗穎,終于不再顧忌內娛所謂的體面!

頭號劇委會
2025-06-14 00:10:03
女婿罵我老不死,我轉頭賣掉給女兒的5套學區房,女兒:媽做得對

女婿罵我老不死,我轉頭賣掉給女兒的5套學區房,女兒:媽做得對

風起青萍之未
2025-06-14 18:25:12
紅星觀察|以伊對攻暫呈“半斤八兩” 專家:未來真正變量,是美國是否進一步介入

紅星觀察|以伊對攻暫呈“半斤八兩” 專家:未來真正變量,是美國是否進一步介入

紅星新聞
2025-06-15 21:53:37
楊瀚森結束老鷹試訓:面試兩輪+今夏3次對話 已試訓9支NBA球隊

楊瀚森結束老鷹試訓:面試兩輪+今夏3次對話 已試訓9支NBA球隊

醉臥浮生
2025-06-15 11:09:36
“達賴”與“班禪”是什么關系?誰的地位更高?

“達賴”與“班禪”是什么關系?誰的地位更高?

故衣談歷史
2025-06-15 15:17:21
丹麥軍隊采購1000輛全新德國奔馳G級全地形車,提升越野能力

丹麥軍隊采購1000輛全新德國奔馳G級全地形車,提升越野能力

深度Militaire
2025-06-15 09:43:16
張翰40歲扮高中生引爭議,網友:像復讀了十多年

張翰40歲扮高中生引爭議,網友:像復讀了十多年

梁獼愛玩車
2025-06-15 15:53:34
千萬別急,樓市的下一個周期就要來了。。。

千萬別急,樓市的下一個周期就要來了。。。

愛看劇的阿峰
2025-06-15 00:05:08
以軍已清空伊朗防空系統,哈梅內伊隨時可能變哈尼亞第二

以軍已清空伊朗防空系統,哈梅內伊隨時可能變哈尼亞第二

移光幻影
2025-06-14 22:49:21
骨科醫生告誡:立即停止食用這6種食物,吃得越多,骨密度越低

骨科醫生告誡:立即停止食用這6種食物,吃得越多,骨密度越低

華庭講美食
2025-06-15 17:08:41
以色列的“警告”如期而至,伊朗今夜無眠

以色列的“警告”如期而至,伊朗今夜無眠

智慧生活筆記
2025-06-16 00:34:42
一套虧650萬!廣州天河駿景花園從7.4萬到現在4萬,炒房客懵了

一套虧650萬!廣州天河駿景花園從7.4萬到現在4萬,炒房客懵了

小人物看盡人間百態
2025-06-15 06:10:06
宋小寶程野曬與趙本山合照慶祝父親節,趙本山滿頭白發面色紅潤!

宋小寶程野曬與趙本山合照慶祝父親節,趙本山滿頭白發面色紅潤!

TVB的四小花
2025-06-16 01:50:41
哈梅內伊家族富可敵國,子女都在歐美,用宗教可以控制伊朗民眾

哈梅內伊家族富可敵國,子女都在歐美,用宗教可以控制伊朗民眾

可樂談情感
2025-06-15 16:10:50
炸裂!佛山女老師被舉報出軌多人,骯臟聊天曝光,自稱被頂到腰疼

炸裂!佛山女老師被舉報出軌多人,骯臟聊天曝光,自稱被頂到腰疼

派大星紀錄片
2025-05-17 13:22:23
女子救人被歹徒蹂躪4小時,被救者拒絕指證,第二天就被分尸

女子救人被歹徒蹂躪4小時,被救者拒絕指證,第二天就被分尸

罪案洞察者
2025-03-17 09:25:35
傳陳夢花錢買奧運單打資格引日媒關注:這是頂尖選手特有的宿命嗎

傳陳夢花錢買奧運單打資格引日媒關注:這是頂尖選手特有的宿命嗎

振華觀史
2025-06-15 23:40:29
30823人觀戰!蘇超上座率創新高,單輪或超中超,全球排第6

30823人觀戰!蘇超上座率創新高,單輪或超中超,全球排第6

奧拜爾
2025-06-15 18:10:34
孫道臨回憶往事:母親受驚嚇而死,他被演員梁波羅傷害

孫道臨回憶往事:母親受驚嚇而死,他被演員梁波羅傷害

細品名人
2025-06-10 07:27:13
為什么在中國耍賴的老人,到了加拿大都變乖了?

為什么在中國耍賴的老人,到了加拿大都變乖了?

霹靂炮
2025-06-14 22:56:06
2025-06-16 02:40:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12882文章數 66070關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

家居
手機
教育
旅游
親子

家居要聞

森林幾何 極簡灰調原木風

手機要聞

羅巍建議榮耀400系列手機用戶不貼鏡頭膜:影響拍照效果,還會導致雜音

教育要聞

特別關注!海淀8所中小學急需崗位,快來看看~

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

如果有孩子告訴你遇到了壞人,請你一定要這么做!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 道孚县| 苗栗市| 南通市| 修文县| 华安县| 屯门区| 苏州市| 炎陵县| 曲靖市| 民勤县| 永寿县| 金昌市| 吉隆县| 普安县| 汶川县| 洪湖市| 巨野县| 金湖县| 长白| 板桥市| 阜康市| 安康市| 龙陵县| 祁东县| 社旗县| 洮南市| 图片| 会理县| 奉新县| 河北区| 西昌市| 海宁市| 陵川县| 桂阳县| 乌审旗| 灵台县| 大洼县| 南靖县| 长沙县| 卫辉市| 沙洋县|