99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

12年博士研究,AI兩天爆肝完成!科研效率狂飆3000倍,驚動學術圈

爆肝12年賺2000萬粉絲之后

0
分享至

  

  新智元報道

  編輯:桃子

  【新智元導讀】AI兩天爆肝12年研究,精準吊打人類!多大、哈佛MIT等17家機構聯手放大招,基于GPT-4.1和o3-mini,篩選文獻提取數據,效率飆3000倍重塑AI科研工作流。

  多倫多大學、哈佛MIT等機構聯手AI,短短2天內,竟干完了科學家12年的活!

  研究一出,在全網掀起了巨震。

  沃頓商學院CS教授Ethan Mollick大受震撼,「AI綜述論文體量越來越大,而準確性超越了人類」。

  

  17家研究機構同著一篇論文,他們目標直指,借助GPT-4.1和o3-mini自動化系統綜述。

  為此,研究人員設計了otto-SR平臺,并在2天內,完成了為期12年的系統綜述研究。

  

  論文地址:https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1.full.pdf

  結果顯示,otto-SR在所有任務中,比如篩查靈敏度、提取、篩選特異度方面,能夠媲美甚至超越人類。

  

  在一項具體的測試中,復現并更新一期完整的Cochrane系統綜述,包含了12篇為臨床指南提供依據的綜述。

  令人驚嘆的是,otto-SR識別出的相關研究數量(114篇),是原始綜述(64篇)的2倍之多。

  

  這套AI工作流,讓系統綜述速度飆升3000倍。

  這一速度與傳統人工流程相比,堪稱革命性突破。

  

  otto-SR證實了LLM能以更高準確率,自主執行復雜的科研任務。未來,有望通過快速、可靠的系統綜述,為循證醫學帶來革命性變革。

  人類免疫學家Derya Unutmaz教授認為,這是一個非常了不起的成就。

  

  AI取得如此驚艷的成果,究竟是如何做到的?

  AI全新工作流:

  GPT-4.1篩選,o3-mini提取

  在循證醫學領域,系統綜述(Systematic Reviews)是科學決策的基石。

  一般來說,傳統的系統綜述的完成,往往需要耗費16個月,超10萬美金的成本。

  更重要的是,系統綜述的延誤,可能導致低效甚至有害療法長期被使用,對患者來說是一場災難。

  全新otto-SR是一套基于大模型的「端到端」創新工作流。

  如下圖1所示,不論是「全自動」,還是「人機協同」,兩種綜述綜述模式均支持。

  

  以下是otto-SR的核心模塊:

  1 文獻篩選智能體

  GPT-4.1作為獨立評審員,執行摘要和全文篩選。原始檢索獲得的文獻以RIS格式上傳,系統即可高效處理。

  2 數據提取智能體

  由o3-mini-high執行數據提取任務,快速從文獻中提取關鍵變量。

  3 PDF處理

  通過Gemini 2.0 flash將PDF文件轉換為結構化Markdown格式,便于后續分析。

  摘要+全文篩選,趕超人類

  在摘要篩選階段,otto-SR篩選智能體表現優異。

  其加權靈敏度高達96.6%(區間94.1-100.0%),顯著優于Elicit(88.5%)和雙人評審組(87.3%)。

  在特異度方面,雙人評審組以95.7%位居榜首,otto-SR篩選智能體(93.9%)緊隨其后,優于Elicit(84.2%)。

  這表明otto-SR在最大化捕獲相關文獻(真陽性)的能力上遠超傳統方法,同時保持了較高的篩選準確性。

  

  在全文篩選階段,otto-SR篩選智能體繼續保持領先,靈敏度達96.2%(區間92.3-100.0%),而雙人評審組的靈敏度顯著下降至63.3%。

  在特異度方面,otto-SR(96.9%)與雙人評審組(98.1%)均表現優異,而Elicit因不支持全文篩選未參與比較。

  

  綜合表明,otto-SR在保持高特異度(最小化誤納)的同時,能夠捕獲更多相關研究(真陽性),相較于傳統雙人評審和商Elicit展現了顯著優勢。

  數據提取,刷爆準確率

  在七項系統綜述中,otto-SR數據提取智能體的平均加權準確率高達93.1%(區間91.1-97.0%),顯著優于雙人評審組(79.7%[69.1-91.0%])和Elicit(74.8%[58.8-83.1%])。

  在otto-SR提取智能體的6.9%誤差案例中,事后分析揭示了主要原因:

  · 0.83%(39/4459)因模型無法獲取補充文件或需申請的數據;

  · 0.67%(30/4459)源于解析錯誤;

  · 0.49%(22/4459)屬于otto-SR與原作者均不準確的情況。

  這些發現為未來的優化提供了明確方向,例如改進對補充文件的處理能力和解析準確性。

  

  短短2天,AI爆肝12年工作

  既然GPT-4.1+o3-mini在性能評估中刷新SOTA,那么在實際挑戰任務中,表現又如何呢?

  為了驗證實用價值,作者對「Cochrane系統綜述數據庫」的12篇系統綜述,共146,276篇文獻,進行了復現與更新測試。

  

  otto-SR智能工作流

  otto-SR聚焦每篇綜述的主要結局(Primary Outcome),讓入選標準更清晰。

  篩選智能體準確識別了全部64項納入研究;數據提取智能體按Cochrane原始變量定義提取主要結局數據,程序化剔除了缺失主要結局值、重復研究或無干預-對照組的記錄。

  結果顯示,otto-SR錯誤排除研究的中位數為0篇(IQR 0-0.25)。

  

  值得一提的是,在限定原始檢索截止日期的分析中,otto-SR意外發現了54篇可能被原綜述遺漏的合格研究。

  人工復核確認其中10篇為假陽性,但9篇可能通過作者溝通獲取相關數據。

  進一步更新檢索至2025年5月8日,otto-SR又發現了14篇新合格研究,其中僅2篇假陽性,1篇可能含相關數據。

  另外,在營養學綜述中,otto-SR發現了5項新增研究。這一發現展示了otto-SR挖掘新證據、優化結論的能力。

  

  作者介紹

  Christian Cao

  

  Christian Cao目前是多倫多大學醫學院在讀博士。

  目前其研究方向聚焦于開發人工智能模型,致力于預測可避免的住院事件及糖尿病相關并發癥。

  Rohit Arora

  

  Rohit Arora目前是哈佛大學生物信息學一年級博士生。

  他專注于人工智能在科學研究中的應用,研究方向集中于藥物發現與蛋白質設計。

  參考資料:

  https://x.com/emollick/status/1933704272601911536

  https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1

  https://www.reddit.com/r/singularity/comments/1lb6lel/llm_combo_gpt41_o3minihigh_gemini_20_flash/

  https://x.com/ChristianCao11/status/1933201859470053592

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
69歲老太被兒媳送養老院,偷賣掉留兒子的9套大平層,3月后兒媳懵了

69歲老太被兒媳送養老院,偷賣掉留兒子的9套大平層,3月后兒媳懵了

風起青萍之未
2025-06-09 18:08:37
足協剛換帥僅3天,54歲韓國名帥請纓執教國足,最快下個月能上任

足協剛換帥僅3天,54歲韓國名帥請纓執教國足,最快下個月能上任

侃球熊弟
2025-06-17 01:42:59
美媒發現不對勁,除了稀土外,中國手中還有一張王牌沒用

美媒發現不對勁,除了稀土外,中國手中還有一張王牌沒用

科技處長
2025-06-07 10:52:35
歐美女星Angela White(安吉拉·懷特):從“大白姐”到業界娛樂帝國的女王

歐美女星Angela White(安吉拉·懷特):從“大白姐”到業界娛樂帝國的女王

非專業電影fans
2025-06-16 07:56:04
《歌手2025》第五期結束,遭觀眾怒噴:這個人不換就別播了!

《歌手2025》第五期結束,遭觀眾怒噴:這個人不換就別播了!

糊咖娛樂
2025-06-16 14:23:47
新王登基一年有余,德約的世界第一428周傳奇能否被辛納超越?

新王登基一年有余,德約的世界第一428周傳奇能否被辛納超越?

網球之家
2025-06-16 23:40:35
從醫30年被降職,我躺平只看普通病,2月內科室疑難手術連連告急

從醫30年被降職,我躺平只看普通病,2月內科室疑難手術連連告急

小哥很OK
2025-06-09 21:00:30
少婦天花板!

少婦天花板!

貴圈真亂
2025-06-10 12:03:31
6月以后,大家提前做好準備,若不出意外,國內或將迎來這5個變化

6月以后,大家提前做好準備,若不出意外,國內或將迎來這5個變化

詩詞中國
2025-06-16 12:52:46
布萊德利·庫珀溫馨接女放學!萌娃穿搭吸睛

布萊德利·庫珀溫馨接女放學!萌娃穿搭吸睛

述家娛記
2025-06-16 15:02:18
內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

內娛最大的笑話,一個連路都走不利索的歌手,78歲開演唱會撈錢?

書雁飛史oh
2025-05-08 21:22:23
臺網紅“館長”回顧大陸游幾近哽咽:大陸最美麗的風景是人

臺網紅“館長”回顧大陸游幾近哽咽:大陸最美麗的風景是人

大象新聞
2025-06-16 10:31:09
世俱杯!2-1,巴甲勁旅博塔弗戈掀翻美職聯勁旅,迎來開門紅

世俱杯!2-1,巴甲勁旅博塔弗戈掀翻美職聯勁旅,迎來開門紅

凌空倒鉤
2025-06-16 11:58:20
中國從鹵水中提取99.9%高純銣,在量子與GPS競爭中超越美國

中國從鹵水中提取99.9%高純銣,在量子與GPS競爭中超越美國

知新了了
2025-06-16 14:46:14
中東局勢要變了,俄高官:只要打以色列,俄羅斯敞開供應先進導彈

中東局勢要變了,俄高官:只要打以色列,俄羅斯敞開供應先進導彈

Ck的蜜糖
2025-06-14 04:32:20
3天都頂不住,彈藥耗盡以色列低頭,正式請求國際社會援助

3天都頂不住,彈藥耗盡以色列低頭,正式請求國際社會援助

三叔的裝備空間
2025-06-16 18:43:46
同學為那爾那茜發聲,拋開那爾那茜139分進上戲,她還是很努力的

同學為那爾那茜發聲,拋開那爾那茜139分進上戲,她還是很努力的

芊手若
2025-06-16 16:23:42
李曉霞一家近照,退役越來越美,在大學當教授,嫁普通人幸福美滿

李曉霞一家近照,退役越來越美,在大學當教授,嫁普通人幸福美滿

大西體育
2025-06-13 15:47:45
我國有個系統實行“正廳管正廳再管正廳”架構,上下三級都是正廳

我國有個系統實行“正廳管正廳再管正廳”架構,上下三級都是正廳

小圣雜談原創
2025-06-11 20:11:29
英國威廉王子好友、印度53歲億萬富翁吞下一只蜜蜂后猝逝

英國威廉王子好友、印度53歲億萬富翁吞下一只蜜蜂后猝逝

瀟湘晨報
2025-06-16 10:21:15
2025-06-17 08:07:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12890文章數 66072關注度
往期回顧 全部

科技要聞

為保住200億融資,奧特曼或將引爆“核選項”

頭條要聞

媒體:全球油價飆漲 伊朗的最強大招或在霍爾木茲海峽

頭條要聞

媒體:全球油價飆漲 伊朗的最強大招或在霍爾木茲海峽

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財經要聞

618國補貼錢反漲價 美的深陷價格魔術漩渦

汽車要聞

榮威M7 DMH外觀官圖發布 預計將于下半年正式上市

態度原創

游戲
藝術
旅游
親子
本地

《無主之地4》國區定價全球最低!美區足足貴了68%

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

4月大的女嬰感染臟病,醫生直指孩子父親:你害了她的一生!

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 靖西县| 鱼台县| 石家庄市| 仪征市| 哈尔滨市| 额尔古纳市| 平谷区| 汾西县| 科技| 资兴市| 梁山县| 通道| 长宁区| 普洱| 巢湖市| 新蔡县| 新安县| 贺州市| 江西省| 滁州市| 彭泽县| 黔南| 山丹县| 于都县| 乌苏市| 惠州市| 五常市| 黔西县| 如皋市| 澄江县| 乌拉特后旗| 孝感市| 崇左市| 内丘县| 富裕县| 保山市| 丰县| 达孜县| 阿坝| 桑植县| 白山市|