新智元報道
編輯:Aeneas KingHZ
【新智元導讀】世界首個公開可用AI科學家天團,剛剛組團出道!FutureHouse發布了四個AI科學家Agent,科研能力直接超越o3,文獻搜索已經超過人類博士。
就在剛剛,世界上首個公開可用的AI科學家登場了!
前谷歌CEO Eric Schmidt投資的一家非營利組織FutureHouse,官宣發布四個超人類的AI科學家智能體。
通用智能體:Crow(烏鴉)
自動化文獻綜述智能體:Falcon(獵鷹)
調研智能體:Owl(貓頭鷹)
實驗智能體:Phoenix(鳳凰)
這些智能體都是專門為科學研究而開發。
Crow、Falcon和Owl通過了嚴格的基準測試,在搜索精度和準確性上已經超越了目前頂級搜索模型,比如o3-mini,GPT-4.5,Claude-3.7。
LitQA基準測試精度(正確答案 / 已回答問題)和準確率(正確答案 / 所有問題)比較
FutureHouse還通過實驗,驗證了它們在直接文獻搜索任務中,檢索和綜合能力比博士水平的研究人員具有更高的精度。
在問答、文章總結和矛盾檢測這三個任務中,PaperQA2與人類博士的性能對比
在未來一兩年內,我們將見證:今天科學家所做的大部分桌面工作,都會通過這些AI科學家的幫助而加速!
完勝人類的AI科學家
FutureHouse董事兼CEO Sam Rodriques表示:我們的AI科學家智能體,執行起科學任務來已經完勝人類!
通過把它們串聯起來,我們已經很快有了全新的生物學發現。
這次FutureHouse發布的AI科學家,跟以往那些AI科學家有什么不同呢?
這主要就體現在,Crow、Falcon和Owl可以訪問大量完整的科學文本。
這就意味著,你可以向它們提出關于實驗方案和研究局限性的更詳細的問題。
而一般的網絡搜索智能體,通常只能訪問摘要,這就會錯過這些問題。
而且,它們還能使用各種因素來區分來源質量,確保它們不會依賴低質量的論文,或者是流行的科學來源。
最后還有一點,也是至關重要的一點,就是FutureHouse會為用戶提供一個API,允許研究者將這些智能體直接集成到他們的工作流中。
網友熱評:為我量身打造
已經有網友摩拳擦掌,表示自己已經在想象使用起這個AI科學家的樣子了。
有人表示,自己如今已經63歲了,有過12年的學界經驗,和25年的私人診所經驗,感覺這些AI科學家非常適合自己。
當然,也有人提出疑問:這些產品使用的數據經過允許了嗎?
誠然,目前這些智能體還不能自主完成大多數的科學研究。
不過我們已經可以用它們來生成和評估新的假設,規劃新的實驗,速度還比以前快很多。
另外,Future House內部還有專門用于數據分析、假設生成、蛋白質工程等方面的智能體,未來幾個月內即將上線。
人類科研效率在下降,該AI上場了!
所以,AI科學家具體是怎么工作的?
FutureHouse的三位科學家,為我們提供了詳盡的解答。
據他們介紹,FutureHouse的平臺,是從科學第一的角度構建的,而不僅僅是為了吸引盡可能多的用戶。
這三位科學家,本身對于科學就有著十分濃厚的興趣。
比如左邊的Michaela,在過去十年中,一直對控制人類細胞基因調控的分子機制十分好奇;中間的Mike是一位計算材料科學博士。
右邊的Andrew表示,當他們共同創立未來之家時,他們注意到很多生產力和科學都在下降——每年人類發表的論文都越來越多,但突破卻越來越少。
與此同時,AI卻已經進化到了可以真正加速科學發展的程度。
因此,他們希望能讓AI科學家做到自動化科研的全過程,如搜索文獻、生成假設和進行分析。
其中,Crow非常適合文獻檢索問題,尤其是需要使用開放目標等數據源的問題提供簡潔答案的時候。
Falcon是一個更深度的搜索工具,會考慮更多的來源,會在回答中為我們提供長篇報告。
Owl則專注于先例搜索,如果你好奇某項科研此前是否已經被做過,它的用武之地就來了。而且,它非常擅長梳理出某研究和過去研究的細微差別。
Phoenix則是一名化學藥劑師,比其他科學家顯得更定制化,更關注化學問題。
從PCOS開始,找到值得研究的新藥
比如Michaela表示,自己的朋友最近表示自己有多囊卵巢綜合征(PCOS),卻很難找到一種非激素的治療方法。
Michaela就實測了一番,是否能用這些AI科學家從零知識獲得明確的可驗證假設。
首先,她去問Falcon:請對PCOS進行全面解釋。然后,AI科學家就開始工作了,并且我們可以看到全程的推理過程。
可以看到,Falcon創建了自己的搜索詞,去搜尋已發表的論文,這一切都是它自行決定的。
更特別的是,跟主流的Agent不同,FutureHouse的AI科學家可以訪問科學文獻的全文。引用次數、引用圖表、來自哪些期刊,都一清二楚。
在下一步,它抽出了其中的19份論文,同時還納入了治療PCOS的臨床實驗信息。
隨后,就發生了一個非常密集的推理過程,Falcon會找到與所提問題最相關的背景證據。在整個系統中,這種信息漏斗的功能極其強大。
幾位科學家表示,這個AI是目前該領域性能最強的信息提取系統之一。
下一步,就該Crow出場了。它被問到一個相當具體的問題:在基因組關聯研究中,哪些關鍵基因跟PCOS相關?是否有人做過更清晰的篩選?
果然,Crow發現了此前的研究:已經有人在一項功能基因組學研究中, 將特定基因表達的增加,與細胞培養中睪酮表達的增加聯系起來。
但這是為什么呢?AI科學家也能找到答案。
就這樣,我們從對PCOS一無所知的小白,一下子掌握了決定該領域的一個關鍵差距,本來這會耗費我們大量時間去閱讀資料、與專家交談的,現在全都省去了。
甚至我們還可以點擊鏈接,看到實際的推理軌跡:AI會解釋為什么選擇這項來源。
對于科學家而言,AI科學家的輔助無疑意義重大。
因為在生物學或藥物設計領域擁有豐富經驗的研究者,并不會成為工程師,對于諸如抓取論文、設置分布式數據庫、速率限制這類事都并不擅長。
而這,就是FutureHouse平臺誕生的意義。
那如何在提出假設和檢驗假設這兩方面取得進展呢?這就需要Phoenix出場了。
我們可以向它提問,讓它給出三種可以治療由DENND1A過度表達引起的疾病的新型化合物。(這是基于此前AI科學家給出的調研結果)
因為在這個階段,我們需要找到能治療PCOS的藥物。
我們可以從與蛋白質結合的分子開始,確保它更易溶解,不會進入肝臟或腎臟,以及沒有獲得過專利。
在提問中,我們了解到,目前不存在已知的針對該基因的結合劑。這就提供了一個很好的線索,甚至值得投入資金來進行藥物研發。
最后,AI科學家給出了一份關于不同候選分子的報告,列出了它們已知的結合物,以及為什么可能與調節DENND1A的表達有關。
這樣,它就給出了下一步研究的起點,我們可以直接去實驗室中驗證了。
1年造出AI科學家
FutureHouse的科學總監/聯合創始人Andrew White,在X上回顧了過去一年的研發歷程。
2024年6月,FutureHouse發布了Lab-Bench基準測試。
2024年9月,FutureHous成功開發了PaperQA2智能體。
PaperQA2示意圖:與傳統的RAG不同,在PaperQA2中LLM決定將哪些工具應用于查詢。
2024年10月,他們編寫了17,000篇關于人類編碼基因的維基百科文章,驗證了AI科學家的可行性。
2024年12月,他們利用新的框架和訓練方法,在多個任務上了訓練智能體——在分子克隆和文獻研究方面超過生物學專家20多個準確率點。
昨天,他們隆重發布了FutureHouse平臺。
獨具匠心的智能體,
真正改變科研
與傳統智能體相比,FutureHouse智能體的優勢非常獨特:
它們不僅能夠訪問海量高質量的免費論文和專業科學工具,而且還能從專業的論文數據庫中精準搜索信息。
它們還能模仿研究人員,采用多種方法評估信息來源的質量。
而且這些智能體的推理過程完全透明,對每個信息來源都進行了多階段的深入分析。
更重要的是,用戶可以清晰地查看整個推理過程,了解智能體得出結論的每一步依據。
此外,FutureHouse平臺具備良好的擴展性。
科學家個人往往難以維護自己的AI智能體部署,因此FutureHouse不僅提供了網頁端接口,還開放了API,便于研究人員將其集成進實際工作流中。
通過大規模整合和鏈接這些智能體,科學家能夠大幅提升科學發現的速度與效率。
已知的具體應用場景
這個平臺尤其擅長應對以下兩類問題:
需要詳盡全文文獻分析的研究課題,
或需要運用專業化學工具的探索任務。
具體應用場景包括:
挖掘疾病路徑中的未知機制:用戶可利用Falcon獲取背景知識,Crow挖掘關鍵基因關聯,Owl定位研究空白。
這些操作只要幾分鐘就能完成,而傳統的文獻調研要花費數周時間。
系統梳理文獻中的矛盾:用戶可利用Falcon分析數百篇論文中爭議性話題的矛盾證據,精準指出需要進一步實驗去澄清的爭議點。
深入剖析實驗方法:由于智能體可以訪問計劃全部的科學論文,用戶可詳細詢問實驗方法或研究局限性,挖掘摘要中難以察覺的關鍵細節。
通過API定制研究流程:研究團隊利用API構建軟件系統,實時監控最新論文,或大規模搜索文獻,為篩選實驗結果提供全面的背景知識支持。
尋找目標蛋白的結合候選物:科學家可指示Phoenix基于現有數據,篩選結合目標蛋白的候選物,同時滿足溶解度、官能團或新穎性等復雜要求。
探索化學知識:Phoenix能判斷化合物的新穎性、估算成本、預測化學反應結果,甚至比較直接購買與自行合成化學品的成本。
參考資料:
https://x.com/andrewwhite01/status/1917964546880286802
https://x.com/SGRodriques/status/1917960862071152811
https://www.futurehouse.org/research-announcements/launching-futurehouse-platform-ai-agents
https://techcrunch.com/2025/05/01/futurehouse-releases-ai-tools-it-claims-can-accelerate-science/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.