圖示:Nick McGreivy。
編輯 | 蘿卜皮
說起 AI for Science,可能大家首先會想到累累碩果,例如 Alphafold3、Evo2 等工具可以預測幾乎所有生命分子的結(jié)構(gòu)、功能,GNoME 可以發(fā)現(xiàn) 220 萬種新晶體……這些成果代表了 AI 在科學領域應用的進步歷程。
但是,這些成果有沒有被夸大報道呢?拋開理論,人工智能在現(xiàn)實世界中的實踐效果究竟如何呢?
今天在這里給大家分享一個不同尋常的故事。
故事的主人公名叫 Nick McGreivy,去年剛剛在普林斯頓大學(Princeton University)獲得博士學位,是一名物理學家。
他曾經(jīng)對熱衷于用「AI 加速物理學」,并因此將研究課題的重點轉(zhuǎn)向了機器學習領域。但是,當他嘗試將 AI 技術應用于實際物理問題時,結(jié)果卻令他大失所望。
與大家第一次嘗試 ChatGPT 等聊天機器人得到智障答案時的反應不同(最多也就發(fā)社交平臺罵它一通,該用還得用啊,手動捂臉),Nick 認真分析總結(jié)了他用 PINN 求解偏微分方程時所得到教訓,并深入探究了這件事背后容易被人忽略的一些方法論錯誤,同時對這些錯誤可能存在的科學研究場景進行了分析,最終給出了一些結(jié)論。
把這些結(jié)論翻譯成人話就是:人工智能在科學界廣泛使用,更多是「科學家受益」而非「科學受益」,加上研究者的論文往往報喜不報憂,存在大量幸存者偏差,導致這個領域像「朋友圈精修圖」——光鮮成果背后藏著被濾鏡過濾的失敗和過度美化的期待。
那么,是什么讓曾經(jīng)熱衷于人工智能的 Nick 得出這樣的結(jié)論呢?「AI 加速科學發(fā)現(xiàn)」真的是「偽命題」嗎?Nick 最近發(fā)布的一篇文章也許能找到些線索。
以下為 ScienceAI 對 Nick McGreivy 文章的全文翻譯整理。
2018年,作為普林斯頓大學等離子體物理學二年級博士生,我決定將研究重點轉(zhuǎn)向機器學習。我當時還沒有具體的研究項目,但我認為利用人工智能加速物理學研究可以帶來更大的影響。(坦白說,人工智能領域的高薪工作也激勵了我。)
我最終選擇研究人工智能先驅(qū) Yann LeCun 后來稱之為「確實相當熱門的課題」:利用人工智能求解偏微分方程 (PDE)。然而,當我試圖在自認為很棒的研究成果的基礎上繼續(xù)探索時,卻發(fā)現(xiàn)人工智能方法的表現(xiàn)遠不像宣傳的那樣強悍。
起初,我嘗試將一種被廣泛引用的人工智能方法 PINN 應用于一些相當簡單的偏微分方程,但發(fā)現(xiàn)它出乎意料地脆弱。
后來,盡管數(shù)十篇論文聲稱人工智能方法可以比標準數(shù)值方法更快地求解偏微分方程——在某些情況下甚至快上百萬倍——但我發(fā)現(xiàn),這些比較大多是偏頗的。當我將這些人工智能方法與最先進的數(shù)值方法進行同等比較時,人工智能所擁有的任何狹義的優(yōu)勢通常都消失了。
這段經(jīng)歷讓我開始質(zhì)疑人工智能即將「加速」甚至「徹底改變」科學的說法。我們真的即將進入 DeepMind 所說的「人工智能賦能科學發(fā)現(xiàn)的新黃金時代」嗎?還是說,人工智能在科學領域的整體潛力被夸大了——就像我所在的學科領域一樣?
許多其他機構(gòu)也發(fā)現(xiàn)了類似的問題。例如,2023 年,DeepMind 聲稱發(fā)現(xiàn)了 220 萬個晶體結(jié)構(gòu),這標志著「人類已知穩(wěn)定材料的數(shù)量級擴展」。但當材料科學家分析這些生成的化合物時,他們發(fā)現(xiàn)它們「大部分都是垃圾」,并「禮貌地」表示該論文「沒有得到任何新材料」。
https://www.nature.com/articles/s41586-023-06735-9 https://journals.aps.org/prxenergy/abstract/10.1103/PRXEnergy.3.011002
此外,普林斯頓大學計算機科學家 Arvind Narayanan 和 Sayash Kapoor 整理了一份涵蓋 30 個領域的 648 篇論文的清單,這些論文均犯了名為「數(shù)據(jù)泄露(data leakage)」的方法論錯誤。每篇論文都存在數(shù)據(jù)泄露,導致結(jié)果過于樂觀。他們認為,基于人工智能的科學研究正面臨「可重復性危機」。
https://reproducible.cs.princeton.edu/
https://arxiv.org/abs/2405.15828
然而,過去十年來,人工智能在科學研究中的應用急劇上升。當然,計算機科學的影響最為顯著,但其他學科——物理學、化學、生物學、醫(yī)學和社會科學——也見證了人工智能的快速應用。在所有科學出版物中,人工智能的使用率從 2015 年的 2% 增長到 2022 年的近 8%。雖然很難找到過去幾年的數(shù)據(jù),但我們有充分的理由相信,這種持續(xù)上升地增長仍在持續(xù)。
圖示:越來越多的科學家使用 AI 進行研究。
需要明確的是,人工智能可以推動科學突破。我擔心的是突破的規(guī)模和頻率。人工智能是否真的展現(xiàn)出足夠的潛力,足以支撐如此大規(guī)模的人才、培訓、時間和資金投入,從現(xiàn)有的研究方向轉(zhuǎn)向單一范式?
每個科學領域?qū)θ斯ぶ悄艿捏w驗都不同,因此我們應謹慎地進行論述。然而,我確信,我的經(jīng)驗中的一些教訓可以廣泛適用于整個科學領域:
1、越來越多的科學家們正熱衷于使用人工智能進行科研,與其說是因為它「有利于科學」,不如說是因為它的存在本身就「有利于科學家」。
2、由于人工智能研究人員幾乎從不發(fā)表負面結(jié)果,因此「人工智能」學科正經(jīng)歷著「幸存者偏差」。
3、發(fā)表的積極成果往往對人工智能的潛力過于樂觀。
相關鏈接:https://arxiv.org/abs/2412.07727
因此,我開始相信,人工智能在科學上總體上并沒有看上去那么成功和具有革命性。
歸根結(jié)底,我不知道人工智能能否扭轉(zhuǎn)數(shù)十年來科學生產(chǎn)力下降、科學進步停滯(甚至減速)的趨勢。我認為沒有人能做到。但除非高級人工智能領域出現(xiàn)重大(在我看來不太可能)突破,否則我預計人工智能將更多地成為一種漸進式、不均衡的科學進步的常規(guī)工具,而非革命性的工具。
對 PINN 的失望經(jīng)歷
2019 年夏天,我初次體驗了后來成為我論文主題的內(nèi)容:用人工智能求解偏微分方程。偏微分方程是用于模擬各種物理系統(tǒng)的數(shù)學方程,求解(即模擬)偏微分方程是計算物理和工程領域中極其重要的任務。我的實驗室使用偏微分方程來模擬等離子體的行為,例如聚變反應堆內(nèi)部以及外太空星際介質(zhì)中的等離子體行為。
用于解決 PDE 的 AI 模型是自定義深度學習模型,同 AlphaFold 相比,它與 ChatGPT 更類似。
我嘗試的第一個方法是所謂的物理信息神經(jīng)網(wǎng)絡(PINN)。PINN 的概念最近在一篇頗具影響力的論文中被提出,該論文已獲得數(shù)百次引用。
https://www.sciencedirect.com/science/article/abs/pii/S0021999118307125
https://github.com/maziarraissi/PINNs
與標準數(shù)值方法相比,PINN 是一種完全不同的求解 PDE 的方法。標準方法將 PDE 解表示為一組像素(例如圖像或視頻中的像素),并為每個像素值推導方程。相比之下,PINN 將 PDE 解表示為神經(jīng)網(wǎng)絡,并將方程代入損失函數(shù)。
作為一個甚至還沒有導師的思想天真的研究生,PINN 對我來說有著無比的吸引力。它們看起來如此簡單、優(yōu)雅、通用。
它們似乎也取得了不錯的結(jié)果。介紹 PINN 的論文表示:它們的「有效性」已「通過一系列經(jīng)典流體問題、量子力學、反應擴散系統(tǒng)以及非線性淺水波的傳播得到了證明」。我想,如果 PINN 能夠解決所有這些偏微分方程,那么它們肯定也能解決我實驗室關注的一些等離子體物理偏微分方程。
但是,當我用另一個同樣極其簡單的偏微分方程(一維弗拉索夫方程)替換那篇影響深遠的論文(一維Burgers方程)中的一個示例時,結(jié)果看起來與精確解完全不同。
最終,經(jīng)過大量的調(diào)優(yōu),我得到了一些看似正確的結(jié)果。然而,當我嘗試稍微復雜一些的偏微分方程(例如一維弗拉索夫-泊松方程)時,無論怎么調(diào)優(yōu)都無法得到合適的解。
幾周失敗后,我給另一所大學的朋友發(fā)了消息,他告訴我他也嘗試過使用 PINN,但沒有取得好的結(jié)果。
從 PINN 實驗中學到的東西
最終,我意識到問題出在哪里。PINN 論文的原作者和我一樣,「觀察到某些特定的設置對一個方程能產(chǎn)生很棒的結(jié)果,但對另一個方程卻可能無效」。但是,為了說服讀者相信 PINN 有多么強悍,他們沒有展示任何 PINN 失敗的例子。
這次經(jīng)歷教會了我一些事情。
首先,要謹慎對待人工智能研究的表面價值。大多數(shù)科學家并不想誤導任何人,但由于他們有強烈的動機去呈現(xiàn)有利的結(jié)果,所以仍然有被誤導的風險。展望未來,我必須更加謹慎,甚至(或者說尤其)對那些成果顯著、影響深遠的論文保持懷疑態(tài)度。
其次,人們很少發(fā)表關于人工智能方法何時失敗的論文,而只發(fā)表關于它們何時成功的論文。
PINN 論文的原作者并沒有發(fā)表他們的方法無法解決的偏微分方程。我也沒有發(fā)表我那些失敗的實驗,只是在一個不太知名的會議上做了海報展示。因此,很少有研究人員聽說過它們。事實上,盡管 PINN 非常受歡迎,但四年后才有人發(fā)表一篇關于其失效模式的論文。那篇論文現(xiàn)在已被引用近千次,這表明許多其他科學家也嘗試過 PINN 并發(fā)現(xiàn)了類似的問題。
https://github.com/nickmcgreivy/PINN/blob/master/APS-Poster-McGreivy-2019.pdf
https://proceedings.neurips.cc/paper/2021/hash/df438e5206f31600e6ae4af72f2725f1-Abstract.html
第三,我得出結(jié)論,PINN 不是我想要的方法。它們確實簡單優(yōu)雅,但也太不可靠、太繁瑣、太慢了。
截至今天,六年后,原始 PINN 論文已被引用 14,000 次,使其成為 21 世紀被引用次數(shù)最多的數(shù)值方法論文。
盡管現(xiàn)在人們普遍認為 PINN 在求解偏微分方程方面通常不如標準數(shù)值方法,但 PINN 在解決另一類被稱為逆問題的問題上的表現(xiàn)如何仍存在爭議。支持者聲稱 PINN 對逆問題「特別有效」,但一些研究人員對此提出了強烈質(zhì)疑。
我不知道爭論的哪一方是正確的。我愿意相信所有這些 PINN 研究已經(jīng)取得了一些有用的成果,但如果有一天我們回頭看 PINN,發(fā)現(xiàn)它只是一個巨大的引用泡沫,我也不會感到驚訝。
基線薄弱導致過度樂觀
我的論文專注于使用深度學習模型求解偏微分方程,這些模型與傳統(tǒng)求解器類似,將偏微分方程的解視為網(wǎng)格或圖形上的一組像素。
與 PINN 不同,這種方法在我實驗室關注的復雜、時間相關的偏微分方程上展現(xiàn)出了巨大的潛力。最令人印象深刻的是,一篇又一篇的論文證明了這種方法能夠比標準數(shù)值方法更快地求解偏微分方程——通常快幾個數(shù)量級。
最讓我和導師興奮的例子是流體力學中的偏微分方程,例如納維-斯托克斯方程。我們認為我們可能會看到類似的加速,因為我們關心的偏微分方程——例如描述聚變反應堆中等離子體的方程——具有類似的數(shù)學結(jié)構(gòu)。理論上,這可以讓像我們這樣的科學家和工程師模擬更大的系統(tǒng),更快地優(yōu)化現(xiàn)有設計,并最終加快研究的步伐。
到那時,我已經(jīng)足夠成熟,知道在人工智能研究中,事情并不總是像表面那么美好。我知道可靠性和穩(wěn)健性可能是嚴重的問題。如果人工智能模型能夠提供更快的模擬速度,但這些模擬的可靠性卻更低,那么這種權(quán)衡是否值得?我當時并不知道答案,于是開始著手尋找答案。
但當我嘗試——并且大多以失敗告終——使這些模型更加可靠時,我開始質(zhì)疑人工智能模型在加速偏微分方程方面究竟展現(xiàn)出多大的潛力。
根據(jù)一些備受矚目的論文,人工智能求解納維-斯托克斯方程的速度比標準數(shù)值方法快幾個數(shù)量級。然而,我最終發(fā)現(xiàn),這些論文中使用的基線方法并非目前最快的數(shù)值方法。當我將人工智能與更先進的數(shù)值方法進行比較時,我發(fā)現(xiàn)人工智能并不比更強的基線方法更快(或者最多只是略快一點)。
圖示:當將用于解決 PDE 的 AI 方法與強基線進行比較時,無論 AI 具有何種狹義的優(yōu)勢,通常都會消失。
我和我的導師最終發(fā)表了一篇系統(tǒng)綜述,探討了使用人工智能求解流體力學偏微分方程的研究。我們發(fā)現(xiàn),在 76 篇聲稱優(yōu)于標準數(shù)值方法的論文中,有 60 篇(79%)使用了較弱的基線方法,這要么是因為它們沒有與更先進的數(shù)值方法進行比較,要么是因為它們沒有在平等的基礎上進行比較。那些加速比較大的論文都與弱基線方法進行了比較,這表明結(jié)果越令人印象深刻,論文的比較就越有可能不公平。
相關鏈接:https://www.nature.com/articles/s42256-024-00897-5
圖示:一項系統(tǒng)性回顧研究的結(jié)果,比較了用于求解流體力學偏微分方程的人工智能方法與標準數(shù)值方法。報告負面結(jié)果的論文很少,而報告正面結(jié)果的論文大多與較弱的基線方法進行了比較。
我們再次發(fā)現(xiàn)的證據(jù)表明,研究人員傾向于不報告負面結(jié)果,這種效應被稱為報告偏差。我們最終得出結(jié)論,AI 用于 PDE 求解的研究過于樂觀:「薄弱的基線會導致過于積極的結(jié)果,而報告偏差會導致負面結(jié)果的漏報。」
這些發(fā)現(xiàn)引發(fā)了關于計算科學和工程領域人工智能的爭論:
1、喬治華盛頓大學 (GWU) 教授 Lorena Barba 曾在她所謂的「愚弄大眾的科學機器學習」中討論過糟糕的研究實踐,她認為我們的研究結(jié)果是「確鑿的證據(jù),支持了我們計算科學界對人工智能的炒作和不科學的樂觀主義的擔憂」。
2、谷歌研究院一個獨立得出類似結(jié)論的團隊的負責人 Stephan Hoyer 將我們的論文描述為「對我為什么從偏微分方程的人工智能轉(zhuǎn)向天氣預報和氣候建模的一個很好的總結(jié)」,這些是人工智能看起來更有前景的應用。
3、Johannes Brandstetter 是林茨約翰肯塔基大學 (JKU Linz) 的教授,同時也是一家提供「人工智能驅(qū)動的物理模擬」的初創(chuàng)公司的聯(lián)合創(chuàng)始人。他認為,人工智能可能會在更復雜的工業(yè)應用中取得更好的效果,并且「該領域的未來無疑充滿希望和潛在的影響」。
在我看來,人工智能最終可能會在某些與求解偏微分方程相關的應用中發(fā)揮作用,但目前我并沒有看到太多樂觀的理由。我希望看到更多關注點放在如何達到數(shù)值方法的可靠性以及紅隊人工智能方法(red teaming AI methods)上;目前,它們既缺乏理論保證,也缺乏標準數(shù)值方法經(jīng)實驗驗證的穩(wěn)健性。
我還希望資助機構(gòu)能夠激勵科學家為偏微分方程組創(chuàng)建挑戰(zhàn)性問題。CASP 就是一個很好的例子,這是一個兩年一度的蛋白質(zhì)結(jié)構(gòu)預測競賽,在過去 30 年里,它幫助激勵并集中了該領域的研究。
人工智能會加速科學發(fā)展嗎?
除了蛋白質(zhì)結(jié)構(gòu)(人工智能實現(xiàn)科學突破的典型例子)之外,人工智能取得科學進步的一些例子包括:
1、天氣預報,與傳統(tǒng)的基于物理的預報相比,人工智能預報的準確率提高了 20%(盡管分辨率仍然較低)。
2、藥物研發(fā):初步數(shù)據(jù)顯示,AI 發(fā)現(xiàn)的藥物在 I 期臨床試驗中取得了更大的成功(但 II 期臨床試驗中則不然)。如果這一趨勢持續(xù)下去,這意味著端到端藥物審批率將提高近兩倍。
但人工智能公司、學術和政府組織以及媒體越來越多地將人工智能不僅視為一種有用的科學工具,而且認為它「將對科學產(chǎn)生變革性影響」。
我認為我們不應該忽視這些說法。盡管根據(jù) DeepMind 的說法,目前的 LLM「仍然難以達到人類科學家所依賴的更深層次的創(chuàng)造力和推理能力」,但假設先進的人工智能系統(tǒng)有朝一日或許能夠完全自動化科研流程。我不認為這種情況會在短期內(nèi)發(fā)生——甚至永遠不會發(fā)生。但如果這樣的系統(tǒng)被創(chuàng)造出來,毫無疑問它們將改變并加速科學的發(fā)展。
然而,根據(jù)我的研究經(jīng)驗中的一些教訓,我認為我們應該對更傳統(tǒng)的人工智能技術能夠顯著加速科學進步的想法持懷疑態(tài)度。
對人工智能的科學啟示
大多數(shù)關于人工智能加速科學發(fā)展的論調(diào)都來自人工智能公司或從事人工智能研究的科學家,他們直接或間接地從這些論調(diào)中獲益。例如,NVIDIA 首席執(zhí)行官黃仁勛就曾談論「人工智能將推動科學突破」和「將科學發(fā)展速度提高一百萬倍」。由于存在經(jīng)濟利益沖突,NVIDIA 經(jīng)常對人工智能在科學領域的應用發(fā)表夸張的言論。
你可能會認為,科學家越來越多地采用人工智能,這證明了人工智能在科學研究中的實用性。畢竟,如果人工智能在科學研究中的使用呈指數(shù)級增長,那一定是因為科學家覺得它有用,對吧?
我不太確定。事實上,我懷疑科學家們轉(zhuǎn)向人工智能,與其說是因為它有利于科學,不如說是因為它對他們自己有利。
想想我在 2018 年轉(zhuǎn)向人工智能的動機。雖然我真心認為人工智能可能在等離子體物理學中發(fā)揮作用,但我主要還是為了更高的薪水、更好的工作前景和學術聲望。我還注意到,實驗室里的高層通常對人工智能的融資潛力更感興趣,而不是技術方面的考慮。
后續(xù)研究發(fā)現(xiàn),使用人工智能的科學家更有可能發(fā)表高被引論文,平均引用次數(shù)是其他科學家的三倍。鑒于使用人工智能的動力如此強烈,如此多的科學家選擇這樣做也就不足為奇了。
因此,即使人工智能在科學領域取得了真正令人印象深刻的成果,也并不意味著它對科學做出了貢獻。更多時候,這僅僅反映了人工智能未來應用的潛力。
這是因為從事人工智能研究的科學家(包括我自己)經(jīng)常采用逆向思維。我們不是先發(fā)現(xiàn)問題,然后嘗試尋找解決方案,而是先假設人工智能就是解決方案,然后再尋找需要解決的問題。
但由于很難確定可以使用人工智能解決的開放性科學挑戰(zhàn),這種「用錘子尋找釘子」的科學風格意味著研究人員通常會解決適合使用人工智能但已經(jīng)被解決或不會創(chuàng)造新的科學知識的問題。
為了準確評估人工智能對科學的影響,我們需要切實地審視科學本身。但遺憾的是,科學文獻并非評估人工智能在科學領域成就的可靠來源。
一個問題是幸存者偏差。用一位研究人員的話來說,由于人工智能研究「幾乎沒有發(fā)表負面結(jié)果」,我們通常只看到人工智能在科學上的成功,而看不到其失敗。然而,如果沒有負面結(jié)果,我們評估人工智能對科學影響的嘗試通常會被扭曲。
任何研究過重復危機的人都知道,幸存者偏差是科學界的一個重大問題。通常,罪魁禍首是一個篩選過程,在這個過程中,統(tǒng)計上不顯著的結(jié)果被從科學文獻中過濾掉。
例如,醫(yī)學研究中的z值分布如下所示。z 值在 -1.96 到 1.96 之間表示結(jié)果不具有統(tǒng)計學顯著性。這些值附近的明顯不連續(xù)性表明,許多科學家要么沒有發(fā)表介于這些值之間的結(jié)果,要么在達到統(tǒng)計學顯著性的閾值之前對數(shù)據(jù)進行了修改。
問題在于,如果研究人員未能公布負面結(jié)果,可能會導致醫(yī)生和公眾高估醫(yī)療治療的有效性。
圖示:醫(yī)學研究中超過一百萬個 z 值的分布。陰性結(jié)果(z 值在 -1.96 到 1.96 之間的結(jié)果)大多缺失。
類似的事情也發(fā)生在人工智能科學領域,盡管選擇過程并非基于統(tǒng)計顯著性,而是取決于所提出的方法是否優(yōu)于其他方法,或是否成功完成某些新任務。這意味著,人工智能科學領域的研究人員幾乎總是報告人工智能的成功,而很少在人工智能失敗時發(fā)表結(jié)果。
第二個問題是,即使成功發(fā)表,某些方法論陷阱也常常會導致人們對人工智能在科學領域的應用得出過于樂觀的結(jié)論。不同領域中陷阱的細節(jié)和嚴重程度似乎有所不同,但大多數(shù)陷阱可以歸為以下四類:數(shù)據(jù)泄露、基線薄弱、選擇性采納和誤報。
雖然造成這種過度樂觀傾向的原因很復雜,但核心問題似乎在于利益沖突,即評估人工智能模型的人也從這些評估中獲益。
這些問題似乎已經(jīng)夠糟糕了,我鼓勵人們以對待營養(yǎng)科學中令人驚訝的結(jié)果的方式,本能地持懷疑態(tài)度來對待人工智能科學領域中令人印象深刻的結(jié)果。
好了,故事看完了。
不知道對大家有沒有什么啟示,歡迎在評論區(qū)留下你的看法。
相關內(nèi)容:https://www.understandingai.org/p/i-got-fooled-by-ai-for-science-hypeheres
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.