關于MIT博士生Aidan Toner-Rodgers論文造假一事,在AI、經濟學、科研、政策和媒體圈子里引起強烈反響,正如它6個月前在相同的圈子里引起轟動一樣。
MIT經過內部審查之后得出結論,這篇論文必須撤回。而全球最頂級的經濟學期刊之The Quarterly Journal of Economics 原本即將發表。這篇論文的導師、諾貝爾經濟學獎得主阿西莫格魯(Daron Acemoglu)以及奧托(David Autor)教授公開請求撤稿。
這篇預印版論文《人工智能、科學發現和產品創新》所涉及的話題,正是亟待證明的一個問題:AI在能為經濟帶來多大增長貢獻,其中最關鍵的一個領域,就是企業的研發與創新。
可以說,如果誰能拿出一篇論文,證明AI在像新材料發現這樣具有重大經濟價值的科學領域、在企業研發環境中能顯著提升效率,并且在研究方法上有所突破的話,相當于摘取一個小小的研究圣杯。
于是,MIT經濟系二年級博士生Toner-Rogers同學去年決定大膽一試,結果它現在已經被勒令退學了。
質疑AI發現新材料的化學家
這件事值得一提的是倫敦大學學院(UCL)無機與材料化學教授Robert Palgrave。
他在論文發布后的一周,在一片壓倒性的贊譽聲浪中,提出了自己的質疑,這方面科技媒體新智元在文章中做了非常好的梳理,不再贅述。
對AI在化學與材料科學領域的探索,Palgrave教授一直以來持有保留態度。許多人應該還記得這篇2023年11月谷歌發布的這篇轟動一時的論文:
谷歌DeepMind使用一個名為GNoME(圖神經網絡,與MIT博士論文里杜撰的那家企業用的基本一樣)的模型,預測出了220萬種新的晶體,其中38萬種具有穩定的結構。
過去的十年,世界各國的科學家用計算機模擬的方法發現了28000種新材料,加上人類數百年來利用傳統實驗的方法發現的大約20000種穩定性材料,人類發現的穩定晶體數量總共達到了48000個。無機晶體的發現在固態化學中具有基礎科學和技術的重大意義。
谷歌稱:這相當于“近800年的知識積累”,并且是“人類已知穩定材料數量的一個數量級的擴展”。這也是聽起來過于美好,似乎大模型一跑,科學難關都可以攻克。
包括普林斯頓、倫敦大學學院、加州大學圣芭芭拉分校的化學家和材料學家分析了DeepMind發現的一部分材料,他們認為,“我們尚未在那個子集中發現任何特別新穎的化合物”。用可信性、有用性、新穎性的尺度來衡量,還很難說DeepMind的研究是材料科學的突破。它的算法沒有問題,但缺乏新穎性和有用性。
其中就有Palgrave教授。他在質疑MIT同學的論文時,引用了《化學材料》雜志上的一篇針對谷歌的觀點論文,加州大學圣芭芭拉分校的化學教授Anthony Cheetham和Ram Seshadri隨機選取了DeepMind發布的38萬種提議結構的樣本,并表示它們都。的確,大模型跑出來的“許多都是對已知化合物的無關緊要的改編”,這些東西是不是新材料,有沒有用,還是要化學材料專家說了算。
Bull Shit 探測器
另一位是來自美國能源部的國家能源技術實驗室的Ben(Benjamin Shindel)。他是一位化學專家和預測愛好者,谷歌和MIT同學的把戲,從本質上來說,就是用圖神經網絡,根據科學家的提示要求,生成新的晶體結構。
他的名字的簡寫是BS,所以他開了個博客叫BS探測器
這篇文章是MIT官方公布了其博士生造假論文之后寫的,他提出了四點觀察 :
1,像往常一樣,論文從預印本開始,而且還有兩位大咖的背書。阿西莫格魯說:“這太棒了。” 奧托說:“我震驚了。”
2,好得難以置信。“研究結果簡直一塵不染。”
3,有材料科學家讀過這篇論文嗎?“審查/閱讀/關注這篇論文的絕大多數人都是經濟學家和對人工智能使用的影響感興趣的人。”
4,教訓:對這類研究結果持更加懷疑的態度。如果arxiv 預印本啟用評論功能,或許能更快地得出結論,證明該論文存在欺詐行為。
更有意思的是這篇文章在寫完之后,又補充了一段,體現了BS探測器的靈敏。
“在寫完這篇博文草稿后,我看到一條推文說康寧今年1月向世界知識產權組織 (WIPO) 針對Toner-Rodgers注冊corningresearch.com域名提起投訴。這證實了我之前關于這些數據可能來自哪些公司的猜測。然而,Toner-Rodgers似乎一直在使用該網站私下證實虛假數據,而康寧對此毫不知情?我不確定這意味著什么,但確實很有意思。他可能用該域名給自己發虛假郵件,或生成看似可信的網址的PDF給導師看。康寧是一家很棒的公司,如果他們真的收集了這些數據,并以某種連貫的方式評估了材料特性,那真令人印象深刻。然而,我仍然認為,這些數據完全是Toner-Rodgers偽造的可能性更大。”
Toner-Rogers同學看來是一不做二不休了,連康寧這樣大公司的網址都敢偽造——如果人類接觸的東西都數字化和可生成了,還有什么不能偽造出來呢?
更有意思的是,Palgrave教授推薦了一段視頻。曼徹斯特大學創新研究所和佐治亞理工公共政策學院,1月15日邀請Toner-Rodgers線上分享了其論文。“事后看這段視頻,相當有意思。”
在問答部分,如這位教授提出的相當有水準的問題時,Toner-Rogers的表現是這樣的:
我們文章結尾附上了視頻鏈接,可以跳過Toner-Rogers同學前半部分介紹論文的Bull Shit,直接跳到問答部分。
這些都是像阿西莫格魯那樣研究經濟學、政策和管理專業的教授在問Toner-Rogers,可想而知,如果是真正的化學材料專家來問他,他的表現將會如何狼狽,說不定當場戳穿。
相信AI,但需要更多的質疑
一位斯坦福畢業的化學工程背景的AI創業者和研究者認為,這提醒我們:對于那些宣稱新興技術已帶來重大早期成果的說法,應保持懷疑態度。如果聽起來好得不像真的,那它很可能就不是真的。我們應該更加警惕。
許多專家認為,這是一次全面的數據造假,在LLM時代,能產生大量看起來符合邏輯的數據集。幾乎可以肯定這是一篇用AI幫助生成的論文。
也有專家批評了在預印本論文泛濫的時代,甚至一些主流權威的媒體,也會去報道那些根本就沒有經過同行評審的論文。 這就像是把一份大報“書評版的頭版,留給一份剛從投稿堆里撈出來的草稿一樣荒謬。”
“記者們似乎總是愿意相信并宣傳各種AI的夸大說法——越不可信,越容易被炒作。與此同時,大語言模型(LLMs)正威脅著學術研究過程的誠信度。”
AIfor Science, 新范式與新規范
MIT博士論文造假帶來的一個緊迫的問題,是AI對于整個科學研究帶來的范式沖擊,存在著破壞性大于或者多于建設性的可能性,目前正是處于這個階段。
跨學科研究的問題,在AI時代會更加普遍,AI+某一學科,或者某一學科+AI,我們認為+AI或者兩者并重相對來說更加靠譜一些。至于說從第三方學科入手,如一位經濟學者進入AI和材料科學的領域進行研究,這一定要由至少兩個學科的專家合作完成,同時由三個學科的專家共同指導和評審。這篇論文的最大問題,在于它全部由經濟學背景的人完成的——包括兩位知名經濟學家的指導,他們研究的領域是主要是制度和勞工。
大型語言模型、多模態模型、推理模型,它們生成的文字、數據、視覺、結構等越來越逼真,越來越系統化,也顯得越來越能幫助人類完成復雜的工作。它們完全可能不經過任何實驗和調查,也不經過任何驗證,就提出一套完整的假說,并且自我系統性地形成理論。許多專家認為,MIT博士的這篇論文,應該就是Toner-Rogers同學結合各種論文,以AI幫助形成論文的構思,指導AI合成出數據集,再提示AI撰寫出來的,包括其中的數學公式,都可以生成。這是寫小說和拍電影的手法。
這里牽涉到一個根本性的問題,未來連AI系統本身都主要是由合成數據訓練的,而且在數據不足的領域,如一些物理智能領域,模擬數據已經成為主流并且被接受。模擬數據、合成數據、造假數據,未來如何區分?
有些領域可以區分,如在具身智能領域,使用大量的模擬數據,可以在實驗室環境和真實的物理世界里進行重復性的驗證。
但是,在一些非物理世界的領域,非真實人類生活工作場景,在數字世界和虛擬空間、在一些社會科學領域,包括經濟學領域,是否和如何大量使用AI合成數據。包括AI研究本身,研究人員自己為自己制定測試基準,展示出不斷逼近人類水平的測試分數。善于考試,甚至善于寫論文,這固然是一個重要的能力,但是在實際訓練AI的過程中,存在著”“弗蘭肯斯坦數據集”的情況,存在著數據污染問題,模型的后訓練部分使用大量的與測試相關的數據進行強化。這肯定可以提升考試能力,但是在真實的世界里,它們的適應性和可用性大打折扣——甚至使用它們比完全依靠人工還更加費事。
預印本論文的發布,近年來有兩個高潮,一個是在新冠疫情期間,一個是在ChatGPT之后所掀起的生成式AI熱潮,大量的預印本論文發表出來。后來根據權威機構的復盤,發現無論是在疫情傳播和趨勢預測方面,還是在早期快速診斷或者抗疫藥物發現方面,那些使用AI工具產生的幾千篇論文,。
這一次,MIT的博士生用AI欺騙了MIT、諾獎經濟學家、經濟學的頂級期刊。人們對AI充滿了期待充滿了爭議,既然AI有可能對人類帶來生存威脅,那為什么還要發展AI?一個最有力的理由,是AI可以加快科學發現,能發現靈丹妙藥、能治療癌癥、能應對氣候變化、能解決能源問題,等等。既然如此,就一定會不斷出現那些聽起來過于美好的研究論文。
這可能是一個未完的故事。MIT要求Toner-Rodgers從Arxiv撤掉論文,但是他拒絕了。這里面還會有什么更多貓膩嗎?
我們也決定撤稿
我們最初看到這篇論文也很興奮,終于有一個科學家樣本量上千、而且是在一家大型硬科技制造業的研發部門的實證研究,證明AI能顯著提升研發效率:使用AI工具的科學家們發現的材料增加了44%,申請的專利增加了39%,在下游的產品創新中增加了17%,而且這些化合物具有更新穎的化學結構,產生更多突破性發明。
當時我們也感覺這好得有點令人難以置信。之前看過一些研究,也有知名的經濟學家參與,如在企業的呼叫中心、客服部門的研究,證明提升了效率;也有在知名咨詢公司的研究實例,但都處于非常初期、而且伴隨更多的問題有待證明。而這一篇論文,各方面看起來相當整齊,似乎證明了使用AI工具與提升研發效率之間非常顯著的因果關系。而且有當紅諾獎經濟學家背書。
我們當時的另一點疑惑,是一位二年級的博士生,怎么能在一家大型跨國公司的研發部門獲取如此寶貴的數據,而且僅靠他一人完成;我們當時還開玩笑說,也許這是他們的家族企業吧,整個部門都要配合他做這項研究。最后,我們還是寫了一篇文章介紹了論文《AI正再造貝爾實驗室》,后來也數次引用該論文的結論。現在我們已經決定撤下這篇稿子。
參考:
https://cassyni.com/events/MiPYGu3qzKP5MQFWNUn9Tb
https://thebsdetector.substack.com/p/ai-materials-and-fraud-oh-my
https://pubs.acs.org/doi/10.1021/acs.chemmater.4c00643
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.