新智元報道
編輯:KingHZ YHluck
【新智元導(dǎo)讀】AlphaFold奪諾獎引爭議!2016年,一位博士生在NeurIPS提出的研究,或許正是AlphaFold的「原型」。如今,導(dǎo)師Daniel Cremers發(fā)聲,質(zhì)問為何DeepMind忽略這項研究、不加以引用?
AlphaFold因獲得諾獎而聲名大噪。
在大多數(shù)情況下,AlphaFold 2的預(yù)測精度幾乎可與X射線晶體學(xué)相媲美,令人震撼。
生物化學(xué)界持續(xù)了半個世紀(jì)的難題,終于被攻克。
但2016年,Vladimir Golkov博士在NeurIPS大會上就提出,利用深度神經(jīng)網(wǎng)絡(luò)從共進(jìn)化數(shù)據(jù)中直接預(yù)測蛋白質(zhì)接觸圖。
在CASP 11測試中,這套方法優(yōu)于當(dāng)時其他的所有方法,堪稱AlphaFold的「原型」。
最近,慕尼黑機(jī)器學(xué)習(xí)中心主任、慕尼黑工業(yè)大學(xué)教授Daniel Cremers表示他們團(tuán)隊為AlphaFold獲得諾貝爾獎奠定了基礎(chǔ)。
如今,Daniel Cremers發(fā)問:為何歷史上這塊奠基石被忽視了?
我們來一探究竟。
AlphaFold雛形
其實(shí)2016年就已出現(xiàn)
在2018年12月,在第13屆蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估CASP(Critical Assessment of protein Structure Prediction)中,AlphaFold 1驚艷亮相,排名第一。
2020年11月,AlphaFold 2在CASP上,大放異彩,中位分?jǐn)?shù)為92.4,接近滿分100分;2024年5月8日,AlphaFold 3發(fā)布。
但早在2016年AI頂會NeurIPS上,Vladimir Golkov就蛋白質(zhì)預(yù)測作了全會報告。
當(dāng)時提出的方法論包括:
針對目標(biāo)氨基酸序列,調(diào)用已知三維結(jié)構(gòu)的序列數(shù)據(jù)庫
采用隱馬爾可夫模型(HMM)進(jìn)行多序列比對以識別同源序列
計算突變對共進(jìn)化統(tǒng)計量
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)直接從原始共進(jìn)化數(shù)據(jù)預(yù)測蛋白質(zhì)接觸圖
在CASP11數(shù)據(jù)集上的系統(tǒng)評估表明,該方法在精度和速度上均顯著超越當(dāng)時最優(yōu)技術(shù)
這項研究匯聚了深度學(xué)習(xí)與蛋白質(zhì)預(yù)測領(lǐng)域的多位先驅(qū),包括Thomas Brox、Alexey Dosovitskiy和Jens Meiler等合作者。
論文鏈接:https://papers.nips.cc/paper_files/paper/2016/file/2cad8fa47bbef282badbb8de5374b894-Paper.pdf
值得玩味的是,在報告結(jié)尾,Vladimir已預(yù)見性地指出:「架構(gòu)優(yōu)化與Scaling將進(jìn)一步提升性能」——
這與AlphaFold團(tuán)隊的后續(xù)突破不謀而合。
至于未被引用的原因,至今尚無定論。
可觀看Vladimir當(dāng)年20分鐘的報告,了解更多蛋白質(zhì)預(yù)測的完整發(fā)展脈絡(luò):
2024年, Demis?Hassabis(下圖左)和John?Jumper(下圖右)因蛋白質(zhì)結(jié)構(gòu)預(yù)測的貢獻(xiàn),榮獲諾貝爾化學(xué)獎。
諾貝爾獎委員介紹了AlphaFold 2的工作原理,大致如下:
序列比對:系統(tǒng)從數(shù)據(jù)庫中尋找與輸入序列相似的蛋白質(zhì),這些序列可能來自不同物種。通過比對,程序揭示了氨基酸之間的潛在聯(lián)系。例如,當(dāng)某個位置突變時,可能與另一個位置的變化相關(guān)。
距離圖生成:基于序列比對中的相關(guān)性信息,程序生成一個距離圖,顯示氨基酸在空間中的相對距離。
三維結(jié)構(gòu)預(yù)測:程序?qū)⒕嚯x圖轉(zhuǎn)換為三維結(jié)構(gòu),最終以高精度預(yù)測蛋白質(zhì)的形狀。
AlphaFold 2的工作原理示意圖
Daniel Cremers認(rèn)為所謂AlphaFold的核心技術(shù)思路,其實(shí)早已完整呈現(xiàn)在他們2016年的論文中。
他感覺諾貝爾獎委員會可能遺漏了他們的奠基性工作。
對此,AlphaFold 1核心團(tuán)隊成員Hugo Penedone提供了AlphaFold誕生初期的一些歷史細(xì)節(jié)。
DeepMind的諾獎,真的忽視了前人的貢獻(xiàn)?
AlphaFold 1初始團(tuán)隊的成員Hugo Penedone則還原了DeepMind的開發(fā)時間線。
2015年7月–2019年8月,Hugo Penedone在谷歌DeepMind工作,從事深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的應(yīng)用研究
據(jù)他回憶,大約在2016年3月,DeepMind啟動了AlphaFold 1,起因是在一次內(nèi)部黑客馬拉松Hackathon上,嘗試將深度強(qiáng)化學(xué)習(xí)和優(yōu)化算法應(yīng)用于FoldIt游戲。
之后的幾個月里,他們開始探索接觸圖(contact map)預(yù)測的可能性。
來自副溶血性弧菌(Vibrio parahaemolyticus)的蛋白質(zhì)VPA0982的蛋白質(zhì)接觸圖
由于在早期文獻(xiàn)中,接觸圖已有相關(guān)概念,他們意識到,相較于直接預(yù)測整個蛋白質(zhì)結(jié)構(gòu),使用神經(jīng)網(wǎng)絡(luò)來預(yù)測接觸圖的準(zhǔn)確率更高。
因此,他認(rèn)為DeepMind可能在2016年也獨(dú)立地提出了這個不錯的思路。
DeepMind的論文發(fā)布遠(yuǎn)晚于2016年NeurIPS的相關(guān)研究,顯然,他們應(yīng)該在工作中引用這些前人的成果!
AI學(xué)術(shù)大佬怎么看?
針對此事,AI界當(dāng)代最著名巨擘之一、Meta AI實(shí)驗(yàn)室靈魂人物Yann LeCun也表達(dá)了看法。
LeCun提到,1990年代的雪鳥研討會(Snowbird Workshop)(ICLR的前身),使用機(jī)器學(xué)習(xí)進(jìn)行生物信息學(xué)研究的整個想法就已誕生。
其中,與會者包括Anders Krogh(哥本哈根大學(xué)教授)、Pierre Baldi(加州大學(xué)歐文分校教授)、Richard Durbin(劍橋大學(xué)遺傳學(xué)教授)、David Haussler(加州大學(xué)圣克魯茲分校基因組學(xué)研究所科學(xué)總監(jiān))等人。
在AlphaFold之前,已有若干使用神經(jīng)網(wǎng)絡(luò)進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測的研究工作。
LeCun直言,沒有貶低「AlphaFold貢獻(xiàn)」的意思。
值得注意的是,最早在這個領(lǐng)域開展工作的是1990年代雪鳥研討會與會者之一的加州大學(xué)歐文分校的Pierre Baldi。
他在2000年使用循環(huán)網(wǎng)絡(luò)預(yù)測蛋白質(zhì)接觸圖。
論文地址:https://pubmed.ncbi.nlm.nih.gov/11120677/
論文地址:https://pubmed.ncbi.nlm.nih.gov/10871264/
論文地址:https://pubmed.ncbi.nlm.nih.gov/10869034/
遠(yuǎn)早于深度學(xué)習(xí)變得流行之前。
LeCun一句話,引人深思:
好的想法很少憑空出現(xiàn)。它們以某種方式傳播和改進(jìn),有時甚至難以追溯其起源。
LeCun直言,同樣,AlphaFold是一項具有巨大影響力的非凡成就,但并非孤立的貢獻(xiàn)。
最早在這個領(lǐng)域開展工作的加州大學(xué)歐文分校教授Pierre Baldi也表達(dá)了看法。
Pierre Baldi談到,深度學(xué)習(xí)在某種蛋白質(zhì)結(jié)構(gòu)預(yù)測中的首次應(yīng)用是在20世紀(jì)80年代。
當(dāng)時,是由Qian和Sejnowski針對更簡單的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測問題開展的工作。
論文地址:https://pubmed.ncbi.nlm.nih.gov/3172241/
這樣來看,用于預(yù)測接觸圖和蛋白質(zhì)結(jié)構(gòu)的深度學(xué)習(xí)方法,確實(shí)比AlphaFold早了二十年。
梳理來看,仔細(xì)查閱文獻(xiàn)就會發(fā)現(xiàn),用于預(yù)測接觸圖的深度學(xué)習(xí)方法,對圖神經(jīng)網(wǎng)絡(luò)的發(fā)展也起到了重要作用。
「早在DeepMind之前,這些方法還被用于學(xué)習(xí)如何下圍棋,而這一點(diǎn)DeepMind從未承認(rèn)過。」Baldi指出。
Pierre Baldi直言不諱,「從長遠(yuǎn)來看,科學(xué)關(guān)乎真理與美。而在短期內(nèi),它是一項相當(dāng)骯臟的人類事務(wù)。」
LeCun補(bǔ)充說道,「好的想法很少憑空出現(xiàn)。它們以某種方式傳播和改進(jìn),有時甚至難以追溯其起源。」
同樣,AlphaFold是一項具有巨大影響力的非凡成就,但并非孤立的貢獻(xiàn)。
AlphaFold的成功固然值得贊譽(yù),但正本清源,厘清其技術(shù)源流,更有助于理解AI在生命科學(xué)的深層邏輯和未來潛力。
當(dāng)好的想法和研究推動社會發(fā)展時,希望更多人也能多關(guān)注核心研究背后的故事與核心人物。
正是他們的默默付出與耕耘,才有了能與大家見面的「奇跡」的誕生,推動社會向好發(fā)展。
參考資料:
https://www.linkedin.com/feed/update/urn:li:activity:7345745870526541824/
https://www.linkedin.com/feed/update/urn:li:activity:7346665613387325442/
https://learn.microsoft.com/de-de/shows/neural-information-processing-systems-conference-nips-2016/protein-contact-prediction-from-amino-acid-co-evolution-using-convolutional-networks-graph-value
https://www.nobelprize.org/uploads/2024/11/fig2_ke_en_24-5.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.