從天空到海洋,從生命科學(xué)到化學(xué)、物理學(xué),AI是否能成為推動(dòng)科技創(chuàng)新的核心動(dòng)力?
生成式AI的崛起以人們想不到的形態(tài)出現(xiàn),一如理科生的考卷由文科生批改。
席卷生活的方方面面之后,AI又以迅雷不及掩耳之勢(shì),叩擊科學(xué)殿堂的大門。
一個(gè)時(shí)代、一個(gè)領(lǐng)域只有一個(gè)發(fā)展的“主范式”,與范式吻合才能踩在歷史發(fā)展進(jìn)步的一邊,但范式本身有慣性,所以每一代新的范式轉(zhuǎn)換都需要付出努力和代價(jià)。
AI4S就是范式轉(zhuǎn)換的重要表征,它不以人的主觀意志為轉(zhuǎn)移,也不能人為的對(duì)抗范式轉(zhuǎn)換。但是,它也不會(huì)自然降臨,每個(gè)范式轉(zhuǎn)換期都要付出巨大的勞動(dòng)甚至代價(jià),而只有經(jīng)歷這個(gè)過(guò)山車式的過(guò)程并始終不被甩出第一梯隊(duì),才能最終駕馭范式轉(zhuǎn)換帶來(lái)的紅利,能駕馭范式轉(zhuǎn)換的才能笑到最后。
關(guān)于AI4S最前沿的理論、實(shí)踐和爭(zhēng)論,都在這篇文章里。
——導(dǎo)語(yǔ)
01
故宮里的計(jì)算機(jī)——計(jì)算科學(xué)研究的歷史敘事與現(xiàn)實(shí)突破
人類歷史上得到普遍認(rèn)可的較早期的機(jī)械式計(jì)算機(jī)之一,是1642年法國(guó)哲學(xué)家兼數(shù)學(xué)家布累斯·帕斯卡發(fā)明的加法器(Pascaline)。
帕斯卡發(fā)明它的目的,是為幫助父親減少稅務(wù)計(jì)算上的勞作;而此后,二進(jìn)制和微積分的發(fā)明者萊布尼茨在加法器的基礎(chǔ)上,發(fā)明了人類第一臺(tái)可進(jìn)行四則運(yùn)算的機(jī)械計(jì)算機(jī)。
帕斯卡自己親手制作了50臺(tái)加法器,而后,人們又生產(chǎn)了許多復(fù)制品。據(jù)說(shuō),在中國(guó)的故宮博物院,也保存著兩臺(tái)銅制的復(fù)制品,是當(dāng)年外國(guó)人送給慈禧太后的禮品,但“老佛爺”哪里懂得它的奧妙,只把它當(dāng)成了西方的洋玩具,藏在深宮里面。
此后的幾個(gè)世紀(jì)里,機(jī)械式計(jì)算機(jī)、機(jī)電式計(jì)算機(jī)和現(xiàn)代意義上的電子計(jì)算機(jī)相繼出現(xiàn),但某種程度上,它們都有一個(gè)共同的前提——目的就是發(fā)明一個(gè)“代替人做數(shù)學(xué)計(jì)算”的機(jī)器。
某種意義上,人類在現(xiàn)代科學(xué)技術(shù)上真正的進(jìn)步,是從上世紀(jì)50年代開始的。因?yàn)橛辛舜笮碗娮佑?jì)算機(jī),并且基于機(jī)器計(jì)算的原理發(fā)展出來(lái)了許許多多的算法,我們才可以普遍的實(shí)現(xiàn)了從基本原理出發(fā)來(lái)解決實(shí)際問(wèn)題。
基本原理雖然此前就存在,但就效率而言,用它解決實(shí)際問(wèn)題是非常困難、幾乎做不到的。
例如,我們經(jīng)常聽說(shuō)天才科學(xué)家破解密碼的故事,但這幾乎是不可復(fù)制的;而現(xiàn)在的黑客,哪怕數(shù)學(xué)知識(shí)粗淺,只要下載一個(gè)工具,在破解密碼的速度上就可以超過(guò)許多百年前的天才。
之所以能如此,這是因?yàn)槌绦蚶镆呀?jīng)內(nèi)置了一代又一代的計(jì)算機(jī)科學(xué)家開發(fā)和改善過(guò)的算法,而這些算法又基本有一個(gè)共同的出發(fā)點(diǎn):可以用多項(xiàng)式來(lái)逼近一般的函數(shù),從本質(zhì)上來(lái)說(shuō),這是牛頓、萊布尼茨的時(shí)代就發(fā)明出來(lái)的,但只有依賴現(xiàn)代計(jì)算機(jī),才能使之真正的被應(yīng)用于現(xiàn)實(shí)。
最早的計(jì)算機(jī)出現(xiàn)是為了把數(shù)學(xué)家從繁冗、人力所不能及的數(shù)學(xué)計(jì)算中解脫出來(lái),但在摩爾定律加持之下,人類計(jì)算能力得以快速增加,這是它被用于科研進(jìn)而邁進(jìn)公眾生活的一個(gè)前提。
其中一個(gè)重要的里程碑,是“四色問(wèn)題”的解決。
它提出于1852年,是英國(guó)制圖師弗朗西斯·古特里的一個(gè)假說(shuō)。他指出,無(wú)論地圖上有多少個(gè)國(guó)家,只需要四種顏色就可以對(duì)地圖進(jìn)行著色,并且相鄰的國(guó)家顏色不會(huì)相同。
這個(gè)假說(shuō)難以證明,主要是因?yàn)樯婕褒嫶蟮挠?jì)算量。因此,足足過(guò)了120多年,到了1976年才由美國(guó)的兩位數(shù)學(xué)家用計(jì)算機(jī)證明了這個(gè)假說(shuō),這背后是1200多個(gè)機(jī)器小時(shí)中進(jìn)行的100億次判斷所支撐的。
如果說(shuō)圖靈時(shí)代的炸彈機(jī)、巨人機(jī)只是輔助數(shù)學(xué)家運(yùn)算一些步驟。那么,四色問(wèn)題的解決則是在人類設(shè)定程序(算法)后,完全由計(jì)算機(jī)完成的證明。歷史在這里前進(jìn)了一大步——計(jì)算機(jī)正式走到了解決科學(xué)問(wèn)題的舞臺(tái)上, 計(jì)算數(shù)學(xué)、計(jì)算力學(xué)、計(jì)算化學(xué)、計(jì)算生物學(xué)等交替出現(xiàn)。
比四色問(wèn)題的解決更具有標(biāo)志性意義的,是現(xiàn)代計(jì)算機(jī)科學(xué)的最前沿——人工智能技術(shù)與科學(xué)的結(jié)合,而其代表事件則是2024年諾貝爾化學(xué)獎(jiǎng)的頒發(fā)。
這次由三人分享的化學(xué)獎(jiǎng)中,來(lái)自谷歌的英國(guó)科學(xué)家哈薩比斯和江珀的工作十分醒目,他們開發(fā)了一種名為AlphaFold2的人工智能模型,這種模型解決了一個(gè)已有50年歷史的難題,能夠預(yù)測(cè)大約兩億種已知蛋白質(zhì)的復(fù)雜結(jié)構(gòu),并且已被全球200多萬(wàn)人使用。
我們可以借助對(duì)這個(gè)迷人案例的解析,來(lái)看看AI特別是深度學(xué)習(xí)是如何幫助人類解決頂級(jí)科學(xué)難題。
蛋白質(zhì)結(jié)構(gòu)是指蛋白質(zhì)分子的空間結(jié)構(gòu)。作為和我們息息相關(guān)的一類重要的生物大分子,了解清楚它的結(jié)構(gòu),對(duì)生命科學(xué)研究至關(guān)重要。
通過(guò)分析蛋白質(zhì)的結(jié)構(gòu),人們可以確認(rèn)它們的生理功能,這樣在遺傳學(xué)的實(shí)踐上就有很大的現(xiàn)實(shí)意義;同時(shí),它還可以為人們?cè)O(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù),而這就是當(dāng)今世界上基于精準(zhǔn)蛋白質(zhì)靶點(diǎn)的“救命神藥”的發(fā)明速度越來(lái)越快的背后推動(dòng)力。
但是這其中涉及到海量的計(jì)算,因?yàn)榈鞍踪|(zhì)結(jié)構(gòu)非常復(fù)雜。
解決蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題一直是結(jié)構(gòu)生物學(xué)的圣杯。在深度學(xué)習(xí)介入之前,人類依賴電子顯微鏡對(duì)蛋白質(zhì)進(jìn)行實(shí)際觀測(cè),已經(jīng)做了大量艱苦的工作,并據(jù)此產(chǎn)生了蛋白質(zhì)數(shù)據(jù)庫(kù)(PDB)。
簡(jiǎn)單來(lái)說(shuō),蛋白質(zhì)預(yù)測(cè)有兩條路徑——打個(gè)比方,TBM方法就是用采集到的指紋和已有的指紋庫(kù)相對(duì)比,一旦比中,就可以高度確信,但短板是數(shù)據(jù)庫(kù)中必須已經(jīng)有可靠的指紋;而FM方法則類似于在白紙上憑借想象力畫畫,其本質(zhì)是非常復(fù)雜的函數(shù)運(yùn)算。
人類從1994年起就設(shè)立了蛋白質(zhì)預(yù)測(cè)的獎(jiǎng)項(xiàng),但其中FM方向一直得分很低,大多數(shù)只有20到40分。
但AlphaFold的出現(xiàn)改變了這一切,其中的Fold指的就是“折疊”——2018年,AlphaFold采用深度學(xué)習(xí)基礎(chǔ)上的FM預(yù)測(cè)策略,通過(guò)三個(gè)系統(tǒng)支撐(建模、預(yù)測(cè)、優(yōu)化),出道就拿下當(dāng)年蛋白質(zhì)預(yù)測(cè)大獎(jiǎng);2020改進(jìn)后的模型AlphaFold2在第14屆CASP競(jìng)賽上進(jìn)一步大殺四方,在給定預(yù)測(cè)蛋白質(zhì)中GDT平均得分92.4,遠(yuǎn)超所有競(jìng)爭(zhēng)對(duì)手。
至此,深度學(xué)習(xí)支撐下的蛋白質(zhì)預(yù)測(cè)取得歷史性進(jìn)展,也開始消融TFM和FM之間的間隔,人類對(duì)于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)乃至設(shè)計(jì)的能力得到極大增強(qiáng)。
可以說(shuō),哈薩比斯等學(xué)者的成就,和當(dāng)年四色問(wèn)題的證明可以相提并論,同樣是計(jì)算服務(wù)于科研的里程碑事件。人們由此認(rèn)為,AI在未來(lái)科學(xué)研究中成為中堅(jiān)力量的可能性大幅度提升,一個(gè)新的時(shí)代即將開啟。
02
AI4S的中國(guó)故事開寫
在今天,用AI服務(wù)于科研被稱為“科學(xué)智能”,但人們往往使用一個(gè)更通俗的簡(jiǎn)稱:AI4S(AI for Science的縮寫),值得自豪的是,這個(gè)名稱是兩位中國(guó)科學(xué)家提出的。
今天,在中國(guó)開展AI4S的研究,具有許多有利的條件。在筆者看來(lái),有三個(gè)條件比較重要:
1.國(guó)家重視和中國(guó)科學(xué)家的AI4S意識(shí)早已覺(jué)醒;
2.中國(guó)的算力,特別是AI算力的基礎(chǔ)設(shè)施非常發(fā)達(dá),在全球數(shù)一數(shù)二;
3.AI4S的實(shí)踐日益展開,已經(jīng)在許多領(lǐng)域得到實(shí)證,理論基礎(chǔ)也正在探索和夯實(shí);
關(guān)于第一點(diǎn),中國(guó)科學(xué)院的湯超院士是這樣描述的:“好幾年前,鄂維南(北京大數(shù)據(jù)研究院院長(zhǎng)、中國(guó)科學(xué)院院士)找到我,商量是否可能在北大設(shè)立一個(gè)交叉學(xué)科的項(xiàng)目,用來(lái)探索機(jī)器學(xué)習(xí)在不同的科學(xué)和工程領(lǐng)域的應(yīng)用。我們給它取了一個(gè)名字,叫AI for Science。我們兩個(gè)當(dāng)時(shí)都很為這個(gè)名字得意。現(xiàn)在來(lái)看,應(yīng)該是很多人都想到了這個(gè)名字,AI for Science也成為了一個(gè)趨勢(shì)”。
而這件事更大的背景是,國(guó)家自然科學(xué)基金委在2020年底設(shè)立了交叉科學(xué)部,來(lái)統(tǒng)籌基金委在交叉科學(xué)領(lǐng)域的整體資助工作,其中任務(wù)之一就是探索建立交叉科學(xué)研究范式,而交叉科學(xué)部成立以來(lái)的第一個(gè)重大研究計(jì)劃就是在AI for Science方向的。
所以嚴(yán)格來(lái)講,AI4S的概念是中國(guó)科學(xué)家提出的,而這個(gè)方向得到了國(guó)家的大力支持。某種程度上,這也說(shuō)明中國(guó)科學(xué)家的思路越來(lái)越具有超前性,對(duì)國(guó)際頂級(jí)前沿技術(shù)的感知和參與,已經(jīng)在完成一個(gè)“從跟隨到開創(chuàng)”的新階段。
第二點(diǎn),中國(guó)有世界上最好的智能算力基礎(chǔ)設(shè)施之一。
從整體規(guī)模上來(lái)說(shuō),截至2023年底,我國(guó)提供算力服務(wù)的在用機(jī)架數(shù)達(dá)到810萬(wàn)標(biāo)準(zhǔn)機(jī)架,各類算力提供主體超5000家,算力總規(guī)模位居全球第二,成為AI4S的基礎(chǔ)條件之一。
但是,僅僅看算力的總規(guī)模是不夠的,還要看算力平臺(tái)的對(duì)AI的親和度。
以華為云為例,就以系統(tǒng)性創(chuàng)新,重新定義了云基礎(chǔ)設(shè)施。可以滿足隨著計(jì)算場(chǎng)景的多元化以及智能算力需求飛速增長(zhǎng)而不斷產(chǎn)生的新需求。
最傳統(tǒng)的云計(jì)算中心,是以CPU為中心的主從架構(gòu),但這很難滿足以GPU為核心的智算需求。
同時(shí),科學(xué)家們發(fā)現(xiàn),在某種程度上,用通用算力(CPU、GPU)來(lái)滿足特定場(chǎng)景的需求,存在成本高、能耗高的問(wèn)題。因此專用集成電路的概念開始盛行,針對(duì)不同的AI計(jì)算場(chǎng)景,又發(fā)展出了NPU(神經(jīng)網(wǎng)絡(luò)處理器)、TPU(針對(duì)專門為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力的芯片)、DPU(深度學(xué)習(xí)處理器)等等。
但是,不同架構(gòu)和方向的處理器如何整合和調(diào)度又成了大問(wèn)題,這就像好一輛車卻裝上了好幾個(gè)發(fā)動(dòng)機(jī),沒(méi)有協(xié)調(diào)好是開不走的。
各種基于不同需求、不同技術(shù)棧而研發(fā)的芯片如果不能協(xié)同,反而成為一盤散沙。在這個(gè)背景下,華為云研發(fā)了CloudMatrix架構(gòu),就像讓一只雄獅帶領(lǐng)著一群羚羊去戰(zhàn)斗,這種架構(gòu)實(shí)現(xiàn)了“一切可池化”,讓CPU、NPU、GPU、高速內(nèi)存等多樣資源統(tǒng)一抽象,被放進(jìn)一個(gè)資源池里。基于精妙的調(diào)動(dòng),相比傳統(tǒng)單體算力,這種緊耦合矩陣算力規(guī)模提升了一個(gè)數(shù)量級(jí)以上。
此外,“一切皆對(duì)等”指通過(guò)超高帶寬的Scale Up網(wǎng)絡(luò),打破單體算力性能和集群線性度瓶頸,以盤古大模型訓(xùn)練為例,效率可提升68%;“一切可組合”則指通過(guò)瑤光智慧云腦提供NPU、GPU、CPU、內(nèi)存等資源按需組合,通過(guò)匹配最優(yōu)算力組合,實(shí)現(xiàn)百億到萬(wàn)億級(jí)模型訓(xùn)練所需的資源。
另外,基于自主創(chuàng)新的AI底層硬件,華為云昇騰AI云服務(wù)整合了大規(guī)模算力集群、計(jì)算引擎CANN、AI 開發(fā)框架MindSpore、ModelArts AI 開發(fā)生產(chǎn)線和ModelArts Studio大模型即服務(wù)平臺(tái),為大模型的訓(xùn)練,推理,AI 應(yīng)用的開發(fā)、運(yùn)行提供穩(wěn)定可靠的全棧算力保障。
舉一個(gè)很容易理解的例子,以一個(gè)常見(jiàn)的萬(wàn)卡大集群為例,由于涉及到數(shù)十萬(wàn)計(jì)的處理器、內(nèi)存、存儲(chǔ)陣列、跨網(wǎng)絡(luò)的高度并行和滿負(fù)荷運(yùn)轉(zhuǎn),經(jīng)常會(huì)出現(xiàn)因?yàn)椴糠钟布p壞和軟件故障導(dǎo)致的訓(xùn)練中斷。
一位AI專家告訴我,早期的大模型訓(xùn)練經(jīng)常運(yùn)行幾分鐘、十幾分鐘就會(huì)中斷,而即使經(jīng)過(guò)多次迭代,平均可持續(xù)水平也不超過(guò)3天。
但針對(duì)萬(wàn)億模型訓(xùn)練這個(gè)典型場(chǎng)景,昇騰AI云服務(wù)已經(jīng)可實(shí)現(xiàn)40天無(wú)中斷,是業(yè)界標(biāo)準(zhǔn)的十幾倍乃至幾十倍。
由此可以說(shuō),目前我們已經(jīng)擁有世界級(jí)的高AI親和度的智算基礎(chǔ)設(shè)施,這是實(shí)現(xiàn)AI4S的重要前提之一。
因此,第三點(diǎn)也呼之欲出。
如鄂維南院士就指出,科學(xué)研究總體上可分成基于數(shù)據(jù)驅(qū)動(dòng)的開普勒范式和基于原理驅(qū)動(dòng)的牛頓范式,這兩種范式在現(xiàn)代遇到了各自的挑戰(zhàn),但這一挑戰(zhàn)又有一個(gè)共同的解決方向——“缺乏有效手段解決高維數(shù)學(xué)問(wèn)題,是阻礙科學(xué)研究與技術(shù)發(fā)展取得進(jìn)一步突破的主因之一。而深度學(xué)習(xí),或者說(shuō)人工智能,可以幫助解決這個(gè)問(wèn)題“。
各個(gè)學(xué)科都有一些基本規(guī)律,其特點(diǎn)是都以微分方程呈現(xiàn),而且都是非常困難的微分方程。
而AI大模型在這方面優(yōu)勢(shì)明顯。
鄂維南指出,傳統(tǒng)的計(jì)算機(jī)算法基于用多項(xiàng)式逼近一般的函數(shù),但在目前的科研領(lǐng)域遇到的問(wèn)題是,依賴的變量太多了。隨著變量個(gè)數(shù)(也就是維數(shù))的增加,計(jì)算的復(fù)雜度呈指數(shù)級(jí)增加,這就是維數(shù)災(zāi)難,而多項(xiàng)式方法對(duì)此是無(wú)效的。
反之,AI對(duì)于多維問(wèn)題反而是好手,以大模型“最拿手”的人臉識(shí)別為例,“每個(gè)像素都是1個(gè)自由度,這里一共有32x32=1024個(gè)維度;此外,顏色空間有三維,所以再乘以3,每一個(gè)圖像都可以看成是3072維空間的一個(gè)點(diǎn),所以Cifar10的分類問(wèn)題可以看成是尋找一個(gè)3072維空間上的函數(shù)。這樣的高維函數(shù)以前我們是根本沒(méi)辦法處理的”。
但這對(duì)深度學(xué)習(xí)大模型來(lái)說(shuō),恰是強(qiáng)項(xiàng)。
由此可見(jiàn),從科學(xué)研究的角度來(lái)說(shuō),深度學(xué)習(xí)可以帶來(lái)新的計(jì)算方法、新的科學(xué)模型和新的實(shí)驗(yàn)方法,這似乎已經(jīng)是不爭(zhēng)的事實(shí)。
但在實(shí)踐中呢?
03
在實(shí)踐中成長(zhǎng)
在主流科學(xué)界認(rèn)知到位和軟硬件支撐條件均已十分完備的情況下,中國(guó)的AI4S擁有了一個(gè)非常良好的開局。
讓國(guó)人驕傲的C919大飛機(jī)現(xiàn)在已經(jīng)在國(guó)航、東航和南航的航線上發(fā)揮作用,正在研發(fā)的C929和C939更是國(guó)人心心念念的“國(guó)之重器”。
也正是因?yàn)榇耍袊?guó)商用飛機(jī)公司聯(lián)合華為發(fā)布的業(yè)界首個(gè)工業(yè)級(jí)流體仿真大模型“東方御風(fēng)”,就更加受到關(guān)注。
很多網(wǎng)民津津樂(lè)道的是,為什么中國(guó)最近飛行器的研發(fā)周期屢屢打破此前的世界紀(jì)錄?
很多人都知道,中國(guó)的風(fēng)洞技術(shù)全球領(lǐng)先,這是近年來(lái)中國(guó)飛行器研究屢屢取得突破的重要原因。
此話不假。但是,這其中也有AI技術(shù)的功勞。AI4S的方式,在一定程度上顛覆了飛行器的研發(fā)周期率。
人們很少知道的是,一個(gè)超級(jí)風(fēng)洞不僅造價(jià)高昂,而且使用成本極高。其驅(qū)動(dòng)功率動(dòng)則超過(guò)1萬(wàn)兆瓦。
更重要的是,高級(jí)別風(fēng)洞的穩(wěn)定輸出時(shí)間極短,100毫秒往往已經(jīng)是極限。
所以,在絕大多數(shù)真實(shí)研究中,吹風(fēng)洞只能解決一部分問(wèn)題,而持續(xù)的優(yōu)化和模擬運(yùn)行,則要依靠計(jì)算機(jī)模擬,這就是我們前面談到的計(jì)算科技的一個(gè)重要分支——計(jì)算流體力學(xué)(CFD)。
用計(jì)算機(jī)仿真模擬來(lái)解決流體力學(xué)問(wèn)題,從上世紀(jì)50年代就開始發(fā)展,隨著計(jì)算機(jī)算力的增長(zhǎng)和軟件的升級(jí),其能力已經(jīng)十分成熟。
甚至,有人一度鼓吹——數(shù)字風(fēng)洞可以取代傳統(tǒng)風(fēng)洞。
但魔鬼在細(xì)節(jié)里——一位航空專家告訴我——由于在計(jì)算時(shí)所提供的計(jì)算模型,并不能包含所有實(shí)際流動(dòng)的細(xì)節(jié),所以數(shù)值模擬結(jié)果可以預(yù)測(cè)實(shí)驗(yàn)器件的氣動(dòng)性能變化規(guī)律,但是不能反映實(shí)際的各種流動(dòng)細(xì)節(jié),因此真實(shí)風(fēng)洞試驗(yàn)仍不可或缺。
而之所以不足以反映各種細(xì)節(jié),有軟件設(shè)計(jì)、數(shù)值設(shè)置的問(wèn)題,但還有一個(gè)更重要的問(wèn)題,就在于我們前面提到的高維問(wèn)題——因?yàn)閷?shí)際變量細(xì)節(jié)太多,導(dǎo)致計(jì)算維度太高,傳統(tǒng)仿真計(jì)算效果不夠好。
例如,在設(shè)計(jì)飛機(jī)翼型時(shí),當(dāng)攻角發(fā)生變化時(shí),流場(chǎng)會(huì)發(fā)生劇烈的變化,甚至出現(xiàn)激波現(xiàn)象。而激波前后的流場(chǎng)變化劇烈、復(fù)雜,導(dǎo)致無(wú)論是傳統(tǒng)的CFD,還是一些傳統(tǒng)的AI算法都會(huì)預(yù)測(cè)困難。
而“東方御風(fēng)”的強(qiáng)悍就在于,使用用更新后的AI模型替換傳統(tǒng)Navier-Stokes方程求解,提升了典型場(chǎng)景的仿真效率,而且通過(guò)將流動(dòng)劇烈變化區(qū)域的特征劃分為更多、更精細(xì)的維度來(lái)進(jìn)行精細(xì)捕捉,從而實(shí)現(xiàn)了前所未有的整體AI流體仿真的預(yù)測(cè)精度提升。
由于華為云底座提供了前所未有的并行AI算力,加之模型的優(yōu)化,得以在降低仿真時(shí)間同時(shí)又沉淀出了新的模型和工具。其不但局部改變了CFD的發(fā)展范式,也會(huì)很容易被華為云作為一種流體力學(xué)方面的解決方案利器,復(fù)用于高鐵、汽車等研發(fā)場(chǎng)景中。
這是一次標(biāo)準(zhǔn)的AI4S工程,而它的成績(jī)赫然是——降低仿真時(shí)間1000倍。
另一個(gè)高度值得關(guān)注的是在氣象預(yù)報(bào)領(lǐng)域,目前,該領(lǐng)域已經(jīng)成為國(guó)際AI巨頭展示AI4S能力的競(jìng)技場(chǎng)。
天氣預(yù)報(bào)是一個(gè)非常適合AI4S來(lái)“炫技”的領(lǐng)域。一方面,各國(guó)都會(huì)有過(guò)去數(shù)十年甚至更長(zhǎng)時(shí)間的天氣氣象數(shù)據(jù),是天然的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)集;另一方面,數(shù)值預(yù)報(bào)已經(jīng)把基于計(jì)算的預(yù)報(bào)在數(shù)學(xué)上發(fā)展到了一個(gè)相當(dāng)高的水平,給AI用來(lái)改進(jìn)或突破確定了較好的“靶點(diǎn)”。
先是國(guó)際頂級(jí)學(xué)術(shù)期刊《自然》(Nature)雜志在正刊發(fā)表了華為云盤古大模型研發(fā)團(tuán)隊(duì)的研究成果——《三維神經(jīng)網(wǎng)絡(luò)用于精準(zhǔn)中期全球天氣預(yù)報(bào)》,這是近年來(lái)中國(guó)科技公司首篇作為唯一署名單位發(fā)表的《自然》正刊論文,它們的成果的英文名稱是Pango-Weather,也就是盤古氣象大模型。
《自然》審稿人對(duì)該成果給予高度評(píng)價(jià):“華為云盤古氣象大模型讓人們重新審視氣象預(yù)報(bào)模型的未來(lái),模型的開放將推動(dòng)該領(lǐng)域的發(fā)展。”
或許是華為云的大模型引發(fā)的連帶效應(yīng),谷歌和旗下的DeepMind連發(fā)三個(gè)天氣類模型NeuralGCM、GraphCast和Cencast,反映了這一領(lǐng)域的激烈競(jìng)爭(zhēng)。
而華為云盤古氣象大模型主要的看點(diǎn),則不但是史上首個(gè)精度超過(guò)傳統(tǒng)數(shù)值預(yù)報(bào)方法的AI模型,而且速度相比傳統(tǒng)預(yù)報(bào)提速10000倍以上。
從技術(shù)上說(shuō),盤古氣象大模型的核心是提出了3D Earth-Specific Transformer模塊,其主要思想是使用一個(gè)視覺(jué)transformer的3D變種來(lái)處理復(fù)雜的不均勻的氣象要素。
這讓人不由想到此前鄂維南院士的話:高維計(jì)算是傳統(tǒng)計(jì)算的難點(diǎn),但對(duì)于基于多模態(tài)的大模型來(lái)說(shuō),只要把用于圖像或人臉識(shí)別的模型進(jìn)行改進(jìn),就可以很好的解決這個(gè)問(wèn)題,這也是大模型的先進(jìn)之處。
同時(shí),由于氣象要素?cái)?shù)據(jù)對(duì)應(yīng)的經(jīng)緯度網(wǎng)格是不均勻的,而不同的要素在不同緯度、高度的分布也是不均勻的。盤古天氣大模型對(duì)這些不均勻性的建模,提升了預(yù)測(cè)精度,也有利于學(xué)習(xí)氣象數(shù)據(jù)背后潛藏著的復(fù)雜物理規(guī)律。
而無(wú)論是盤古-天氣大模型還是與之類似和競(jìng)爭(zhēng)的多個(gè)大模型,共同點(diǎn)都是利用深度學(xué)習(xí)方法,在大規(guī)模的歷史天氣數(shù)據(jù)上進(jìn)行訓(xùn)練,并使用改良的模型模塊,從而在效率、效益和成本上,都具有顯著的優(yōu)勢(shì)。
很簡(jiǎn)單的一個(gè)對(duì)比是,雖然訓(xùn)練需要的數(shù)據(jù)很大、過(guò)程也不短,但生成的模型只需要很少的算力、時(shí)間和能耗就能完成,這里的“很少”是對(duì)比傳統(tǒng)方式,其則至少需要在超級(jí)計(jì)算機(jī)集群上運(yùn)行很長(zhǎng)時(shí)間。
其實(shí),數(shù)值天氣預(yù)報(bào)的“嫡系”升級(jí)版并不是氣象大模型,而是一種被稱為集合天氣預(yù)報(bào)的方法,它的代表機(jī)構(gòu)——?dú)W洲中期天氣預(yù)報(bào)中心(ECMWF)雄心勃勃的宣稱,2023年完全轉(zhuǎn)變?yōu)?00個(gè)成員的集合預(yù)報(bào)系統(tǒng)。
而氣象大模型相當(dāng)于半路上殺出的程咬金,是典型的跨越式技術(shù)對(duì)漸進(jìn)式技術(shù)突發(fā)的“降維打擊”。
可以想見(jiàn),未來(lái)5-10年,兩種不同的模式將激烈沖突或融合發(fā)展,而這一幕也會(huì)在多個(gè)科技領(lǐng)域上演。
04
第五范式的前奏
由于前文已經(jīng)充分的描繪了AI4S的美好前景和積極實(shí)踐,那我們?cè)谶@里就總結(jié)一些未來(lái)的機(jī)遇與挑戰(zhàn)。
首先,目前產(chǎn)生的一些AI4S的成果,用湯超院士的話說(shuō)就是“大多是1到100,或者1到1000的成果,而較少是從0到1的”。
這句話深刻的揭示了AI4S的現(xiàn)狀。如果說(shuō)的尖銳一點(diǎn),就是這些問(wèn)題的解決剛好進(jìn)入了大模型的舒適區(qū),比如把一個(gè)視覺(jué)模型改造成力學(xué)模型,而且所解決問(wèn)題的癥結(jié)也比較顯性。
當(dāng)然,進(jìn)步就是進(jìn)步,就像華為云的成就登上《自然》雜志一樣,讓中國(guó)的AI4S得到世界級(jí)的認(rèn)可,甚至激發(fā)了科技巨頭的跟進(jìn),這都是值得嘉賞的。
但我們并不應(yīng)該滿足,如哈薩比斯就提出——AGI(通用人工智能) 的一個(gè)重要測(cè)試標(biāo)準(zhǔn),將是其是否能夠自主生成像廣義相對(duì)論那樣的全新假設(shè)和理論。
如果說(shuō)“圖靈測(cè)試”基本已經(jīng)在這一輪生成式大模型浪潮中得到驗(yàn)證。那“哈薩比斯假說(shuō)”,就應(yīng)該是我們的AI產(chǎn)業(yè),特別是華為這樣的AI領(lǐng)軍企業(yè)的長(zhǎng)期目標(biāo)。
其次,AI科學(xué)家應(yīng)該加速發(fā)展為AI+科學(xué)家。
我們一般稱研究AI發(fā)展的高層次科研人才為AI科學(xué)家,但推動(dòng)AI發(fā)展的,不應(yīng)該只有AI科學(xué)家。
2023 年,《自然》雜志(Nature)進(jìn)行了一項(xiàng)針對(duì) 1600 名科學(xué)家的調(diào)查研究,以了解科研工作者對(duì)生成式AI的使用狀況和想法。
結(jié)果顯示,有一半的參與者本身就是研究 AI 領(lǐng)域的研究者。而如果排除這部分人群,在非 AI 領(lǐng)域的研究者中,也有超過(guò)一半的人會(huì)在科研工作中使用 AI。
但不要高興太早,這些科學(xué)家使用AI的三個(gè)主要場(chǎng)景是——輔助非英語(yǔ)母語(yǔ)的作者撰寫論文(包括編輯和翻譯)、用 AI 編寫代碼、用 AI 提煉論文內(nèi)容以節(jié)省閱讀時(shí)間。
除了用AI編寫代碼有一定的科技屬性以外,另外兩項(xiàng)都是文字性的工作,這也和目前的大模型主要是大語(yǔ)言模型的現(xiàn)狀相匹配,但也從一定程度上反映了目前AI距離科研的核心場(chǎng)景還較遠(yuǎn)。
如果你希望AI解決核心的科研問(wèn)題,首先得有熟悉這方面研究的科學(xué)家來(lái)描述需求、尋找靶點(diǎn),而AI科學(xué)家則配合其完成工作——不得不說(shuō),這很會(huì)很難。
我不由想起我對(duì)楊振寧先生的一次采訪,楊先生告訴我,上世紀(jì)50年代的時(shí)候,IBM發(fā)明了大型計(jì)算機(jī),因此聯(lián)系了一些他這樣的高級(jí)科學(xué)家來(lái)研究使用計(jì)算機(jī)是否對(duì)科研工作有幫助。
“我確實(shí)感到計(jì)算機(jī)有很強(qiáng)的計(jì)算能力,可以幫我解決一些科研上的問(wèn)題。但當(dāng)時(shí)的計(jì)算機(jī)使用非常困難,你得自己編寫程序并輸入,我很快學(xué)會(huì)了,因?yàn)樗举|(zhì)上是數(shù)學(xué)。我甚至研究出了一種編程的方法,如果發(fā)展下去可能是未來(lái)的Fortune語(yǔ)言”,他回憶說(shuō):“但太耗時(shí)了,所以我試了一段時(shí)間就放棄了。”
這段話至今讀來(lái)仍然令人警醒——當(dāng)一種先進(jìn)的科研工具的使用門檻,高到令當(dāng)時(shí)的頂級(jí)科學(xué)家都有使用后就想放棄的念頭時(shí),它一定是很難推廣的。
事實(shí)上,正是一代代編程語(yǔ)言的進(jìn)化,從用代碼到可視化,從半自動(dòng)到自動(dòng)化,再到今天的可由AI自動(dòng)生成,計(jì)算機(jī)的科研價(jià)值和社會(huì)價(jià)值的釋放才能充分、徹底。
華為云對(duì)此已經(jīng)有深刻的認(rèn)知,例如他們已經(jīng)廣泛的和科學(xué)界合作。如在藥物研發(fā)方面,與華中科技大學(xué)、西交大一附院的教授通過(guò)華為云輔助制藥平臺(tái)發(fā)現(xiàn)新靶點(diǎn)活性物質(zhì);又如北京大學(xué)高毅勤教授基于華為云,研發(fā)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)功能,支持孤兒序列預(yù)測(cè),功能上已經(jīng)超出AlphaFold2……此外,在氣象、農(nóng)業(yè)、海洋科學(xué)方面都有不錯(cuò)的嘗試。
我為這些做法點(diǎn)贊,但我更激賞的做法,是華為云已經(jīng)把平臺(tái)服務(wù)覆蓋到了10+AI4S領(lǐng)域(包括生物醫(yī)藥、計(jì)算化學(xué)、地球科學(xué)、電磁學(xué)、流體仿真、量子力學(xué)等)和80+模型,這才是真正的為科學(xué)家賦能的“大道”。
點(diǎn)對(duì)點(diǎn)、人對(duì)人形態(tài)的AI賦能,一定沒(méi)有1對(duì)多、工具性和生態(tài)型的賦能更有效率,我相信華為云會(huì)在這個(gè)方向上不斷拉低AI4S的使能方式,讓經(jīng)過(guò)工程化和產(chǎn)品化,支持開箱即用和二次開發(fā)的更多的AI4S工具和套件,去提升敏捷創(chuàng)新的效率,提高用戶科學(xué)計(jì)算AI的開發(fā)效率。
最后,范式轉(zhuǎn)換期一定有更多的困難和挑戰(zhàn)。
科學(xué)哲學(xué)家托馬斯·庫(kù)恩的《科學(xué)革命的結(jié)構(gòu)》是無(wú)數(shù)科創(chuàng)領(lǐng)域大佬的案頭書,他也被廣泛認(rèn)為是20世紀(jì)最重要的科學(xué)哲學(xué)家。
庫(kù)恩的核心理論就是“范式說(shuō)”,這是一種對(duì)時(shí)代進(jìn)步的全新概念,簡(jiǎn)單說(shuō),庫(kù)恩認(rèn)為一個(gè)時(shí)代、一個(gè)領(lǐng)域只有一個(gè)發(fā)展的“主范式”,與范式吻合才能踩在歷史發(fā)展進(jìn)步的一邊,但范式本身有慣性,所以每一代新的范式轉(zhuǎn)換都需要付出努力和代價(jià)。
AI4S就是范式轉(zhuǎn)換的重要表征,它不以人的主觀意志為轉(zhuǎn)移,也不能人為的對(duì)抗范式轉(zhuǎn)換。但是,它也不會(huì)自然降臨,每個(gè)范式轉(zhuǎn)換期都要付出巨大的勞動(dòng)甚至代價(jià),而只有經(jīng)歷這個(gè)過(guò)山車式的過(guò)程并始終不被甩出第一梯隊(duì),才能最終駕馭范式轉(zhuǎn)換帶來(lái)的紅利,能駕馭范式轉(zhuǎn)換的才能笑到最后。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.