智東西
作者 程茜
編輯 心緣
智東西4月10日報道,深勢科技發(fā)布全球首個覆蓋“讀文獻-做計算-做實驗-多學科協(xié)同”全流程的AI科研平臺玻爾科研空間站,并上線了科研知識庫與AI學術搜索平臺科學導航(Science Navigator),這一平臺已覆蓋全球1.6億篇文獻。
據(jù)了解,科學導航由深勢科技聯(lián)合北京科學智能研究院打造。該平臺可以系統(tǒng)性解決科研人員在文獻篩選、跨學科知識發(fā)現(xiàn)及學術資源獲取等環(huán)節(jié)中的痛點,應對信息過載、檢索繁雜、整理耗時等挑戰(zhàn)。
張林峰談道,當下,AI4S(AI用于科研)應用場景更徹底的爆發(fā),依賴于AI讀算做的系統(tǒng)打通、加速閉環(huán)。
深勢科技成立于2018年,他補充說,目前該公司員工規(guī)模在200人左右,其中有超過100名實習生。
一、首個覆蓋“讀算做+多學科協(xié)同”的AI科研平臺
在科學導航中,用戶輸入或選擇相應科學問題,科學導航就可以自動解析問題意圖,匹配最相關的科研成果,并智能生成精準答案,同時一鍵跳轉至原始文獻,獲取更深入的研究信息,確保科研探索的全面性與可溯源性。
這一平臺擁有數(shù)據(jù)庫和知識庫、個性化問題捕捉、模型切換、多模態(tài)能力、批量文獻問答、聯(lián)網(wǎng)搜索等能力。
其中的學者庫收錄超2000w+位全球學者,基于學者AI分身,用戶可以與其對話交流,回答專業(yè)問題、分享觀點、拓展科研思路。
二,AI4S模型走向成熟,應用場景爆發(fā)需要AI讀算做閉環(huán)
如今有越來越多AI4S模型出現(xiàn)。深勢科技已經(jīng)推出了多個AI4S模型,包括面向物理世界的DPA分子模擬大模型、面向化學世界的Uni-Mol 3D分子構象大模型、面向生物世界的Uni-RNA核酸結構大模型。
張林峰談道,現(xiàn)在AI4S的發(fā)展趨勢是,一方面模型走向成熟,另一方面其發(fā)展階段可以對標GPT-3,處于有基本數(shù)據(jù)積累以及面向下游能夠實現(xiàn)遷移泛化的階段,但在實驗、生產(chǎn)、計算的科學探索領域仍存在較大問題。
他認為,當下AI4S應用場景更徹底的爆發(fā),都依賴于AI讀算做的系統(tǒng)打通、加速閉環(huán)。
因此,從2022年開始,深勢科技一方面要證明自己可以把某些場景打通,如考慮藥物設計領域等;另一方面,2022年是大模型爆發(fā)前夜,在藥物研發(fā)過程中需要對相關專利、文獻進行收集、整理,然后將相應分子式等進行提取,再形成數(shù)據(jù)庫,才能和AlphaFold3等類似的大模型進行擬合、迭代。
在AI“讀”的部分深勢科技的產(chǎn)品可以給出具體的分子式、化學反應等信息。此外,實驗側的合成、制備環(huán)節(jié)是形成整個閉環(huán)的規(guī)模、效率和反饋質(zhì)量的最終要素,解決這一難題的關鍵就是大語言模型。
在“算”的環(huán)節(jié),深勢科技解決了AI克服維數(shù)災難的問題,實現(xiàn)更好的建模、加速計算等,之后數(shù)據(jù)資料充足時,就會有整體的預訓練模型和下游反饋。
三、AI今年將吞噬文獻世界,科研場景需自動化實驗系統(tǒng)
張林峰談道,AI4S整個領域面臨的一大問題是,AI今年能夠吞噬文獻世界。從AGI的角度來看,有挑戰(zhàn)的事情是高質(zhì)量的數(shù)據(jù),全量的文獻專利就是更高質(zhì)量的反饋。
他認為,AI文獻今年非常有望實現(xiàn)全量文獻專利的干閉環(huán),以及進一步的干濕閉環(huán)能夠從局部走向整體。其中,包含瓶瓶罐罐的實驗過程是濕實驗,計算是干實驗。
AI4S的干閉環(huán)挑戰(zhàn)在于,文獻專利中的基礎問答不夠,體現(xiàn)在質(zhì)量、通量不夠;文獻的標注解析缺乏,需要進行多模態(tài)信息標注的解析;每個場景都需要專用科學數(shù)據(jù)庫。
這也導致玻爾空間站選擇了現(xiàn)在的表現(xiàn)形式。玻爾空間站的現(xiàn)有版本里,已經(jīng)可以針對文獻的基礎信息、通用語料、分子式等信息進行基礎知識問答。
未來,張林峰提到,進一步的AI連接能力是產(chǎn)品繼續(xù)往深走的核心。他認為,文獻可能成為全球科學家的新平臺,改變科研生產(chǎn)關系,而這很有可能發(fā)生在今年年底。
AI“做”的部分的瓶頸是自動化程度不高,其中的一大矛盾點事,基于智能化算法去優(yōu)化生產(chǎn)效率、化學反應可以追溯到1978年;但當下科研場景的自動化卻很低,在工業(yè)場景已經(jīng)非常成熟。
材料合成、藥物發(fā)現(xiàn)領域的自動化實驗系統(tǒng)可以支持開放式探索場景。他認為,這有點像人形機器人的柔性場景需求,但人形機器人相比實驗系統(tǒng)更難,如果AI4S的實驗室“具身智能”無法落地,人形機器人也很難落地。
上個月底,深勢科技發(fā)布了Uni-Lab-OS智能實驗室操作系統(tǒng),該操作系統(tǒng)可以解決傳統(tǒng)實驗室手工操作低效、設備孤立及數(shù)據(jù)分散的痛點。
結語:未來AI4S大模型、自動化實驗、產(chǎn)學研生態(tài)將實現(xiàn)飛輪
AI4S大模型想要和真正的科學發(fā)現(xiàn)相關聯(lián),就需要RLHF(人類反饋強化學習),也就是為模型優(yōu)化進行定制化,這個過程類比到GPT-3到GPT-4就是大范圍的人類對齊,GPT-4以后的Reasoning模型就是針對具體場景的反饋優(yōu)化。
張林峰稱,面向未來,每個階段都有獨屬于各個階段的問題,2025年實現(xiàn)徹底的干閉環(huán),更長期的是AI4S大模型、自動化實驗、產(chǎn)學研生態(tài)實現(xiàn)飛輪。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.