導語
上海科學智能研究院、集智科學研究中心和阿里云聯(lián)合發(fā)布了《AI X Science十大前沿觀察》,梳理出35個研究前沿,來推動科學發(fā)展的黃金時代到來。本篇為前沿觀察1,掃描下方二維碼可獲得完整版下載地址、快速鏈接論文原文。
掃描二維碼 下載完整報告
基于LLM的科學研究
背景介紹
近年來,大語言模型 (Large Language Models, LLMs) 正在深刻影響科學研究的方式。正如Nature Reviews Physics的評論文章[1]指出,LLM在科研中扮演的是“增強型助手”而非“替代者”的角色,這種增強作用體現(xiàn)在對科研活動不同維度的重構(gòu)中。
從本質(zhì)上看,LLM之所以能帶來深遠影響,在于它提供了一個統(tǒng)一的符號系統(tǒng)來重構(gòu)科研活動的不同維度。具體而言,這種重構(gòu)體現(xiàn)在三個深層次的維度上:
第一個層次是知識重構(gòu)維度。傳統(tǒng)的科學知識是分散在各個專業(yè)領域的,不同學科之間存在著“知識鴻溝”和“語言障礙”。LLM通過提供統(tǒng)一的知識表達框架,正在打破這些壁壘。例如,Galactica[2]通過整合海量科學文獻,重新定義了科學知識的組織方式;BioGPT[3]在生物醫(yī)學知識表示和生成方面取得突破。這些工作為科學發(fā)現(xiàn)提供了新的認知基礎,使得研究者能夠更容易地發(fā)現(xiàn)跨領域的關(guān)聯(lián)和洞見。
第二個層次是過程抽象維度。科研過程傳統(tǒng)上高度依賴研究者的專業(yè)經(jīng)驗和直覺判斷,這種經(jīng)驗難以形式化和傳承。LLM通過將科研流程抽象為可計算的任務序列,實現(xiàn)了科研活動的形式化和自動化。在化學領域,ChemCrow[4]展示了復雜實驗流程的自動化執(zhí)行,在生物領域,BioMedLM[5]展示了在生物醫(yī)學任務中的多任務學習能力。這些工作不僅提高了研究效率,更重要的是為科研方法的系統(tǒng)化和標準化提供了新的范式。
第三個層次是界面創(chuàng)新維度,體現(xiàn)為用自然語言重構(gòu)人機物理系統(tǒng)的交互方式。傳統(tǒng)上,科研人員需要掌握復雜的專業(yè)操作界面來使用科研設備,這種非自然的交互方式不僅限制了研究效率,也阻礙了創(chuàng)新思維的發(fā)揮。VISION[7]通過模塊化架構(gòu)實現(xiàn)了科研設備的自然語言控制,Med-PaLM[8]在醫(yī)學圖像分析中實現(xiàn)了直觀的人機對話,這些創(chuàng)新不僅降低了使用專業(yè)設備的門檻,更重要的是實現(xiàn)了人與設備之間的認知層面協(xié)同。
這三個維度的變革是遞進和互補的:知識重構(gòu)提供了認知基礎,過程抽象實現(xiàn)了方法創(chuàng)新,界面創(chuàng)新則打通了實踐環(huán)節(jié)。這種多維度的系統(tǒng)性變革也帶來了深層的挑戰(zhàn):
1. 知識表達:如何在知識重構(gòu)中保持專業(yè)深度并確保表達的完備性?
2. 流程保障:如何在過程抽象中平衡自動化與創(chuàng)新空間?
3. 交互設計:如何構(gòu)建更符合科研認知特點的自然交互界面?
4. 系統(tǒng)集成:如何實現(xiàn)知識、流程、界面三個維度的協(xié)同創(chuàng)新?
理解和應對這些挑戰(zhàn),將決定LLM能在多大程度上推動科學研究的進步。本報告將重點分析幾個代表性工作,展示當前在應對這些挑戰(zhàn)方面的最新進展,并探討LLM驅(qū)動的科研新范式的未來發(fā)展方向。
研究進展
進展目錄 跨學科知識的整合和創(chuàng)新 基于LLM的科研流程重構(gòu) 革新人機協(xié)同科研模式跨學科知識的整合與創(chuàng)新
Galactica的產(chǎn)品頁面 | 來源:Galactica的官網(wǎng)(現(xiàn)已下線)
推薦理由:Galactica[2]是首個專門面向科學文獻訓練的大規(guī)模語言模型,通過整合4800萬篇科研論文、教材和知識庫的內(nèi)容,加上獨特的訓練策略和模型設計,展現(xiàn)了LLM在科學知識綜合理解與應用方面的強大潛力。
跨學科知識的整合與創(chuàng)新已成為推動科學進步的關(guān)鍵動力,然而,面對指數(shù)級增長的科研文獻,研究人員往往難以全面把握不同領域的知識脈絡。能否構(gòu)建一個“科學知識的通用理解者”,打破學科壁壘,實現(xiàn)跨領域知識的有機融合?
Galactica是一個非常重要的嘗試。通過創(chuàng)新的數(shù)據(jù)處理和訓練策略,Galactica開創(chuàng)了專業(yè)領域大模型的新范式。它的核心突破在于提出了“高質(zhì)量數(shù)據(jù)+多輪迭代”的訓練方法,通過對精選的4800萬篇科研文獻進行4.25輪深度訓練,驗證了這一方法優(yōu)于傳統(tǒng)的“大規(guī)模數(shù)據(jù)+單輪訓練”范式。同時,它設計了獨特的Tokenization策略統(tǒng)一處理科研領域的多模態(tài)數(shù)據(jù)(如數(shù)學公式、化學結(jié)構(gòu)、蛋白質(zhì)序列),并創(chuàng)新性地引入Reference Token和Work Token分別用于構(gòu)建知識圖譜和支持多步推理。這些設計讓Galactica在多個科學任務上取得了突破性進展:LaTeX公式理解準確率達68.2%(超GPT-3近20個百分點),數(shù)學推理準確率達41.3%(超Chinchilla 5.6個百分點),醫(yī)學問答準確率創(chuàng)下77.6%的新紀錄。
Galactica了實現(xiàn)科學知識的系統(tǒng)性整合。同時,由于有大量研究指出這項技術(shù)容易產(chǎn)生偏見和將謊言斷言為事實的傾向等缺陷,即文本生成中的幻覺(Hallucination),經(jīng)過三天的激烈批評后即被迅速下線。
盡管如此,Galactica通過將領域知識系統(tǒng)性注入預訓練過程,為構(gòu)建專業(yè)領域大模型提供了重要范式,其影響已超越科學領域,為其他垂直領域大模型的發(fā)展提供了有益借鑒。其中,來自上海交通大學的團隊將這一頗具潛力的模型引入到了地球科學領域,完成了300億參數(shù)的地學?語?模型GeoGalactica的訓練[9]。
基于LLM的科研流程重構(gòu)
ChemCrow任務解決過程概述 | 來源:M. Bran, A., Cox, S., Schilter, O. et al. Augmenting large language models with chemistry tools. Nat Mach Intell 6, 525–535 (2024). https://doi.org/10.1038/s42256-024-00832-8
推薦理由:科學研究的過程抽象是一個根本性挑戰(zhàn),它涉及如何將復雜的研究活動分解為可計算、可執(zhí)行的任務序列。ChemCrow[4]通過創(chuàng)新性地將LLM與專業(yè)工具相結(jié)合,為這一挑戰(zhàn)提供了一個可行的解決方案。 科學研究過程的形式化和自動化一直是一個重要而困難的課題。傳統(tǒng)上,科研活動高度依賴研究者的經(jīng)驗和直覺,這種依賴不僅限制了研究效率,也使得許多寶貴的研究經(jīng)驗難以傳承和推廣。如何將專家的經(jīng)驗和判斷轉(zhuǎn)化為明確的操作流程,如何確保復雜實驗過程的可重復性,如何在保持靈活性的同時實現(xiàn)高度自動化,這些問題長期困擾著各個科學領域。
ChemCrow為解決這些普遍性問題提供了一個創(chuàng)新的范式。其核心思想是構(gòu)建一個“思考-行動-觀察”的閉環(huán)系統(tǒng),通過LLM作為協(xié)調(diào)者,將各類專業(yè)工具有機整合。具體而言,該系統(tǒng)包含三個關(guān)鍵創(chuàng)新:首先,它建立了一個基于自然語言的任務規(guī)劃框架,能將復雜的研究目標分解為具體的操作步驟;其次,它設計了一套工具調(diào)用機制,使LLM能根據(jù)需求精確調(diào)用相應的專業(yè)工具;最后,它實現(xiàn)了一個動態(tài)反饋系統(tǒng),能根據(jù)執(zhí)行結(jié)果實時調(diào)整策略。
ChemCrow的成功意義遠超化學領域。首先,它證明了將復雜的科研過程形式化是可行的,這為其他領域的過程自動化提供了重要參考。其次,它展示了如何在保持系統(tǒng)靈活性的同時確保研究的可靠性和可重復性。最重要的是,它提供了一個可推廣的框架,這個框架可以根據(jù)不同學科的特點進行調(diào)整和擴展。它代表了科研活動從“經(jīng)驗驅(qū)動”向“系統(tǒng)驅(qū)動”的重要轉(zhuǎn)變,預示著一個更加自動化、規(guī)范化的科研新時代的到來。
革新人機協(xié)同科研模式
VISION的系統(tǒng)架構(gòu)概覽 | 來源:Mathur, S., van der Vleuten, N., Yager, K. G., & Tsai, E. (2023). VISION: A modular AI assistant for natural human-instrument interaction at scientific user facilities. arXiv preprint arXiv:2412.18161.
推薦理由:VISION[7]開創(chuàng)性地將模塊化AI架構(gòu)引入科學實驗,通過將不同的認知模塊有機整合,實現(xiàn)了首個全面的自然語言實驗控制系統(tǒng)。它為人機協(xié)同科研提供了新的交互范式。
科學實驗設備的操作一直是一個專業(yè)性很強的領域,傳統(tǒng)上需要研究人員掌握復雜的專業(yè)操作界面和命令。這不僅給研究人員帶來很大的學習負擔,也成為科研自動化的重要障礙。如何讓科學家能夠用自然語言與科研設備直接“對話”,讓設備理解并執(zhí)行研究人員的意圖,這=是一個具有重要意義又充滿挑戰(zhàn)的課題。
VISION的突破性在于它提出了一種創(chuàng)新的模塊化AI架構(gòu)。系統(tǒng)由多個功能模塊(Cognitive Blocks)組成,每個模塊都基于一個針對特定任務優(yōu)化的大語言模型。這些模塊協(xié)同工作,共同完成從語音識別、意圖理解到任務規(guī)劃和代碼生成的全流程。
具體來說,系統(tǒng)包含轉(zhuǎn)錄器(Transcriber)、分類器(Classifier)、操作員(Operator)和分析師(Analyst)等關(guān)鍵模塊。這些模塊以工作流(Workflow)的形式進行組織和調(diào)度。當用戶發(fā)出一個請求時,系統(tǒng)首先判斷其屬于數(shù)據(jù)采集、分析還是其他類型,然后調(diào)用相應的工作流處理。最后,系統(tǒng)將生成的代碼或分析結(jié)果返回給用戶確認,并在獲得許可后提交給底層的實驗控制平臺執(zhí)行。整個過程中,用戶通過自然語言與系統(tǒng)交互,無需了解復雜的技術(shù)細節(jié)。
VISION的意義在于它開創(chuàng)了一種全新的人機交互范式。通過模塊化的架構(gòu)設計,它充分利用了大語言模型在不同任務上的特長,實現(xiàn)了全面的語言理解和任務執(zhí)行能力。同時,它將前沿的AI技術(shù)與傳統(tǒng)的科研工作流程巧妙結(jié)合,極大地提高了實驗效率和靈活性。更重要的是,它為實現(xiàn)“用語言做實驗”這一科研人員的長期愿景邁出了關(guān)鍵一步。
挑戰(zhàn)與展望
然而,基于LLM的科學研究也面臨著幾個根本性的挑戰(zhàn):幻覺問題,LLM可能生成表面上合理但實際上不準確的內(nèi)容,這在科學研究中尤其危險;創(chuàng)新的認知邊界問題,LLM的“創(chuàng)新”源自已有知識的重組和推理,這與真正的科學突破性發(fā)現(xiàn)可能存在本質(zhì)差異;可重復性與可解釋性的矛盾,科學研究要求結(jié)果可重復、過程可追溯,但LLM的黑盒特性與此形成本質(zhì)沖突。
面向未來,大語言模型驅(qū)動的科研創(chuàng)新亟需在以下方向?qū)崿F(xiàn)突破:
1.構(gòu)建可信科研平臺:整合跨模態(tài)知識,建立鏈上可追溯、過程可審計、結(jié)果可復現(xiàn)的科研基礎設施。
2.探索人機協(xié)同創(chuàng)新范式:發(fā)掘研究人員專業(yè)經(jīng)驗與LLM知識處理能力的最佳協(xié)同路徑,實現(xiàn)輔助決策到聯(lián)合創(chuàng)新的躍升。
3.推進跨學科協(xié)同治理:計算機、倫理學、科學哲學、科研管理等領域,需協(xié)同推進LLM在科研領域的責任評估、倫理審查、規(guī)范制定等工作。
科學研究正在經(jīng)歷一場方法論的革新。基于LLM的科學研究不僅提供了新的研究工具,更重要的是開創(chuàng)了一種新的認知范式。這種范式將人類的創(chuàng)造力與AI的能力有機結(jié)合,有望加速科學發(fā)現(xiàn)的進程。隨著技術(shù)的進步和應用的深入,這種新范式可能會重塑科學研究的方式,開啟科學探索的新紀元。
參考文獻
[1] Birhane, A., et al. "Science in the age of large language models." Nature Reviews Physics 5 (2023): 277-280.https://doi.org/10.1038/s42254-023-00581-4
推薦理由: 這是一篇重要的評論性文章,由四位AI倫理和政策專家撰寫,全面討論了LLM在科學研究中的潛力和風險。文章不僅提供了清晰的概念框架,還引發(fā)了關(guān)于LLM在科研中應用的深入討論。
[2] Taylor, R., et al. "Galactica: A Large Language Model for Science." arXiv preprint arXiv:2211.09085 (2022).https://arxiv.org/abs/2211.09085
推薦理由: 這是首個專門面向科學文獻訓練的大規(guī)模語言模型的技術(shù)報告,詳細描述了模型架構(gòu)、訓練策略和評估結(jié)果。雖然模型最終下線,但其技術(shù)創(chuàng)新和失敗教訓都具有重要的參考價值。
[3] Luo, R., et al. "BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining." Briefings in Bioinformatics 23.6 (2022): bbac409.https://doi.org/10.1093/bib/bbac409
推薦理由: 這篇論文介紹了專門針對生物醫(yī)學領域的預訓練語言模型,展示了領域特定LLM的潛力,為其他垂直領域的模型開發(fā)提供了重要參考。
[4] Bran, A.M., et al. "Augmenting large language models with chemistry tools." Nature Machine Intelligence 6 (2024): 525-535.https://doi.org/10.1038/s42256-024-00832-8
推薦理由: 這篇發(fā)表在Nature Machine Intelligence的論文展示了如何將LLM與專業(yè)工具結(jié)合,實現(xiàn)科研流程的自動化。文章提供了詳細的系統(tǒng)設計和實驗驗證,具有很強的實踐指導意義。
[5] Bolton, E., et al. "BioMedLM: A 2.7B Parameter Language Model Trained on Biomedical Text." arXiv preprint arXiv:2403.18421 (2024).https://arxiv.org/abs/2403.18421
推薦理由: 這是一個針對生物醫(yī)學領域的開源語言模型,論文詳細描述了模型訓練過程和多任務學習能力,為生物醫(yī)學領域的AI應用提供了重要工具。
[6] Mathur, S., et al. "VISION: A Modular AI Assistant for Natural Human-Instrument Interaction at Scientific User Facilities." arXiv preprint arXiv:2412.18161 (2023).https://arxiv.org/abs/2412.18161
推薦理由: 這篇預印本詳細描述了一個創(chuàng)新的模塊化AI系統(tǒng),展示了如何通過自然語言實現(xiàn)科研設備控制,為提高實驗效率提供了新思路。
[7] Singhal, K., et al. "Large Language Models Encode Clinical Knowledge." Nature 620.7972 (2023): 172-180.https://doi.org/10.1038/s41586-023-06291-2
推薦理由: 這篇Nature論文展示了LLM在醫(yī)學領域的應用潛力,特別是在醫(yī)學知識理解和圖像分析方面的突破,為醫(yī)學AI的發(fā)展提供了重要參考。
[8] Lin, Z., et al. "GeoGalactica: A Scientific Large Language Model in Geoscience." arXiv preprint arXiv:2401.00434 (2024).https://arxiv.org/abs/2401.00434
推薦理由: 這篇論文介紹了如何將Galactica的架構(gòu)應用到地球科學領域,展示了專業(yè)領域大模型的發(fā)展?jié)摿Γ瑸槠渌麑W科的模型開發(fā)提供了借鑒。
出品:漆遠、吳力波、張江 運營:孟晉宇、王婷 撰稿:張江、楊燕青、王婷、王朝會、十三維、周莉、梁金、袁冰、江千月、劉志毅 鳴謝(按姓氏拼音順序,排名不分先后): 曹風雷 、陳小楊 、程遠、杜沅豈 、段郁、方榯楷 、付彥偉、 高悅、黃柯鑫、李昊、劉圣超、譚偉敏、吳泰霖、吳艷玲、向紅軍、張驥、張艷、朱思語
AI+Science 讀書會
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.