來源:學(xué)術(shù)頭條
整理:小羊
“跨學(xué)科 AI 是學(xué)術(shù)界一個非常令人興奮的領(lǐng)域,尤其是在科學(xué)發(fā)現(xiàn)方面。”
在 AI 教母、斯坦福大學(xué)教授李飛飛看來,由大語言模型(LLM)等主導(dǎo)的 AI 范式能夠與眾多學(xué)科交叉,幫助人類發(fā)現(xiàn)、解決一些真正根本性的問題。
那么,AI 在科學(xué)研究中的潛力究竟如何?特別是在推動跨學(xué)科科學(xué)研究方面,其衍生出的 AI4Research 領(lǐng)域的進(jìn)展又如何?
哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部長聘教授、博士生導(dǎo)師車萬翔團(tuán)隊(duì)及其合作者針對 AI4Research 展開的一項(xiàng)系統(tǒng)性調(diào)查,為我們提供了一個統(tǒng)一的視角,幫助我們更好地理解 AI 在科研中的應(yīng)用與未來發(fā)展。
論文鏈接:https://arxiv.org/abs/2507.01903
主要貢獻(xiàn)如下:
系統(tǒng)性分類:提出了一種系統(tǒng)性分類方法,用于劃分 AI4Research 中的五大主流任務(wù);
新興領(lǐng)域:識別關(guān)鍵研究空白并強(qiáng)調(diào)未來發(fā)展方向,重點(diǎn)關(guān)注自動化實(shí)驗(yàn)的嚴(yán)謹(jǐn)性和可擴(kuò)展性,以及社會影響;
豐富應(yīng)用與資源:整理了大量資源,包括跨學(xué)科應(yīng)用案例、數(shù)據(jù)集和工具。
研究團(tuán)隊(duì)希望,這一綜述能夠?yàn)榭蒲猩鐓^(qū)提供快速獲取這些資源的途徑,并激發(fā) AI4Research 領(lǐng)域的創(chuàng)新。
AI4Research是什么?
AI4Research 指的是將人工智能方法應(yīng)用于跨學(xué)科研究,旨在改進(jìn)、加速并部分自動化研究過程。
AI4Research 與 AI4Science 有著本質(zhì)上的區(qū)別。
具體而言,AI4Science 主要聚焦于科學(xué)發(fā)現(xiàn)和數(shù)據(jù)分析,它旨在利用 AI 技術(shù)加速具體科學(xué)領(lǐng)域的發(fā)現(xiàn)過程,如材料發(fā)現(xiàn)、藥物設(shè)計(jì)、基因組分析等,其主要目標(biāo)是將 AI 嵌入研究工作流程中,幫助專家實(shí)現(xiàn)重大的科學(xué)突破。
相比之下,AI4Research 采用更廣泛的視角,涵蓋了學(xué)術(shù)研究的整體流程和基礎(chǔ)設(shè)施。它關(guān)注學(xué)術(shù)論文、研究方法和科研生產(chǎn)力等更寬泛的問題,強(qiáng)調(diào) AI 在提升研究方法及支持學(xué)術(shù)環(huán)境方面的作用,適用于資深研究人員與新興科學(xué)家。
這兩個框架的核心區(qū)別在于其關(guān)注重點(diǎn)不同:AI4Science 針對特定科學(xué)問題和實(shí)驗(yàn)協(xié)議,而 AI4Research 則關(guān)注更廣泛的研究方法和學(xué)術(shù)基礎(chǔ)設(shè)施。
隨著 LLM 具備更強(qiáng)的推理和生成能力,一種統(tǒng)一的科研 AI 工作流正在出現(xiàn),可以同時解決專門的科學(xué)挑戰(zhàn)和一般的學(xué)術(shù)流程。AI4Science 的工具常被集成到 AI4Research 系統(tǒng)中,作為 LLM 科學(xué)探索的可調(diào)用組件。
AI4Research5個階段
研究團(tuán)隊(duì)提出了一個涵蓋科學(xué)理解、學(xué)術(shù)調(diào)研、科學(xué)發(fā)現(xiàn)、學(xué)術(shù)寫作和學(xué)術(shù)評審五個領(lǐng)域的全面分類法,對應(yīng)科研過程的不同階段。
AI 用于科學(xué)理解(AI4SC):指利用 AI 提取、解釋和綜合單篇科學(xué)文獻(xiàn)信息的能力。旨在幫助人類和自動系統(tǒng)更高效地理解科研論文,加速知識獲取。
AI 用于學(xué)術(shù)調(diào)研(AI4AS):旨在讓 AI 整合并結(jié)構(gòu)化多個現(xiàn)有文獻(xiàn),提供某研究領(lǐng)域的全面綜述。有助于識別科學(xué)領(lǐng)域中的趨勢、空白及關(guān)鍵貢獻(xiàn)。
AI 用于科學(xué)發(fā)現(xiàn) (AI4SD):側(cè)重于借助 AI 生成并驗(yàn)證新的科學(xué)假設(shè)或創(chuàng)意,以及執(zhí)行相關(guān)實(shí)驗(yàn)或模擬。該模塊提高了探索未知領(lǐng)域和加速創(chuàng)新的能力。
AI 用于學(xué)術(shù)寫作(AI4AW):協(xié)助研究人員生成、修改和格式化科學(xué)論文。其通過提升學(xué)術(shù)寫作的質(zhì)量和效率,確保論文結(jié)構(gòu)清晰且符合出版標(biāo)準(zhǔn)。
AI 用于學(xué)術(shù)評審(AI4PR):利用 AI 自動化和加強(qiáng)學(xué)術(shù)論文的同行評審過程。該模塊旨在生成結(jié)構(gòu)化、客觀且有建設(shè)性的審稿意見,以提高評審質(zhì)量和效率。
1.AI 用于科學(xué)理解
AI 用于科學(xué)理解是推動 AI4Research 的關(guān)鍵環(huán)節(jié),它涉及從科學(xué)文獻(xiàn)中提取、理解并綜合信息的能力。這一能力可以加速人類對科學(xué)知識的掌握,提高自動分析的效率,從而讓后續(xù)科研流程更有效。AI 輔助的科學(xué)理解劃分為兩大類別,即對論文文本內(nèi)容的理解和表格與圖表型科學(xué)理解。
文本科學(xué)理解指 AI 理解、解釋并批判性評價科學(xué)文本(如學(xué)術(shù)論文)的能力。其涉及識別論文中的關(guān)鍵概念、掌握復(fù)雜術(shù)語、綜合信息形成對科學(xué)原理和發(fā)現(xiàn)的整體認(rèn)識。現(xiàn)有技術(shù)有半自動科學(xué)理解和全自動科學(xué)理解,半自動科學(xué)理解需要人工提供起始問題或交互,由 AI 生成針對該問題的論文理解結(jié)果,屬于人機(jī)協(xié)同方式。全自動科學(xué)理解中 AI 可自主閱讀大量文獻(xiàn)并生成理解結(jié)果,無需人工提問或干預(yù),屬于完全自動方式。
表格理解指讓 LLM 具備從科研論文的表格中提取、解釋和推理數(shù)據(jù)的能力。目前思路有數(shù)據(jù)增強(qiáng)、推理范式增強(qiáng)。圖表理解則指 AI 能夠直接處理和解釋科研論文中的圖像化圖表(如折線圖、柱狀圖、示意圖等),并據(jù)此回答問題或生成摘要。
2.AI 用于學(xué)術(shù)調(diào)研
學(xué)術(shù)調(diào)研指對特定研究領(lǐng)域文獻(xiàn)的綜述和調(diào)研,在科研工作中具有重要地位。AI 在學(xué)術(shù)調(diào)查中的應(yīng)用旨在幫助研究者高效檢索相關(guān)文獻(xiàn)并自動生成綜述報(bào)告,從而減輕工作量、提高綜述的全面性和客觀性。
相關(guān)工作檢索需要人工智能主動識別與其不斷發(fā)展的科學(xué)目標(biāo)相一致的基礎(chǔ)性和新穎的研究論文。現(xiàn)有研究將 AI 用于文獻(xiàn)檢索的方法大致分為三個范式;語義引導(dǎo)的檢索、基于圖的檢索和 LLM 增強(qiáng)的檢索。
在檢索到相關(guān)文獻(xiàn)后,下一步是自動生成結(jié)構(gòu)化、連貫的綜述報(bào)告。利用 AI,我們可以首先完成研究路線圖映射,然后生成章節(jié)級相關(guān)工作,最后生成完整的文檔級調(diào)查。
3.AI 用于科學(xué)發(fā)現(xiàn)
AI 用于科學(xué)發(fā)現(xiàn)指利用 AI 基于現(xiàn)有知識生成新的假設(shè),理論或想法。旨在利用人工智能來輔助甚至自動完成這一過程的各個階段,包括創(chuàng)意生成、假設(shè)評估、理論分析和實(shí)驗(yàn)執(zhí)行等,從而加速突破性發(fā)現(xiàn)的產(chǎn)生。這種方法不僅可以指導(dǎo)新的研究方向還可以解決復(fù)雜的科學(xué)挑戰(zhàn)。
科學(xué)發(fā)現(xiàn)模塊包含五個主要類別:創(chuàng)意挖掘、新穎性與重要性評估、理論分析、
實(shí)驗(yàn)執(zhí)行和全自動發(fā)現(xiàn)。這五個環(huán)節(jié)幾乎覆蓋了一個完整科學(xué)研究項(xiàng)目的生命周期:從產(chǎn)生假設(shè)想法、評估想法的價值、分析理論基礎(chǔ)、設(shè)計(jì)并實(shí)施實(shí)驗(yàn),到最終將整個過程整合為自動化系統(tǒng)。
4.AI 用于學(xué)術(shù)寫作
AI 用于學(xué)術(shù)寫作涉及使用 AI 技術(shù)來幫助研究人員或從頭開始起草,編輯和格式化科學(xué)手稿。AI 正逐步成為科研寫作的有力助手。
半自動學(xué)術(shù)寫作指人機(jī)協(xié)同完成論文寫作,AI 提供輔助而人類研究者掌控內(nèi)容。具體而言,在撰寫準(zhǔn)備階段,AI 可以提供諸多便利。而全自動學(xué)術(shù)寫作指 AI 幾乎不需人工參與,即可自動生成完整的學(xué)術(shù)論文草稿。這通常建立在科研流程前面環(huán)節(jié)已由AI完成的基礎(chǔ)上——例如經(jīng)過 AI 實(shí)驗(yàn)系統(tǒng)產(chǎn)出了結(jié)果數(shù)據(jù)和圖表,然后由寫作模型來撰寫論文各個部分。從引言、方法到結(jié)果與討論,AI 模型根據(jù)既有資料填充內(nèi)容并形成連貫的論文文本。在實(shí)驗(yàn)性的演示中,研究者讓 AI 讀取實(shí)驗(yàn)記錄、分析數(shù)據(jù)圖表,并自動生成相應(yīng)的結(jié)果描述和討論,從而自動撰寫技術(shù)報(bào)告。
5.AI用于學(xué)術(shù)評審
同行評審在提高學(xué)術(shù)論文質(zhì)量方面十分重要。但它經(jīng)常受到延遲,時間要求和不斷增長的學(xué)術(shù)工作量的阻礙。為了應(yīng)對這些挑戰(zhàn)并提高論文質(zhì)量,研究人員正在探索將 AI 融入評審過程。
在正式同行評議開始前,期刊和會議經(jīng)常要對稿件進(jìn)行初步篩選并選擇合適的評審人。AI 已經(jīng)在這一階段得到應(yīng)用。一方面,隨著學(xué)術(shù)期刊投稿量的增加,編輯部在案頭審查階段面臨著更繁重的工作量。為了解決這個問題,主要出版商引入了人工智能驅(qū)動的工具,例如自動關(guān)鍵字提取,主題匹配和初步評分,以提高效率,縮短周轉(zhuǎn)時間,并減少人工篩選。另一方面,評審人匹配是確保評審質(zhì)量的另一重要環(huán)節(jié) AI 系統(tǒng)可以通過機(jī)器學(xué)習(xí)模型在海量專家數(shù)據(jù)庫中匹配合適的候選人。
審稿中階段,涉及通過自動化或人工評審協(xié)助生成或支持評審報(bào)告。評審員必須分配一個數(shù)字評分并提供書面評估。評審過程通常包括兩個主要階段:同行評審和元評審。
論文通過同行評審并發(fā)表后,還有一些評審后的 AI 應(yīng)用來評估論文影響、擴(kuò)大論文傳播。旨在評估其未來學(xué)術(shù)影響并擴(kuò)大其傳播范圍。它包括影響力分析(通過論文內(nèi)容預(yù)測引用軌跡和研究意義)和推廣增強(qiáng)(自動生成海報(bào)、通俗摘要、視頻和其他宣傳材料以擴(kuò)大論文影響力)。
AI4Research有什么用?
在自然科學(xué)領(lǐng)域,AI 的應(yīng)用已成為推動科學(xué)發(fā)現(xiàn)和開發(fā)新研究方法的重要工具。
例如,在物理學(xué)研究中,AI 如今在開發(fā)新研究方法和驅(qū)動科學(xué)發(fā)現(xiàn)上不可或缺。它的應(yīng)用范圍從自動規(guī)律發(fā)現(xiàn)到物理世界模擬和神經(jīng)操作符學(xué)習(xí),旨在提高模擬精度,加速計(jì)算,并從有限的數(shù)據(jù)中揭示隱藏的模式。生命科學(xué)和醫(yī)學(xué)研究中的 AI 使用算法和計(jì)算模型來分析和預(yù)測跨尺度,從分子結(jié)構(gòu)到臨床診斷,加速藥物發(fā)現(xiàn),優(yōu)化實(shí)驗(yàn)工作流程,提高診斷準(zhǔn)確性,推進(jìn)精準(zhǔn)醫(yī)療。在化學(xué)和材料科學(xué)中, AI 驅(qū)動的化學(xué)和材料自動化將機(jī)器學(xué)習(xí),機(jī)器人和儀器集成到一個閉環(huán)系統(tǒng)中,用于設(shè)計(jì),合成和表征,加速決策和實(shí)驗(yàn)。
在應(yīng)用科學(xué)與工程領(lǐng)域,AI 的應(yīng)用也取得了顯著進(jìn)展。機(jī)器人控制領(lǐng)域的 AI 在機(jī)器人和控制領(lǐng)域應(yīng)用廣泛,包括深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、大模型用于感知、決策和控制,以提高機(jī)器人在新環(huán)境下的適應(yīng)性、魯棒性和自主性。在軟件工程,應(yīng)用 AI 技術(shù)自動化軟件開發(fā)任務(wù),可以提高代碼質(zhì)量和開發(fā)人員的生產(chǎn)力。包括代碼生成錯誤檢測,代碼審查和軟件測試。
在社會科學(xué)領(lǐng)域,如社會學(xué)、心理學(xué),AI 也被用于自動化社會科學(xué)實(shí)驗(yàn)的設(shè)計(jì)、執(zhí)行和分析,涵蓋從假設(shè)生成到數(shù)據(jù)采集等任務(wù),盡量減少人為干預(yù)。心理學(xué)研究的 AI 研究方法側(cè)重于心理學(xué)實(shí)驗(yàn)的設(shè)計(jì),實(shí)施和驗(yàn)證,來確保有效性和可重復(fù)性。
未來又如何?
隨著AI在科研中的廣泛應(yīng)用,未來的研究方向集中于多個關(guān)鍵領(lǐng)域,以推動人工智能在科研中的進(jìn)一步發(fā)展。
跨學(xué)科 AI 模型成為未來研究的重點(diǎn),特別是基礎(chǔ)模型(Foundation Models)和圖模型(Graph Models)兩大方向。這些模型能夠整合來自不同學(xué)科的數(shù)據(jù),實(shí)現(xiàn)跨學(xué)科知識流動,推動科學(xué)研究的進(jìn)一步發(fā)展。然而,異構(gòu)數(shù)據(jù)的融合和知識整合仍面臨巨大挑戰(zhàn)。策略轉(zhuǎn)移、領(lǐng)域?qū)褂?xùn)練和語義對齊等技術(shù)可縮小部分差距,但高度異構(gòu)環(huán)境下負(fù)面轉(zhuǎn)移現(xiàn)象仍難以消除。
與此同時,隨著 AI 在科研中的應(yīng)用日益增多,倫理、安全、公平性和偏見問題已經(jīng)浮現(xiàn)。目前提出了三大緩解策略:公平感知訓(xùn)練、無訓(xùn)練去偏和建立倫理框架。這些策略旨在消除 AI 應(yīng)用中的偏見和不公平性,但仍面臨性能與公平之間的權(quán)衡以及 AI 剽竊的問題,尤其是大規(guī)模文本生成可能導(dǎo)致的“智能剽竊”現(xiàn)象。
跨學(xué)科合作的增加,團(tuán)隊(duì)成員的背景差異也可能導(dǎo)致信息流不暢和決策協(xié)調(diào)困難。AI 可以幫助自動提取跨文檔和跨領(lǐng)域的信息,從而縮小協(xié)作者之間的信息差距。同時,實(shí)時協(xié)作平臺中的人工智能驅(qū)動仲裁器可根據(jù)項(xiàng)目進(jìn)展和成員專長動態(tài)調(diào)整任務(wù)分配,從而提升效率并提高創(chuàng)新成果的質(zhì)量。主要研究方向可大致分為兩類:協(xié)同智能體與合作智能系統(tǒng),以及聯(lián)邦學(xué)習(xí)和分布式建模。這些技術(shù)可以提高跨機(jī)構(gòu)協(xié)作效率,但也面臨交互復(fù)雜性和數(shù)據(jù)隱私問題的挑戰(zhàn)。
確保AI系統(tǒng)的透明性和可解釋性至關(guān)重要。未來的研究需要加強(qiáng)模型的可解釋性,使研究者能夠追溯 AI 得出結(jié)論的過程,尤其是在高風(fēng)險(xiǎn)科學(xué)應(yīng)用中。當(dāng)前的挑戰(zhàn)包括缺乏統(tǒng)一的可解釋性框架以及在高性能黑盒模型和透明性之間的權(quán)衡。
此外,實(shí)時AI 系統(tǒng)能自動調(diào)整實(shí)驗(yàn)協(xié)議以應(yīng)對不可預(yù)見的變量或變化條件,同時進(jìn)行即時數(shù)據(jù)分析,從而大幅提升研究效率和創(chuàng)新潛力。智能體實(shí)時 AI 和自主實(shí)驗(yàn)室協(xié)同控制的研究旨在通過自動化實(shí)驗(yàn)過程來加速科學(xué)發(fā)現(xiàn)。異構(gòu)設(shè)備和 AI 系統(tǒng)的集成以及低延遲決策的需求仍然是當(dāng)前面臨的很大挑戰(zhàn)。
在多模態(tài)集成方面,有效多模態(tài)整合已成為人工智能驅(qū)動發(fā)現(xiàn)的關(guān)鍵。早期研究表明,同時嵌入文本和圖表可顯著提升深度分析和基于文獻(xiàn)的發(fā)現(xiàn)能力,但這種方法在將高度專業(yè)化的圖表與文本描述對齊時常會遇到困難。多模態(tài)融合面臨的數(shù)據(jù)稀缺和標(biāo)注瓶頸,以及跨模態(tài)不確定性量化的問題。
隨著全球科研日益國際化,多語言集成的重要性也不斷上升。若人工智能工具僅偏好英語或其他高資源語言,研究共享將受阻,加劇“信息孤島”和“知識鴻溝”。目前有科學(xué)術(shù)語對齊、平衡多語言性兩種策略,挑戰(zhàn)包括如何在多語言模型中平衡性能和容量,以及如何在跨語言學(xué)術(shù)中保持一致。
閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報(bào)告
(加入未來知識庫,全部資料免費(fèi)閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.