近日,華南農(nóng)業(yè)大學(xué)農(nóng)學(xué)院、未來作物精準育種基礎(chǔ)研究卓越中心、亞熱帶農(nóng)業(yè)生物資源保護與利用國家重點實驗室和嶺南現(xiàn)代農(nóng)業(yè)科學(xué)與技術(shù)廣東省實驗室劉耀光院士/祝欽瀧研究員團隊與清華大學(xué)合作在Advanced Science在線發(fā)表了題為PlantGPT: An Arabidopsis-based Intelligent Agent That Answers Questions About Plant Functional Genomics的研究論文。該工作開發(fā)了一個以擬南芥為基礎(chǔ)的植物功能基因組學(xué)專家問答系統(tǒng)PlantGPT(http://www.plantgpt.icu),通過融合檢索增強生成(RAG)技術(shù)和大語言模型(LLM)微調(diào)方法,實現(xiàn)了對植物功能基因組學(xué)專業(yè)問題的精準回答,為植物科學(xué)研究領(lǐng)域提供了全新的人工智能輔助工具。
面對全球糧食安全和作物品質(zhì)提升的挑戰(zhàn),功能基因組學(xué)研究在增加作物產(chǎn)量、改善營養(yǎng)品質(zhì)、提高抗病蟲性和逆境適應(yīng)性等方面發(fā)揮了關(guān)鍵作用。然而,現(xiàn)有的計算生物學(xué)手段在解析復(fù)雜生物系統(tǒng)調(diào)控機制及整合多組學(xué)數(shù)據(jù)方面仍存在瓶頸。同時,傳統(tǒng)植物數(shù)據(jù)庫如TAIR(The Arabidopsis Information Resource)盡管包含豐富數(shù)據(jù)資源,但因交互方式局限,常常要求用戶掌握精確的性狀或基因命名才能有效檢索信息。
圖1. PlantGPT的技術(shù)工作流程圖
為突破這些限制,研究團隊構(gòu)建了PlantGPT——一個以擬南芥為模型的功能基因組學(xué)智能專家平臺。該系統(tǒng)基于收錄超過6萬篇植物研究文獻摘要的向量數(shù)據(jù)庫,并通過領(lǐng)域特定的語言數(shù)據(jù)微調(diào),建立了更加智能高效的專業(yè)知識查詢體系。
圖2. 擬南芥向量數(shù)據(jù)庫增強不同大語言模型的專業(yè)問答能力
技術(shù)創(chuàng)新
1. 高標準知識庫搭建
研究團隊在PubMed數(shù)據(jù)庫中搜索包含"擬南芥"關(guān)鍵詞的文獻(1992-2024年),共獲得逾70,000篇文章,隨后采用嚴格的期刊評選準則,最終精選出60,429篇優(yōu)質(zhì)研究論文構(gòu)建知識基礎(chǔ)。評選標準包括JCR分區(qū)Q1-Q3以及植物科學(xué)領(lǐng)域內(nèi)排名前60%的權(quán)威期刊。
2. 最優(yōu)文本處理方案
團隊系統(tǒng)性測試了7種文本分割方案,經(jīng)過綜合評估確定了最適宜的策略——50詞長段落配以30詞重疊設(shè)置(50-30方案)。該方案在科學(xué)精確度、信息全面性、邏輯通順性、語境連貫性以及應(yīng)答流暢度等五項指標上表現(xiàn)最佳,達到80.9分(總分100)的優(yōu)異成績。
3. 高效RAG強化策略
通過評估多種RAG檢索規(guī)模對各類大語言模型的影響,團隊發(fā)現(xiàn)RAG-Tan(檢索相似度閾值前所有向量)配合Claude Opus達到最優(yōu)效果(74.9分)。值得注意的是,不同模型對RAG檢索量有各自的最佳配置:GPT-3.5-turbo-0125在RAG10配置下表現(xiàn)最優(yōu),而GPT-4o則隨檢索量增長不斷提升。
圖3. PlantGPT預(yù)訓(xùn)練數(shù)據(jù)庫結(jié)構(gòu)及訓(xùn)練成效
4. 微調(diào)技術(shù)優(yōu)化
研究團隊整合13,993個擬南芥表型數(shù)據(jù)及23,323個基因功能注釋,構(gòu)建了超過10萬組問答數(shù)據(jù)集,用于優(yōu)化Meta Llama3 8B開源模型。經(jīng)過微調(diào)的模型在專業(yè)問題回答上得分達69.3分,超過了Claude Opus(68.45分)等商業(yè)模型的表現(xiàn)。
5. 跨物種應(yīng)用潛力
在跨物種知識轉(zhuǎn)移測試中,PlantGPT成功將擬南芥研究成果推廣至水稻、小麥和玉米等重要作物,綜合評分分別為75.1、75.2和71.4分(滿分100)。在知識遷移這一核心指標上,三種作物均獲得6.1分(滿分10分),展現(xiàn)了優(yōu)異的通用性。
圖4. PlantGPT的跨物種評估性能
實際應(yīng)用價值
本研究有效克服了大語言模型在植物學(xué)專業(yè)應(yīng)用中的"幻覺"難題,借助RAG技術(shù)和微調(diào)方法的協(xié)同作用,顯著增強了模型的專業(yè)準確性。與現(xiàn)有數(shù)據(jù)庫相比,PlantGPT支持自然語言對話,使研究者能用通俗問答方式獲取信息,無需預(yù)先掌握專業(yè)術(shù)語。
PlantGPT已通過免費在線平臺(http://www.plantgpt.icu)對研究社區(qū)開放,無需注冊即可使用。該工具不僅助力研究人員快速掌握植物基因組研究前沿,更能為基因調(diào)控網(wǎng)絡(luò)分析和作物改良研究提供科學(xué)依據(jù)。展望未來,團隊將致力于拓展平臺應(yīng)用范圍,重點關(guān)注合成生物學(xué)、產(chǎn)量調(diào)控性狀及抗逆機制研究等農(nóng)業(yè)發(fā)展核心領(lǐng)域。
華南農(nóng)業(yè)大學(xué)博士生張瑞祥、清華大學(xué)博士生王昱和博士生楊威楊為該論文共同第一作者,祝欽瀧研究員、劉耀光院士和清華大學(xué)自動化系谷淼博士為共同通訊作者。該研究得到了國家自然科學(xué)基金、生物育種-國家科技重大專項、廣東省未來作物精準育種基礎(chǔ)研究卓越中心重大項目和廣東省種業(yè)振興項目的資助。感謝新疆維吾爾自治區(qū)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)質(zhì)量標準與檢測技術(shù)研究所李彬彬博士、浙江大學(xué)杭州國際科創(chuàng)中心博士后臺莉、西北工業(yè)大學(xué)生態(tài)環(huán)境學(xué)院博士生許曉敬、西北農(nóng)林科技大學(xué)生命科學(xué)學(xué)院碩士生張云飛和華南農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院本科生鄭星磊等對論文完善的熱情幫助。
http://doi.org/10.1002/advs.202503926
PlantGPT:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.