編輯 | 蘿卜皮
在 AI 飛速發展的今天,從事傳統生物學研究的老師和同學們,在使用最新的 AI 生物學工具時,是否常苦于要學習各種編程語言?
今天學「R 語言」,明天學「python」,后天學「大模型部署」……單單去學習新技術、新工具的使用,便耗費了同學們大量的時間與精力。
有沒有一種方法僅通過對話的形式,就組合調用各類生物學大模型來執行任務呢?以前沒有,現在有了!
英國倫敦InstaDeep 公司的研究人員提出了 Chat Nucleotide Transformer(ChatNT),一個對生物序列具有高級理解能力的多模態對話智能體。
僅通過一次性英文對話,ChatNT 就能夠處理 DNA、RNA 和蛋白質序列,并解決多項生物學相關的下游任務。
該研究以「A multimodal conversational agent for DNA, RNA and protein tasks」為題,于 2025 年 6 月 6 日發布在《Nature Machine Intelligence》。
語言模型蓬勃發展,賦能對話智能體,幫助人類解決各種任務。這些模型支持視覺、音頻和視頻等多模態,在醫療保健等多個領域大放異彩。然而,對話智能體在生物學領域的應用仍然受到限制,因為它們尚無法完全理解生物序列。
與此同時,高性能的生物序列基礎模型已經通過對測序數據的自監督構建,但這些模型需要針對每個具體應用進行微調,從而阻礙了任務之間的泛化。此外,這些模型不具備對話功能,只有具備編程能力的用戶才能使用它們。
因此,InstaDeep 的研究團隊提出 ChatNT 來彌合生物學基礎模型與對話智能體之間的差距。
具體來說,用戶可以向 ChatNT 輸入一個或多個 DNA 序列,并附上一段英語提示詞,ChatNT 便可以解決相關的任務。
圖示:ChatNT 概述。(來源:論文)
該方案使研究人員能夠用相同的詞匯來表達所有任務,并學習通過最小化統一目標來解決這些任務,類似于 GPT 類模型,從而實現無縫集成新任務并實現泛化。
為了實現這一目的,研究人員創建了基因組學指令任務數據集,其中包含精心挑選的英文問題和指令集,用于不同物種和基因組學過程的各種分類和回歸任務。
研究人員表示,用英語制定任務也是向模型提供額外元數據信息的一種簡單方法,例如物種、染色體或細胞類型,這些信息在大多數當前的 DNA 基礎模型中是缺失的。
圖示:基因組學、轉錄組學和蛋白質組學任務子集的預測性能和對話的示例。(來源:論文)
他們還納入了與轉錄組學和蛋白質組學過程相關的任務,并展示了該方法在各個領域的多功能性和通用性。
圖示:Nucleotide Transformer 基準測試中的表現。(來源:論文)
ChatNT 在 Nucleotide Transformer 基準測試中取得了SOTA的成績,并在 27 項英文基因組學任務中展現出與專用模型相當的性能。
重要的是,與傳統方法需要為每個任務專門設計一個模型不同,ChatNT 不僅提供了一個簡潔自然的聊天機器人界面供用戶使用,還能在一個統一的模型中解決所有任務。
圖示:基于困惑度的方法來校準 ChatNT 答案的置信度,同時保持性能。(來源:論文)
該團隊還引入了一種技術來探測二分類任務中語言模型的置信度,并在需要時用它來校準模型。模型解釋分析表明, ChatNT 在回答不同基因組學任務時學會了關聯生物學相關的序列特征。
圖示:ChatNT 學會了提取 DNA 序列特征。(來源:論文)
總而言之,ChatNT 證明了自然語言 LLM 可以擴展到處理生物序列模態,不僅展現出對話能力,還能準確回答多個生物學相關問題。
論文鏈接:https://www.nature.com/articles/s42256-025-01047-1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.