網易首頁 > 網易號 > 正文申請入駐

大模型聽懂育種語言，提出首個種子科學多任務評測基準SeedBench

2025-06-12 14:12:56　來源: ScienceAI

天津舉報

分享至

編輯 | ScienceAI

種子，堪稱農業的「芯片」。當前我國種業與國際頂尖水平仍有差距，部分高端種源仍然依賴進口。種業創新，任重道遠——研發周期漫長、專業數據分散、多種學科復合、專業人才缺乏。

大語言模型（LLMs）的出現，似乎為育種科研帶來了新可能！大語言模型通過學習海量數據，可以打通學科壁壘，未來還能推動育種向數智化轉型，助力種業「彎道超車」。不過，大語言模型在育種領域的應用仍面臨專業數據稀缺和缺乏標準化評估體系等瓶頸，制約了大模型驅動的智能育種的發展。

為此，上海人工智能實驗室聯合崖州灣國家實驗室、上海創智學院推出首個專注于種子科學的多任務評測基準SeedBench，可全面評估大模型在育種科研中的效用。SeedBench涵蓋基因信息獲取與分析、基因功能與調控機制分析、品種選育與農藝特性優化三大育種階段，為人工智能賦能生物育種提供客觀能力參考。

論文標題：SeedBench: A Multi-task Benchmark for Evaluating Large Language Models in Seed Science

論文鏈接：https://arxiv.org/pdf/2505.13220

數據開源：https://github.com/open-sciencelab/SeedBench

研究背景

當前全球種業正經歷從「經驗育種」向「智能育種」的跨越式發展。

據聯合國糧農組織統計，近二十年全球作物增產超50%，技術進步是核心驅動力。同時，基因組測序技術飛速進步，單個作物性狀可能受數百個基因位點調控，傳統人工分析方法已難以應對，將數據驅動的人工智能算法融入育種成為必由之路。特別是大語言模型，能夠處理大量的遺傳、環境和農學數據，從而提高育種效率。

盡管大模型已在醫療、法律、金融等領域取得顯著成效，但在育種領域的應用仍面臨諸多挑戰：

?數據之困：育種相關數據（如基因功能、農藝性狀）在互聯網中的占比較低，限制模型訓練效果。部分田間記錄仍存在紙面，大量隱性經驗難以數字化傳承。

?評估之缺：對比醫療、法律、金融等領域已有成熟評測基準（如FinBench、LawBench），育種領域缺乏覆蓋全流程的評估基準，導致大語言模型優化缺乏方向。

?跨學科復雜性：育種涉及遺傳學、分子生物學、環境科學等多領域知識，大語言模型需理解基因-性狀間復雜關聯并生成田間適用的建議。

總之，智能育種這條路并不平坦。讓大模型能聽懂育種的語言，SeedBench，只是邁出的一小步。

構造方法

SeedBench研究團隊首先提取了308,727篇與育種相關的中英文文獻，統一轉換為Markdown格式。經過數據清洗得到一個包含1.1-billion-token的育種語料庫。

在此基礎上，育種專家從中精選出279個高質量文本塊，涵蓋基因信息獲取與分析、基因功能與調控機制分析、品種選育與農藝特性優化三大育種階段，并提供了包含單項選擇題、多項選擇題、填空題和生成題的示例問題交由LLM進行擴充和變化。驗證環節包括自動化審查與專家評審，剔除了低質量內容，并確保題目有價值且與育種高度相關。

最終，SeedBench提供了覆蓋多任務類型的2,264道高質量題目，實現對LLM在3個育種階段、10個育種能力的細粒度評估。

評測任務設計

SeedBench模擬育種專家工作流，覆蓋以下三個育種階段：

數據集題目展示

以下為SeedBench中的題目示例：

基因基本信息查詢

基因功能實驗觀察

品種選育過程查詢

評測結果與發現

通過對27個主流LLM（包括GPT-4、Gemini、Claude及開源模型）的測試，SeedBench揭示關鍵結論：

1.領域模型表現不佳：領域微調模型（如PLLaMa）表現不佳，得分低于通用模型，可能的原因是：微調后通用能力下降；針對過窄的任務微調、在過窄的數據上后訓練；使用了未經專家驗證的數據等等。

2.參數規模與性能：7B~14B參數模型在性能與計算成本間達到最佳平衡（如Qwen2.5-14B）。

3.推理模式失效：Reasoning模式（如Gemini-2.0-Flash，OpenAI o1-mini）反而降低育種任務中的答案精確性。

總結與展望

SeedBench作為首個針對種子科學的大語言模型評測基準，其專家級數據質量由育種專家設計并驗證，確保問題具有高度專業性和廣泛覆蓋度。SeedBench研究團隊通過與領域專家合作，模擬真實育種場景，并實施嚴格的兩階段驗證流程，確保評測的科學性與可靠性。

這一工作流不僅為種子科學提供了精準的評估工具，還為科學智能的基準設計提供了可借鑒的參考框架。SeedBench的推出對未來科研工作具有重要指導意義：它通過覆蓋基因信息分析、功能調控與品種優化三大育種階段，為大模型在農業中的優化提供了清晰方向，推動AI技術從通用領域向農業垂直場景的落地。

實際應用中，基于SeedBench評測的首個種業大模型「豐登」（SeedLLM）[1]已于近日開放申請使用（https://seedllm.org.cn/），助力生物育種效率提升。

未來，研究團隊計劃進一步拓展SeedBench對育種大模型的評估能力，持續優化數據的多樣性，融合多組學、表型圖片、傳感等更多數據模態，擴展更多作物，貼近真實育種環境，推動大模型在育種場景的實際應用。

聯系團隊

歡迎對「大模型+生物育種」感興趣的有志之士聯系豐登聯合研發團隊。除學術合作外，團隊常年開放研究員、工程師、博士后、聯培博士生、實習生等崗位。

聯系人：楊博士

郵箱：yangfan@yzwlab.cn

工作地點：三亞、北京、深圳、上海

參考文獻

[1]Yang, F., Kong, H., Ying, J., Chen, Z., Luo, T., Jiang, W., Yuan, Z., Wang, Z., Ma, Z., Wang, S., Ma, W., Wang, X., Li, X., Hu, Z., Ma,X., Liu, M., Wang, X., Chen, F. and Dong, N. (2025). SeedLLM· Rice: A large language model integrated with rice biological knowledge graph.Molecular Plant.

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.