網易首頁 > 網易號 > 正文申請入駐

斯坦福團隊開發AI數據提取框架，為能源領域數據獲取難題提供方案

2025-05-24 22:20:14　來源: DeepTech深科技

北京舉報

分享至

溫室氣體排放的準確評估與減排是能源領域的重大挑戰，但石油和天然氣行業的關鍵數據通常分散在昂貴的商業數據庫中，其存在數據碎片化、雜亂且難以獲取的問題。此外，該領域的官方數據更新相對滯后，傳統人工提取方法效率低下且容易出錯。

針對上述問題，美國斯坦福大學博士生陳震林及其所在課題組基于大語言模型開發了一種創新的框架。

該技術利用大模型（GPT-4 和 GPT-4o）卓越的文本理解能力（遠超傳統文字識別技術），能夠從石油天然氣領域的公開文獻（包括學術期刊論文和新聞報道等多元數據格式）中高效提取關鍵數據。

這一框架展現出兩大核心優勢：

一是經濟性顯著提升，通過優化 GPT-4o 的應用，使單數據點提取成本降低達 10 倍（0.04 美元）；

二是效率高，在測試數據集上實現了 83.74% 的準確率與 78.16% 的 F1 分數，證明了其在在內的多源信息中的適應性與可靠性。

據介紹，這是斯坦福團隊首例在石油天然氣領域的應用。該工具不僅解決了傳統數據獲取的難題，更能為溫室氣體排放的精準評估和全生命周期分析提供可靠支撐，最終服務于科學政策制定和環境管理決策的優化。

圖丨陳震林（來源：陳震林）

日前，相關論文以《通過大語言模型數據提取推進油氣排放評估》（Advancing oil and gas emissions assessment through large language model data extraction）為題發表在Energy and AI[1]。斯坦福大學博士生陳震林擔任第一作者兼通訊作者。

圖丨相關論文（來源：Energy and AI）

該框架的創新之處在于利用 GPT-4 和 GPT-4o 等大模型，通過迭代優化提示詞（prompt engineering）實現油氣行業關鍵數據的高效提取。

為驗證方法的有效性，該課題組首先構建了一個包含 108 份文檔的專業數據集，涵蓋氣油比、水油比等 51 個核心參數，并采用領域專家人工標注的方式建立基準數據以提升模型準確率。

（來源：Energy and AI）

陳震林對 DeepTech 進一步解釋道：“我們整合了領域專業知識與數值計算方法，包括物理方程和熱力學方程的運用。然后，將專家計算結果與大模型輸出進行多輪比對和迭代優化。”

隨后，研究人員進一步進行微調，分析每篇文章在數據庫中提取出錯以及與人工標注結果不符的原因。

細致的誤差分析結果顯示，數據偏差可能來自兩個方面：一方面，人工標注本身存在誤差，在某些情況下大模型的判斷反而更準確；另一方面，模型在單位換算或數值處理時會出現混淆。

針對這些問題，研究人員對其進行更多的訓練和校正，使訓練后的準確率從初始的 63.6% 顯著提升到了 83.74%（如下表）。

表丨提示迭代訓練結果（來源：Energy and AI）

從文檔處理效率方面來看，使用新方法從 32 篇文檔中提取大量數據僅需 61.41 分鐘，處理一個文檔平均僅需 7.09 秒，較手動方法實現了顯著提升。

值得注意的是，研究還揭示了文本類型對提取效率的影響——由于字段結構更簡單、內容更直白，新聞類文章的提取速度明顯優于技術文獻。

陳震林指出，研究過程中的關鍵挑戰在于開發最優的零樣本學習方法，這需要通過對提示策略的持續迭代來尋找最佳解決方案。

（來源：Energy and AI）

該課題組不僅建立了一套系統的提示優化方法論，更探索出充分發揮大模型潛力的技術路徑，為能源領域數據提取提供了可復用的研究范式。

需要了解的是，該框架的應用范圍不僅限于能源行業的上游領域，其強大的適應性使其同樣適用于中游和下游環節的數據提取任務。例如，在發電領域，該技術可高效處理能源監管機構發布的年度發電站報告，以及各國政府定期發布的能源統計報告。

這些報告數據來源多樣，既包含傳統油氣領域信息，也涵蓋下游發電產業（如數據中心運營數據）和各類結構化表格數據。

對此，陳震林特別強調：“我們致力于開發具備遷移學習能力的框架體系，使其能夠通過'舉一反三'的機制，在不同應用場景中創造新的價值。”

（來源：Energy and AI）

在未來的研究階段，研究人員計劃繼續優化準確率和架構。陳震林表示：“我們當初在做這項研究時只能依賴 GPT，但現在隨著大模型的不斷迭代和發展，可以讓包括 DeepSeek 在內的多個模型混合共同閱讀文獻并交叉驗證，從而進一步提升模型的可靠性。”

目前，該團隊的龍文男博士已完成一項關于全球液化天然氣碳排放測算的深入研究，系統追蹤了從上游開采到下游應用的完整供應鏈碳足跡，相關論文已進入投稿階段。

此外，研究人員還計劃基于錯誤分析機制，更深入地揭示大模型本身在某些方面理解錯誤率較高的原因。“我們將通過大規模錯誤樣本分析，精確識別模型的理解盲區和易錯點，這些發現將直接指導后續的模型優化。”陳震林說。

在應用層面，該課題組在本次研究中已完成了上游環節的定性分析，接下來將重點拓展至中游和下游的全面評估。“我們期待這項研究能成為 AI 與能源領域深度結合的重要工作，為全球氣候政策的科學制定提供關鍵數據支撐。”陳震林說。

參考資料：

1.Zhenlin Chen et al. Advancing oil and gas emissions assessment through large language model data extraction.Energy and AI(2025). https://doi.org/10.1016/j.egyai.2025.100481

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.