|作者:李科? 苑長征
(中國科學院高能物理研究所)
本文選自《物理》2025年第4期
摘要自1974年發現J/ψ粒子至今半個世紀以來,伴隨著加速器技術和探測器技術的發展,高能物理實驗收集的數據在數量和復雜度上都有多個量級的提升。如今北京譜儀Ⅲ實驗收集的J/ψ粒子超過10 10個,比當年丁肇中發現J粒子的實驗統計量提高了8個數量級,實驗數據的分析方法在先進計算技術和算法的加持下也經歷了重大變革。從傳統的統計方法到決策樹和深度學習,研究人員不斷探索更高效的方式從海量數據中快速、精確地提取物理信息。在北京譜儀Ⅲ實驗中,多個多變量分析和機器學習模型被用于探測器模擬、徑跡重建、粒子鑒別和事例挑選等,顯著提高了實驗靈敏度和效率。近幾年大語言模型展現出的強大的文本和代碼生成能力,為自動化、智能化數據分析提供了可能。基于這一理念,研究人員開發了“賽博士”(Dr. SAI)智能體系統,用于提升高能物理實驗數據的分析效率和獲取物理結果的速度,這種變革將對高能物理的研究帶來深刻的影響,并有可能引起科研范式的改變。
關鍵詞統計分析,多變量分析,機器學習,人工智能
01
引 言
1933年6月10日愛因斯坦在英國牛津大學所作的斯賓塞(Herbert Spencer)講座中[1]說:“純粹的邏輯思維不能給我們任何關于經驗世界的知識;一切關于實在的知識,都是從經驗開始,又終結于經驗。用純粹邏輯方法所得到的命題,對于實在來說是完全空洞的。”自伽利略開始的科學家即通過大量實驗數據的積累與分析,從中提煉科學規律,以驗證和拓展人類對自然的認知。作為所有科學基礎的物理學,一直走在科學發現的前沿。在過去的一個世紀里,物理學的發展與計算技術的進步相輔相成,也推動了數據分析方法的革命性進步。
在所有物理實驗中,高能物理實驗是最為復雜的。其核心目標是研究構成萬物的基本單元——粒子——本身的性質和它們之間的相互作用。然而,這些微觀粒子無法被人類肉眼直接觀測到,科學家必須借助一系列精密的實驗裝置來觀察和測量它們。這些裝置被稱為探測器,它們的功能類似于一個顯微鏡和照相機的組合,能夠“放大”粒子與探測器物質之間的相互作用,并精確記錄相應信息。這些實驗數據正是理解微觀世界的關鍵。科學家通過數據分析,從中提取出粒子的產生和衰變性質,并進一步總結出支配這些行為的深層次物理規律。目前世界上最成功的基礎理論——粒子物理的標準模型——正是通過這種方式建立起來的。
02
傳統的數據分析方法
粒子物理探測器通常比較龐大且由多種不同的子探測器構成,以測量不同類型粒子的信息。北京譜儀Ⅲ(BESⅢ)探測器[2]作為一個典型的運行在正負電子對撞機上的磁譜儀,長11 m、寬6 m、高9 m,總重700多噸,由主漂移室、飛行時間計數器、電磁量能器、繆子探測器等子探測器,以及超導螺線管磁鐵、讀出電子學系統、觸發判選系統、數據獲取系統、控制監視系統、離線數據處理等部分組成。
粒子物理探測器讀出的信號通常都是電信號,如電脈沖的幅度、譜形、時間等。BESⅢ探測器共有三萬多道讀出電子學,每秒鐘記錄最高達5000個事例,實時數據量每秒50 MB。數據處理的第一步是將這些電信號收集并校準成更具有物理意義的信號,如電離能損、沉積能量等。每一個物理事例本質上都是由這些信號以及相應子探測器的幾何信息共同組成的。接下來需要進行的就是重建過程,即將收集到的信號轉化為實際的物理量,如帶電粒子的運動軌跡、動量、能量、粒子種類等。
得到這些數據后,怎樣提取出有用的物理信息是讓科學家頭疼的難題。由于粒子物理實驗裝置復雜,背后的物理過程繁多,收集的數據量巨大,從而很難從海量數據中找到人們感興趣的事例。丁肇中先生曾將粒子物理實驗數據分析難度比喻為在一個大如波士頓市的地方從無數的雨滴中找到一個特定的雨滴[3],難度無異于大海撈針。在1974年發現J/ψ粒子時期,科學家已經開始使用計算機輔助分析海量的數據,但使用的方法相對比較簡單,即依據以前的經驗來定義信號事例的各種選擇條件,從而挑選出最獨特的那個雨滴。這種方法雖在不斷進步,但核心思想一直延續至今,仍是所有高能物理實驗普遍采用的模式,BESⅢ實驗自2009年運行開始也大致采用這種數據分析方式[2]。這種方式的典型效率是一個研究生經過一年的專業課程學習進入實驗室工作,經過大約半年的時間學習和掌握相關計算機操作和軟件分析環境以及基礎數據分析訓練,然后在兩到三年內完成一個物理過程的分析,撰寫論文并發表結果。這樣一篇論文的內容和結果也就是通常一個博士學位論文的主要內容。
03
發展的數據分析方法
在早期的高能物理實驗中,由于計算機技術尚未廣泛應用,數據分析更多依賴于研究人員的經驗來完成,包括事例挑選、本底分析、物理參數測量、探測效率估計等。隨著計算機技術的發展,蒙特卡羅方法被引入數據分析中,用于模擬特定物理過程以更好地優化事例選擇、估計本底和效率等。盡管這一方法在很多情況下有效,但由于該方法強烈依賴于人們對粒子與探測器物質相互作用和探測器幾何結構的理解和描述,往往不能提供足夠精確的預測,特別是會影響對本底的估算和效率的確定等。這就需要基于真實數據對蒙特卡羅方法進行修正,為此發展了數據驅動的本底估計方法以更好估計本底事例的貢獻[4]以及基于數據的效率測量。為了更有效地利用多個子探測器的信息,發展了基于多變量分析或深度學習的事例選擇方法,以提高分析的靈敏度,從而可以更高效地利用數據得到物理結果。
3.1 數據驅動的本底估計方法
這是目前物理研究中廣泛采用的一種方法[4]。具體的做法是尋找一個與目標觀測量無關的觀測量,利用它來定義多個控制樣本。由于這些控制樣本與目標觀測量無關,因此它們之間的關系應與在目標觀測量上定義的樣本相同。基于這一假設,人們可以從數據中估計出信號區間的本底事例貢獻,一個經典的例子是ABCD方法,它通常用于通過控制區間來估計信號區的本底事例。
該方法的基本思路是選擇兩個不相關的變量X和Y用于定義4個區間,如圖1所示,其中變量X分布在A和B區間,變量Y分布在C和D區間。區間D代表信號區,其余三個為控制區間。通過適當的選擇條件,可以合理假設幾乎所有的信號事例都存在于區間D,而非區間A、B和C。由于X和Y兩個變量的分布不相關,可以預期在真實的本底事例中,A區間與B區間的比值和C區間與D區間的比值一致,從而可以通過ABC三個控制區間估計D區間的本底事例貢獻。如果X和Y之間存在相關性,則在用ABC估計D區間時需要修正這些相關性引起的偏差,這些修正通常通過蒙特卡羅模擬獲得。
圖1 數據驅動本底估計的ABCD方法
與傳統的蒙特卡羅方法相比,數據驅動的方法使用了更少的先驗知識和模擬信息,因此對本底的估計更為可靠。除了ABCD方法外,還有許多其他方法,但其基本思路都是通過構建幾乎只包含本底事例的多個控制樣本,并利用這些控制樣本之間的關聯來估計信號區的本底事例。
3.2 多變量分析方法
隨著物理研究的深入,人們關注的物理信號在總事例樣本中的比例越來越小,而且與本底事例的區分越來越不明顯,通常很難僅通過單一觀測量就從大量本底事例中挑選出合適的信號事例。對于每一個事例,人們通常會選擇多個變量。首先,選取一個變量并設定一個閾值,根據這個閾值可以判斷該事例是信號還是本底;隨后,再選擇另一個變量重復這一過程。閾值的設定以及變量的順序是通過對帶有標記的樣本進行訓練確定的,目的是盡可能將信號和本底分開。由于這些變量之間往往存在關聯,上面的在多個觀測量上依次作選擇挑選信號的方法會造成效率的快速下降。為解決這個問題,可以采用綜合多個變量的方法,即多變量分析方法[5]進行事例選擇。在高能物理實驗中,決策樹(boosted decision tree,BDT)就是一種常用的多變量分析方法。
BESⅢ實驗目前已經積累了世界上最大、最干凈的粲介子樣本,用以精確測量粲介子的性質。粲介子在正負電子湮滅過程中成對產生,主要通過弱相互作用衰變。在很多感興趣的粲介子衰變中會產生中微子,而中微子幾乎不與探測器發生相互作用,因此無法被探測器直接收集。這使得挑選此類事例變得十分困難,尤其是在粲介子衰變末態中包含多個中微子的情況下,誤組合的本底事例往往遠多于信號事例。
在Ds-→τ-ν事例中,既包含直接衰變產生的中微子,又包含τ-衰變產生的中微子,BESⅢ實驗最近采用了BDT方法對其進行了選擇和迄今為止最精確的測量[6]。分析綜合應用了標記側、信號側和完整事例的9個變量進行信號和本底區分。如圖2所示,與傳統方法相比,BDT方法能夠更高效地挑選出信號事例,從而顯著提高了測量的精度。
圖2 BESⅢ實驗測量 Ds-→τ-ν 過程的分支比 (a)丟失質量的平方和π粒子動量沿x軸的分布;(b)用BDT綜合各個變量得出的結果,在此分布上信號和本底可以更好區分
3.3 深度學習
決策樹等多變量分析方法通過結合多個變量,能夠提供更好的信號與本底事例的區分能力。然而,隨著統計量的增加以及各種非線性效應的影響,BDT逐漸表現出局限性。為了應對這些挑戰,研究人員轉向了更為高效的深度學習方法如卷積神經網絡(CNN)和圖神經網絡(GNN),它們在分類和鑒別等問題上相比傳統的BDT表現得更加優越。
在BESⅢ實驗中,中子鑒別一直是一個巨大挑戰。由于中子不帶電荷,無法在內層探測器中留下痕跡,且在電磁量能器中只能沉積少量能量,因此與其他中性粒子(如KL0或由Λ粒子衰變產生的中子和π0)很難區分。最近,研究人員利用圖神經網絡的方法,基于從數據中獲得的樣本(如J/ψ→反應)訓練中子鑒別器。具體來說,研究人員將電磁量能器中各個晶體的觀測量(如位置、沉積能量等)及它們之間的關聯構建為一個二維圖。這類圖包含了不同粒子與電磁量能器相互作用的信息,用于判斷粒子的種類。
為了更好地處理真實數據與蒙特卡羅模擬之間的差異,研究團隊選擇了另一個樣本,對蒙特卡羅模擬進行校準,使其與實際數據更加匹配。通過這一方法,圖神經網絡在中子鑒別上的性能得到了顯著提升,得益于此,人們首次發現了Λc+到中子的β衰變[7]。圖3展示了BESⅢ探測器中觀測到的中子、反中子、Λ超子及反Λ超子在量能器中的擊中信息。
圖3 BESⅢ實驗電磁量能器中的中子、反中子、Λ超子及反Λ超子擊中信息,顏色深淺代表沉積能量的大小
04
基于人工智能的未來數據分析模式
近年來,Transformer模型的誕生為機器學習領域帶來了革命性的進展,尤其是在基于該模型構建的預訓練通用大語言模型(如ChatGPT、DeepSeek等)方面。這些模型通過訓練海量的文本數據,具備了根據給定的文本預測后續的文本內容,在文本和代碼生成方面表現出可與人類媲美的能力。
高能物理實驗的數據處理極其復雜,不僅涉及龐大的數據量,且處理過程繁瑣復雜,許多物理分析步驟存在重復性。大部分任務都涉及文本或代碼生成,或可以轉換為此類任務。因此,可以引入大語言模型來自動化完成高能物理實驗的數據分析。基于此理念,BESⅢ實驗開發了“賽博士”(Dr.SAI)AI智能體[8]系統(整體結構如圖4所示),用于BESⅢ實驗的數據處理。
圖4 “賽博士”AI智能體的整體結構圖
“賽博士”的核心是通用大語言模型。研究團隊在開源的大模型(如LLaMa3)基礎上,結合高能物理領域的數據進行了二次預訓練和微調,開發了一個專注于該領域的大模型——溪悟[9],并基于溪悟,進一步開發了一系列工具,以提升AI結果的準確性。為了緩解AI生成內容時出現幻覺的問題,BESⅢ實驗的內部數據,包括原始文檔、專家交流記錄以及用于數據處理的源代碼等,都被存儲在一個矢量庫中,并應用增強檢索技術進行管理。此外,還針對不同類型的任務開發了多個智能體,并引入了高能物理實驗中的多級驗證系統,對每一步的結果都實時地進行檢驗,以確保AI生成的結果在可預見的范圍內是正確的。
這些智能體的基礎是大語言模型,如溪悟或者國際上最流行的GPT、DeepSeek等,它們是“賽博士”的大腦;跟BESⅢ實驗和高能物理相關的知識就存儲在記憶器,也就是前文所提的矢量庫中;在此基礎上開發的多個智能體,用于分解大的任務到若干個子任務,用于代碼生成,用于在特定計算環境內執行程序,以及用于內部的對話和智能搜索等,多個智能體協同工作以解決實際數據分析中的復雜問題。
目前,已正式發布了“賽博士”的第一個版本[8],其可在接收到人類清晰指令的前提下針對簡單任務自動分解為更小的子任務、自動產生代碼、自動運行并檢查結果。研究人員正在利用最先進的AI技術對其不斷升級,相信在不久的將來,隨著其性能的不斷提升,研究人員將能夠借助“賽博士”顯著提高在BESⅢ物理分析中的科研效率。
以“賽博士”為基礎進一步發展“賽教授”AI智能體系統將更廣泛地應用于高能物理的數據分析以及物理測量結果的理論解析中。在這個系統中,AI作為替代模型將實現多維數據的映射,并應用于徑跡重建、粒子鑒別、事例分類、異常檢測、快速模擬等任務,顯著增強科研人員的研究能力。BESⅢ實驗將進一步開發事例解析算法,通過機器學習自動識別事例衰變鏈。該算法不再關注單一粒子或單一衰變模式的挑選,而是嘗試解釋整個事件的所有可能衰變鏈。這種算法的應用將不僅提高數據分析的效率和對各種物理過程的研究能力,還將極大促進BESⅢ實驗尋找新物理現象和精確測量物理參數等方面的科研產出。粒子物理研究將從“積累單個過程測量結果推測物理規律”躍升到“從大量過程的測量結果總結物理規律”的階段,并可以快速實現對于理論預言過程的測量和檢驗,極大加速實驗—分析—理論的反饋循環,高效促進基礎物理的探索和發展。
05
小 結
幾十年來,高能物理實驗發生了巨大的飛躍。加速器和探測器技術的顯著提升使得實驗數據迅猛增長。僅僅50年的時間就實現了從最初BNL-E598實驗發現的242個發展到如今BESⅢ實驗收集的超過百億個J/ψ粒子的躍升,數據量的增長跨越了8個量級,其他高能物理實驗的數據也有類似的增長。
為了應對這種巨大的數據增長,許多新的數據分析方法應運而生,并在解決實驗數據處理的問題上發揮了至關重要的作用。BESⅢ作為精確測量前沿的高能物理實驗,在數據分析方法的改進上做出了多項嘗試并取得了重要進展。“賽博士”AI智能體的發布宣告基于人工智能的高能物理數據分析時代拉開序幕。展望未來,隨著數據的不斷深入挖掘和物理規律的總結,人們有望突破當前的科學瓶頸。或許有一天,在人工智能的幫助下,人們可以更高效、更智能地從海量數據中發現新的物理規律,為人類知識的拓展作出新的貢獻。
致 謝感謝BESⅢ合作組以及“賽博士”AI智能體研究團隊在本文內容研究中做出的重要貢獻。
參考文獻
[1] 許良英 等. 愛因斯坦文集(第一卷). 北京:商務印書館,1976.p.312
[2] Ablikim M
et al(BES Ⅲ Collaboration). Nucl. Instrum. Meth. A , 2010 , 614 : 345
[3] 陳潔琦,淳麟 . 尋找帶顏色的雨滴—丁肇中的科學風采 .上海:上海科技教育出版社,2002
[4] Hatfield P W,Gaffney J A,Anderson G J
et al. Nature , 2021 , 593 : 351
[5] Hoecker A,Speckmayer P,Stelzer J
et al. 2007 , arXiv : physics/0703039
[6] Ablikim M
et al(BES Ⅲ Collaboration). Phys. Rev. D , 2023 , 108 : 092014
[7] Ablikim M
et al(BES Ⅲ Collaboration). Nature Communications , 2025 , 16 : 681
[8] Li K. AI agent for BESⅢ——Dr. SAI. 2024 量子計算和機器學習研討會. 長春. 2024年8月2—8日
[9] Zhang Z,Zhang Y,Yao H
et al. 2024 , arXiv : 2404.08001
(參考文獻可上下滑動查看)
紀念粲夸克發現50周年及北京譜儀Ⅲ實驗專題
《物理》50年精選文章
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.