來自美國加州的一位少年 Matteo Paz 利用自己開發的 AI 算法,在龐大的宇宙數據中,成功從美國國家航空航天局的海量觀測數據中識別出超過 150 萬個此前未知的天體。憑借此項成就,Paz 獲得了美國頂尖的高中生科學競賽——Regeneron 科學天才獎的最高獎項及 25 萬美元獎金,其研究成果更是以獨立作者的身份,發表在了天文學領域的權威期刊The Astronomical Journal上。而取得這些成就的他,如今才剛 18 歲。
(來源:Society for Science)
一位少年的天文夢
Paz 的天文探索之路始于童年。小學時,母親常帶他參加美國加州理工學院的公眾觀星講座,在他心中埋下了探索星空的種子。2022 年,他加入了加州理工天文學教授 Andrew Howard 主導的“加州理工行星發現者學院”暑期項目,系統學習天文學知識。次年,他參與了加州理工為期六周的“暑期研究連接”(Summer Research Connection)項目,該項目旨在將當地高中生與校園科研導師對接。正是在此期間,他遇到了對其科研生涯產生重要影響的導師——Davy Kirkpatrick。
Kirkpatrick 是加州理工紅外處理與分析中心(IPAC,Infrared Processing and Analysis Center)的資深科學家。Paz 回憶道:“我非常幸運能遇到 Davy。我記得第一天和他談話時,就提出我想完成一篇論文,這對于一個短期項目來說目標宏大。但他沒有打擊我,反而鼓勵我深入探討。他給了我極大的學術自由,這對我作為科學家的成長至關重要。”Kirkpatrick 本人也曾受惠于良師的指引,他表示:“我希望能將這種指導精神傳遞下去,幫助更多有潛力的年輕人實現他們的科學夢想。”
Kirkpatrick 交給 Paz 的任務,聚焦于挖掘美國國家航空航天局(NASA,National Aeronautics and Space Administration)已退役的“近地天體廣域紅外巡天探測器”(NEOWISE,Near-Earth Object Wide-field Infrared Survey Explorer)任務所積累的海量數據。
NEOWISE 望遠鏡(前身為 WISE)自 2009 年起在紅外波段對全天進行掃描,主要搜尋小行星和彗星等近地天體,同時也捕捉到了大量遙遠宇宙天體的紅外輻射變化。這些因亮度變化而被稱為“變源”(variable objects)的天體,包括爆發的超新星(supernovae)、脈動變星(pulsating variable stars)、食雙星(eclipsing binary stars)以及類星體(quasars)等,它們的光變曲線蘊含著天體物理過程、宇宙距離乃至宇宙演化的關鍵信息。NEOWISE 在十余年間積累了近 200 太字節(TB)的數據,包含約 2000 億條單次曝光記錄。
(來源:NASA)
然而,從如此龐大的數據集中篩選變源,對傳統人工方法而言無異于大海撈針。Kirkpatrick 最初僅希望 Paz 嘗試分析一小片天區,作為概念驗證。但 Paz 憑借其在人工智能選修課上培養的興趣以及在帕薩迪納聯合學區數學學院打下的堅實數學基礎(他在八年級已完成 AP 微積分 BC 課程),敏銳地意識到 AI 是解決這一難題的關鍵,于是決定開發一個機器學習模型來自動化分析整個數據集。
在短短六周的暑期項目中,Paz 不僅構思并初步實現了名為 VARnet 的人工智能模型,還與 Kirkpatrick 及加州理工的其他天文學家(如 Shoubaneh Hemmati、Daniel Masters、Ashish Mahabal 和 Matthew Graham)深入交流,學習了相關天體物理知識,并了解到 NEOWISE 觀測節奏對探測某些類型變源的局限性。暑期項目結束后,研究并未止步。2024 年,Paz 與 Kirkpatrick 繼續合作,他不斷優化 VARnet 模型,使其能夠處理 NEOWISE 的全部原始數據。最終,該模型在對超過 4.5 億個天體進行篩選后,從約 190 萬個可能的變源中,確認了 150 萬個此前未被編目的新發現。
VARnet 模型:AI 賦能天文新發現
Paz 在The Astronomical Journal上發表的論文《一種基于亞毫秒傅里葉和小波的模型,用于從 NEOWISE 單次曝光數據庫中提取候選變源》(A Submillisecond Fourier and Wavelet-based Model to Extract Variable Candidates from the NEOWISE Single-exposure Database)詳細闡述了 VARnet 的技術細節。
圖丨相關論文(來源:The Astronomical Journal)
VARnet 是一個專為快速分析天文時間序列數據而設計的信號處理模型,該模型的核心在于融合多種信號處理技術和深度學習方法,以極高效率從嘈雜、不規則的光變曲線(描繪天體亮度隨時間變化的圖)中提取有效信息。首先,他使用 DBSCAN 聚類算法將屬于同 一個天體的零散觀測點聚集起來。然后,對收集到的數據進行細致的預處理:將星等轉換為線性流量,減去中位數以關注相對變化,使用四分位距進行標準化以抵抗異常值,最后用反雙曲正弦函數壓縮數據范圍,同時對時間戳進行歸一化。
圖丨異常提取流程(來源:The Astronomical Journal)
VARnet 模型本身是一個深度神經網絡,其架構整合了多種技術。它利用離散小波變換來進行時頻分析,這有助于去噪并捕捉光變曲線中短暫的高頻細節變化,如凌星事件的快速下降。Paz 還提出了一種“有限嵌入傅里葉變換”(FEFT,Finite-Embedding Fourier Transform)。與標準傅里葉變換不同,FEFT 能將任意長度的輸入時間序列映射到一個固定長度的特征向量中,這對于處理長度差異巨大的 NEOWISE 數據至關重要。
更重要的是,FEFT 能讓網絡在訓練中自適應地學習選擇最重要的頻率信息進行嵌入,有效捕捉光變曲線中持續時間較長的周期性或趨勢性變化。卷積神經網絡則被用來學習和識別光變曲線中的時序模式,例如亮度的上升、下降、峰值等特定形狀。最后,全連接層(FC Layers)負責整合來自不同處理模塊(時域、頻域、不同尺度)的所有特征信息,并做出最終的分類判決,判斷該天體屬于靜止、瞬變、脈動還是凌星等預設類別。
圖丨 VARnet 模型架構(來源:The Astronomical Journal)
訓練這樣復雜的模型需要海量的標注數據,但 NEOWISE 數據中已知且分類準確的變星數量相對不足,特別是瞬變天體。為此,Paz 采用了生成合成數據的策略。他為四種主要天體類別構建了數學模型,不僅模擬了光變曲線的典型形狀(如瞬變的爆發與衰減、脈動的復雜波形、凌星的周期性下降),還精確地復現了 NEOWISE 的不規則采樣節奏和真實的噪聲水平。
通過隨機化模型參數,其能生成幾乎無限量的、高度逼真的合成光變曲線用于訓練 VARnet。這種方法極大地增強了模型的泛化能力,而真實的已知變星數據則被保留用于最終的模型性能驗證。
VARnet 的表現十分出色。在真實的紅外源驗證集上,它對四種天體類別的分類 F1 分數達到了 0.91。在區分“真實變化”與“無變化/噪聲”這個更基礎的任務上,其精確率和召回率均超過 97%,F1 分數高達 0.974,顯示出極高的可靠性。在高性能 GPU 支持下,分析單個天體源的平均耗時低于 53 微秒。
150 萬個新發現的意義
Paz 發現的這 150 萬個“候選”變源,對于研究宇宙演化和基本物理規律而言具有重要意義。在其發表的論文中,Paz 列舉了 VARnet 發現的一些具體案例,以展示其強大的探測能力。
例如,VARnet 發現了一個此前未被編目的食雙星候選體,位于 J2000 坐標赤經 18h53m48.3s,赤緯 -59°08′75.1″,通過后續分析,其周期被確定為約 5.877 天。
(來源:The Astronomical Journal)
另一個重要發現是分離雙星系統 2MASS J01542169-5944445。這個位于 J2000 赤經/赤緯 28.59051°,-59.74571°的系統此前在 GALAH 巡天第三次數據發布中被記錄為化學特異星,但從未被識別為變源天體。VARnet 發現了其顯著的凌星信號,周期約為 5.8061 天,可能存在一個影響其化學成分的伴星。
在研究銀河系外目標時,VARnet 的能力同樣出色。例如它探測到了星系 LEDA 174461 的微弱但顯著的亮度變化,以及星系 LEDA 358365 內部發生的一次與超新星 AT 2023lkp 相符的瞬變事件。同時,它還標記了星系 LEDA 340305 的活動星系核表現出的顯著亮度增加。這些具體的發現,不僅驗證了 VARnet 的探測精度和廣度,也為后續的詳細研究提供了直接的目標。
(來源:The Astronomical Journal)
這些新發現的“標準燭光”(如造父變星)可能為解決當前的“哈勃常數危機”提供關鍵線索。而大量超新星、黑洞和雙星系統候選者,則為研究恒星演化、元素起源、星系形成以及極端物理條件下的物質行為提供了前所未有的樣本庫。
為了讓這些發現能夠被更廣泛的天文學界所利用,Paz 和他的導師正在將這些結果整理、匯編成一個名為 VarWISE 的公開星表目錄。加州理工學院的一個紅外研究小組已經開始利用該目錄來研究遙遠宇宙中的雙星系統。他們已經發現了數十個以前未被探測到的雙星系統。Kirkpatrick 補充說,這項研究還有助于計算遙遠系外行星的質量。
(來源:Kitty Cahalan)
值得一提的是,VARnet 還能有望在天文學之外發揮作用。“我實現的模型可以用于天文學中的其他時域研究,以及任何以時間序列格式出現的數據。”Paz 解釋道,“我能看到它與(股票市場)圖表分析的相關性,那里的信息同樣以時間序列形式出現,周期性成分可能至關重要。你也可以用它來研究大氣效應,比如污染,其中周期性的季節和晝夜循環扮演著重要角色。”
但眼下,Paz 更希望利用他的 NEOWISE 發現,深入研究那個困擾天文學界已久的宇宙膨脹率問題。“這要么將有助于解決當前研究中一個極具爭議的話題,要么將揭示一些關于宇宙起源的真正基礎性的東西。”
參考資料:
1.https://iopscience.iop.org/article/10.3847/1538-3881/ad7fe6#ajad7fe6s4
2.https://www.caltech.edu/about/news/exploring-space-with-AI
3.https://scitechdaily.com/teen-wins-250k-for-using-ai-to-discover-1-5-million-hidden-objects-in-space/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.