該工作由字節(jié)跳動(dòng) ByteBrain 團(tuán)隊(duì) × 清華大學(xué)合作完成。第一作者為清華大學(xué)三年級(jí)博士生謝哲,主要研究方向?yàn)闀r(shí)序多模態(tài) LLM、異常檢測(cè)和根因定位。第二作者和第三作者分別為李則言和何曉,均來(lái)自字節(jié)跳動(dòng)。通訊作者分別為字節(jié)跳動(dòng)研究科學(xué)家張鐵贏和清華大學(xué)計(jì)算機(jī)系副教授裴丹。
近年來(lái),多模態(tài)大語(yǔ)言模型(MLLM)發(fā)展迅速,并在圖像、視頻、音頻等領(lǐng)域取得了突破性成果。然而,相較于這些研究較為成熟的模態(tài),時(shí)間序列這一類型的數(shù)據(jù)與大模型結(jié)合的系統(tǒng)研究卻較為匱乏。
盡管已經(jīng)有 TimeLLM 等工作嘗試將 LLM 應(yīng)用于時(shí)序任務(wù),但這些研究大多局限于預(yù)測(cè)類任務(wù),無(wú)法滿足更復(fù)雜的理解與推理需求。隨著 LLM 在 AIOps、金融等需要處理時(shí)序數(shù)據(jù)的應(yīng)用場(chǎng)景中應(yīng)用愈發(fā)廣泛,時(shí)序問(wèn)答、推理的能力已成為多模態(tài)智能系統(tǒng)的一項(xiàng)基礎(chǔ)能力需求。
為此,我們提出了 ChatTS,一種原生支持多變量時(shí)序問(wèn)答與推理的多模態(tài) LLM。ChatTS 引來(lái)了HuggingFace 產(chǎn)品負(fù)責(zé)人 Victor Mustar,以及 SparkNLP 項(xiàng)目負(fù)責(zé)人 Maziyar Panahi等人的轉(zhuǎn)發(fā)和點(diǎn)贊:
ChatTS 論文已經(jīng)成功入選數(shù)據(jù)庫(kù)頂級(jí)會(huì)議 VLDB 2025。
- 論文標(biāo)題:ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning
- 論文 arXiv 鏈接:https://arxiv.org/pdf/2412.03104
- ChatTS 代碼和數(shù)據(jù)集:https://github.com/NetmanAIOps/ChatTS
- 模型參數(shù):https://huggingface.co/bytedance-research/ChatTS-14B
什么是時(shí)序問(wèn)答任務(wù)
傳統(tǒng)的時(shí)間序列分析方法多基于統(tǒng)計(jì)模型或 AI 模型,而這些方法通常需要大量任務(wù)特定的訓(xùn)練、特定的數(shù)據(jù)預(yù)處理和結(jié)構(gòu)化的輸入輸出,缺乏通用性和可解釋性。而 LLM 的強(qiáng)語(yǔ)言建模能力和泛化推理能力,為「用自然語(yǔ)言理解時(shí)間序列」提供了可能。
然而,目前主流的 LLM 并不能直接處理原始的時(shí)間序列數(shù)組數(shù)據(jù),現(xiàn)有工作要么將時(shí)間序列轉(zhuǎn)成文本、圖像輸入,要么依賴 agent 工具進(jìn)行間接分析,但都存在不同程度的限制。
因此,我們思考,是否可以構(gòu)建一種「時(shí)間序列原生」的多模態(tài) LLM,使其像處理圖像一樣,能夠原生地理解時(shí)間序列的形狀、波動(dòng)與語(yǔ)義含義,并進(jìn)行進(jìn)一步的問(wèn)答和推理
構(gòu)建時(shí)間序列多模態(tài)大模型面臨諸多挑戰(zhàn)
- 數(shù)據(jù)稀缺。與圖文、語(yǔ)音等領(lǐng)域不同,時(shí)間序列+文本的對(duì)齊數(shù)據(jù)非常有限。
- 時(shí)間序列具有高度結(jié)構(gòu)性。時(shí)序包含豐富的趨勢(shì)、周期、局部波動(dòng)、噪聲等形態(tài)特征。
- 時(shí)間序列輸入往往是多變量、不同長(zhǎng)度的。變量之間的關(guān)系極具分析價(jià)值,但也加大了理解難度。
- 現(xiàn)有的評(píng)估基準(zhǔn)未覆蓋時(shí)間序列多模態(tài)建模任務(wù),這也為訓(xùn)練和評(píng)估增加了難度。
現(xiàn)有方法
我們將現(xiàn)有嘗試將 LLM 應(yīng)用于時(shí)間序列的方式歸為三類:文本化方法、圖像化方法與 agent 方法。
- 文本化(Text-Based)方法最為直接,即將時(shí)間序列值編碼成長(zhǎng)文本輸入 LLM。其可能存在顯著的上下文長(zhǎng)度限制,且無(wú)法處理多變量場(chǎng)景。
- 圖像化(Vision-Based)方法借助可視化圖像輸入視覺(jué)大模型,但面臨圖像細(xì)節(jié)丟失的問(wèn)題。
- Agent 方法(Agent-Based)利用 LLM 調(diào)用工具獲取特征,但該方式嚴(yán)重依賴工具準(zhǔn)確性、推理鏈條極長(zhǎng)且容易出現(xiàn)幻覺(jué)。
ChatTS: 基于合成數(shù)據(jù)訓(xùn)練的時(shí)序多模態(tài) LLM
面對(duì)時(shí)間序列與語(yǔ)言對(duì)齊數(shù)據(jù)的極度匱乏問(wèn)題,我們從根本上摒棄了依賴真實(shí)數(shù)據(jù)標(biāo)注的路徑,而是選擇「純合成驅(qū)動(dòng)」的方式,設(shè)計(jì)出一個(gè)端到端的數(shù)據(jù)生成、模型訓(xùn)練框架。
一、屬性驅(qū)動(dòng)(Attribute-Based)的時(shí)間序列生成
我們定義了一套詳細(xì)的時(shí)間序列屬性體系,這些屬性具有明確的語(yǔ)義與參數(shù),構(gòu)成了「屬性池」。每個(gè)時(shí)間序列由若干屬性組合生成,并對(duì)應(yīng)一段高質(zhì)量自然語(yǔ)言描述。這種組合方式不僅確保了生成時(shí)間序列的多樣性與真實(shí)性,還能精確對(duì)應(yīng)語(yǔ)言文本的細(xì)節(jié)表達(dá),避免了傳統(tǒng)「圖文描述不符」的問(wèn)題。
二、Time Series Evol-Instruct
僅有靜態(tài)屬性描述還不夠,我們還需訓(xùn)練模型掌握復(fù)雜的提問(wèn)、比較與推理能力。我們提出 TSEvol,該方法以一組基礎(chǔ) Q&A 為種子,依托已有 attribute pools,不斷演化出多種新問(wèn)題形式,優(yōu)化復(fù)雜推理場(chǎng)景下的模型能力。
三、原生多模態(tài)模型設(shè)計(jì)
模型結(jié)構(gòu)方面,我們基于 Qwen2.5-14B-Instruct,設(shè)計(jì)了一個(gè)時(shí)間序列原生感知的輸入結(jié)構(gòu)。時(shí)間序列被切分為小 patch,并用輕量級(jí) MLP 編碼,嵌入到原始文本上下文中。
與之配套,我們?cè)O(shè)計(jì)了「數(shù)值保值歸一化機(jī)制」??紤]到原始數(shù)值在實(shí)際業(yè)務(wù)中非常重要(如最大 CPU 使用率),我們?cè)趯?duì)序列進(jìn)行 0-1 歸一化時(shí),同時(shí)將歸一化參數(shù)以文本形式保留進(jìn) prompt,使模型既能學(xué)習(xí)序列形態(tài),又不丟失絕對(duì)數(shù)值的意義。
ChatTS 案例展示
我們做了幾個(gè)基于真實(shí)時(shí)間序列的 Case Studies??梢园l(fā)現(xiàn),ChatTS 不僅能對(duì)多變量時(shí)序的形態(tài)進(jìn)行分析,還能輸出時(shí)序中波動(dòng)區(qū)間的位置與幅度。ChatTS 還能夠?qū)](méi)有見(jiàn)過(guò)的時(shí)序波動(dòng)模式進(jìn)行識(shí)別,并基于自己的理解給它「起名字」。
此外,ChatTS 的使用場(chǎng)景非常靈活,無(wú)需精確的 prompt 輸入也能準(zhǔn)確響應(yīng)。例如,我們讓它分析時(shí)序中的所有「事件」,ChatTS 準(zhǔn)確地 get 到了我們的意思,并自動(dòng)提取出時(shí)序中的所有的異常波動(dòng)。此外,ChatTS 還能實(shí)際應(yīng)用結(jié)合,例如結(jié)合專家知識(shí),對(duì)故障去進(jìn)行初步的診斷和分析。
評(píng)估體系
我們一共收集了 3 個(gè)數(shù)據(jù)集用于評(píng)估,包含了 real-world 與合成的時(shí)序數(shù)據(jù),評(píng)測(cè)集覆蓋了對(duì)齊任務(wù)與推理任務(wù)兩大類,共 12 子類的問(wèn)題類型,以全面評(píng)估對(duì)比模型性能。
一、對(duì)齊任務(wù)評(píng)估:全方位精準(zhǔn)識(shí)別時(shí)間序列屬性
我們將 ChatTS 模型與基于 Text、Vision 和 Agent 的模型進(jìn)行對(duì)比。結(jié)果顯示,ChatTS 在所有指標(biāo)上均大幅超越 GPT-4o 及其他基線方法,分類任務(wù) F1 提升 46%–75%,數(shù)值任務(wù)相對(duì)準(zhǔn)確率提升超過(guò) 80%。
在多變量任務(wù)上,ChatTS 優(yōu)勢(shì)更為顯著:ChatTS 能一次性感知多個(gè)變量間的變化趨勢(shì)與關(guān)系,且 token 成本極低,顯示出極強(qiáng)的實(shí)用性與高效性。
二、推理任務(wù)評(píng)估:從歸納到因果,全面提升時(shí)序理解深度
推理任務(wù)包括四類:歸納、演繹、因果、比較。實(shí)驗(yàn)結(jié)果顯示,ChatTS 在所有推理任務(wù)上均優(yōu)于基線,平均提升 25.8%。
思考與展望
ChatTS 展示了一個(gè)全新的范式:通過(guò)可控合成數(shù)據(jù),訓(xùn)練具備真實(shí)理解能力的多模態(tài)大模型。我們從零出發(fā),僅使用合成數(shù)據(jù)訓(xùn)練出了一個(gè)在真實(shí)任務(wù)中表現(xiàn)優(yōu)異的模型,這說(shuō)明「數(shù)據(jù)生成 + 模態(tài)對(duì)齊」的范式具備高度潛力。
當(dāng)前,ChatTS 聚焦在時(shí)序分析的理解與推理任務(wù),未來(lái)我們可以拓展其能力至更高階任務(wù)(例如因果推理、根因分析),甚至結(jié)合外部知識(shí)庫(kù)、專家規(guī)則,實(shí)現(xiàn)更強(qiáng)的決策支持能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.