網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)跳動(dòng)&清華大學(xué)開(kāi)源多模態(tài)時(shí)序大模型，實(shí)現(xiàn)時(shí)序數(shù)據(jù)對(duì)話推理

2025-05-22 19:44:23　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

該工作由字節(jié)跳動(dòng) ByteBrain 團(tuán)隊(duì) × 清華大學(xué)合作完成。第一作者為清華大學(xué)三年級(jí)博士生謝哲，主要研究方向?yàn)闀r(shí)序多模態(tài) LLM、異常檢測(cè)和根因定位。第二作者和第三作者分別為李則言和何曉，均來(lái)自字節(jié)跳動(dòng)。通訊作者分別為字節(jié)跳動(dòng)研究科學(xué)家張鐵贏和清華大學(xué)計(jì)算機(jī)系副教授裴丹。

近年來(lái)，多模態(tài)大語(yǔ)言模型（MLLM）發(fā)展迅速，并在圖像、視頻、音頻等領(lǐng)域取得了突破性成果。然而，相較于這些研究較為成熟的模態(tài)，時(shí)間序列這一類型的數(shù)據(jù)與大模型結(jié)合的系統(tǒng)研究卻較為匱乏。

盡管已經(jīng)有 TimeLLM 等工作嘗試將 LLM 應(yīng)用于時(shí)序任務(wù)，但這些研究大多局限于預(yù)測(cè)類任務(wù)，無(wú)法滿足更復(fù)雜的理解與推理需求。隨著 LLM 在 AIOps、金融等需要處理時(shí)序數(shù)據(jù)的應(yīng)用場(chǎng)景中應(yīng)用愈發(fā)廣泛，時(shí)序問(wèn)答、推理的能力已成為多模態(tài)智能系統(tǒng)的一項(xiàng)基礎(chǔ)能力需求。

為此，我們提出了 ChatTS，一種原生支持多變量時(shí)序問(wèn)答與推理的多模態(tài) LLM。ChatTS 引來(lái)了HuggingFace 產(chǎn)品負(fù)責(zé)人 Victor Mustar，以及 SparkNLP 項(xiàng)目負(fù)責(zé)人 Maziyar Panahi等人的轉(zhuǎn)發(fā)和點(diǎn)贊：

ChatTS 論文已經(jīng)成功入選數(shù)據(jù)庫(kù)頂級(jí)會(huì)議 VLDB 2025。

論文標(biāo)題：ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning
論文 arXiv 鏈接：https://arxiv.org/pdf/2412.03104
ChatTS 代碼和數(shù)據(jù)集：https://github.com/NetmanAIOps/ChatTS
模型參數(shù)：https://huggingface.co/bytedance-research/ChatTS-14B

什么是時(shí)序問(wèn)答任務(wù)

傳統(tǒng)的時(shí)間序列分析方法多基于統(tǒng)計(jì)模型或 AI 模型，而這些方法通常需要大量任務(wù)特定的訓(xùn)練、特定的數(shù)據(jù)預(yù)處理和結(jié)構(gòu)化的輸入輸出，缺乏通用性和可解釋性。而 LLM 的強(qiáng)語(yǔ)言建模能力和泛化推理能力，為「用自然語(yǔ)言理解時(shí)間序列」提供了可能。

然而，目前主流的 LLM 并不能直接處理原始的時(shí)間序列數(shù)組數(shù)據(jù)，現(xiàn)有工作要么將時(shí)間序列轉(zhuǎn)成文本、圖像輸入，要么依賴 agent 工具進(jìn)行間接分析，但都存在不同程度的限制。

因此，我們思考，是否可以構(gòu)建一種「時(shí)間序列原生」的多模態(tài) LLM，使其像處理圖像一樣，能夠原生地理解時(shí)間序列的形狀、波動(dòng)與語(yǔ)義含義，并進(jìn)行進(jìn)一步的問(wèn)答和推理

構(gòu)建時(shí)間序列多模態(tài)大模型面臨諸多挑戰(zhàn)

數(shù)據(jù)稀缺。與圖文、語(yǔ)音等領(lǐng)域不同，時(shí)間序列+文本的對(duì)齊數(shù)據(jù)非常有限。
時(shí)間序列具有高度結(jié)構(gòu)性。時(shí)序包含豐富的趨勢(shì)、周期、局部波動(dòng)、噪聲等形態(tài)特征。
時(shí)間序列輸入往往是多變量、不同長(zhǎng)度的。變量之間的關(guān)系極具分析價(jià)值，但也加大了理解難度。
現(xiàn)有的評(píng)估基準(zhǔn)未覆蓋時(shí)間序列多模態(tài)建模任務(wù)，這也為訓(xùn)練和評(píng)估增加了難度。

現(xiàn)有方法

我們將現(xiàn)有嘗試將 LLM 應(yīng)用于時(shí)間序列的方式歸為三類：文本化方法、圖像化方法與 agent 方法。

文本化（Text-Based）方法最為直接，即將時(shí)間序列值編碼成長(zhǎng)文本輸入 LLM。其可能存在顯著的上下文長(zhǎng)度限制，且無(wú)法處理多變量場(chǎng)景。
圖像化（Vision-Based）方法借助可視化圖像輸入視覺(jué)大模型，但面臨圖像細(xì)節(jié)丟失的問(wèn)題。
Agent 方法（Agent-Based）利用 LLM 調(diào)用工具獲取特征，但該方式嚴(yán)重依賴工具準(zhǔn)確性、推理鏈條極長(zhǎng)且容易出現(xiàn)幻覺(jué)。

ChatTS: 基于合成數(shù)據(jù)訓(xùn)練的時(shí)序多模態(tài) LLM

面對(duì)時(shí)間序列與語(yǔ)言對(duì)齊數(shù)據(jù)的極度匱乏問(wèn)題，我們從根本上摒棄了依賴真實(shí)數(shù)據(jù)標(biāo)注的路徑，而是選擇「純合成驅(qū)動(dòng)」的方式，設(shè)計(jì)出一個(gè)端到端的數(shù)據(jù)生成、模型訓(xùn)練框架。

一、屬性驅(qū)動(dòng)（Attribute-Based）的時(shí)間序列生成

我們定義了一套詳細(xì)的時(shí)間序列屬性體系，這些屬性具有明確的語(yǔ)義與參數(shù)，構(gòu)成了「屬性池」。每個(gè)時(shí)間序列由若干屬性組合生成，并對(duì)應(yīng)一段高質(zhì)量自然語(yǔ)言描述。這種組合方式不僅確保了生成時(shí)間序列的多樣性與真實(shí)性，還能精確對(duì)應(yīng)語(yǔ)言文本的細(xì)節(jié)表達(dá)，避免了傳統(tǒng)「圖文描述不符」的問(wèn)題。

二、Time Series Evol-Instruct

僅有靜態(tài)屬性描述還不夠，我們還需訓(xùn)練模型掌握復(fù)雜的提問(wèn)、比較與推理能力。我們提出 TSEvol，該方法以一組基礎(chǔ) Q&A 為種子，依托已有 attribute pools，不斷演化出多種新問(wèn)題形式，優(yōu)化復(fù)雜推理場(chǎng)景下的模型能力。

三、原生多模態(tài)模型設(shè)計(jì)

模型結(jié)構(gòu)方面，我們基于 Qwen2.5-14B-Instruct，設(shè)計(jì)了一個(gè)時(shí)間序列原生感知的輸入結(jié)構(gòu)。時(shí)間序列被切分為小 patch，并用輕量級(jí) MLP 編碼，嵌入到原始文本上下文中。

與之配套，我們?cè)O(shè)計(jì)了「數(shù)值保值歸一化機(jī)制」?？紤]到原始數(shù)值在實(shí)際業(yè)務(wù)中非常重要（如最大 CPU 使用率），我們?cè)趯?duì)序列進(jìn)行 0-1 歸一化時(shí)，同時(shí)將歸一化參數(shù)以文本形式保留進(jìn) prompt，使模型既能學(xué)習(xí)序列形態(tài)，又不丟失絕對(duì)數(shù)值的意義。

ChatTS 案例展示

我們做了幾個(gè)基于真實(shí)時(shí)間序列的 Case Studies?？梢园l(fā)現(xiàn)，ChatTS 不僅能對(duì)多變量時(shí)序的形態(tài)進(jìn)行分析，還能輸出時(shí)序中波動(dòng)區(qū)間的位置與幅度。ChatTS 還能夠?qū)](méi)有見(jiàn)過(guò)的時(shí)序波動(dòng)模式進(jìn)行識(shí)別，并基于自己的理解給它「起名字」。

此外，ChatTS 的使用場(chǎng)景非常靈活，無(wú)需精確的 prompt 輸入也能準(zhǔn)確響應(yīng)。例如，我們讓它分析時(shí)序中的所有「事件」，ChatTS 準(zhǔn)確地 get 到了我們的意思，并自動(dòng)提取出時(shí)序中的所有的異常波動(dòng)。此外，ChatTS 還能實(shí)際應(yīng)用結(jié)合，例如結(jié)合專家知識(shí)，對(duì)故障去進(jìn)行初步的診斷和分析。

評(píng)估體系

我們一共收集了 3 個(gè)數(shù)據(jù)集用于評(píng)估，包含了 real-world 與合成的時(shí)序數(shù)據(jù)，評(píng)測(cè)集覆蓋了對(duì)齊任務(wù)與推理任務(wù)兩大類，共 12 子類的問(wèn)題類型，以全面評(píng)估對(duì)比模型性能。

一、對(duì)齊任務(wù)評(píng)估：全方位精準(zhǔn)識(shí)別時(shí)間序列屬性

我們將 ChatTS 模型與基于 Text、Vision 和 Agent 的模型進(jìn)行對(duì)比。結(jié)果顯示，ChatTS 在所有指標(biāo)上均大幅超越 GPT-4o 及其他基線方法，分類任務(wù) F1 提升 46%–75%，數(shù)值任務(wù)相對(duì)準(zhǔn)確率提升超過(guò) 80%。

在多變量任務(wù)上，ChatTS 優(yōu)勢(shì)更為顯著：ChatTS 能一次性感知多個(gè)變量間的變化趨勢(shì)與關(guān)系，且 token 成本極低，顯示出極強(qiáng)的實(shí)用性與高效性。

二、推理任務(wù)評(píng)估：從歸納到因果，全面提升時(shí)序理解深度

推理任務(wù)包括四類：歸納、演繹、因果、比較。實(shí)驗(yàn)結(jié)果顯示，ChatTS 在所有推理任務(wù)上均優(yōu)于基線，平均提升 25.8%。

思考與展望

ChatTS 展示了一個(gè)全新的范式：通過(guò)可控合成數(shù)據(jù)，訓(xùn)練具備真實(shí)理解能力的多模態(tài)大模型。我們從零出發(fā)，僅使用合成數(shù)據(jù)訓(xùn)練出了一個(gè)在真實(shí)任務(wù)中表現(xiàn)優(yōu)異的模型，這說(shuō)明「數(shù)據(jù)生成 + 模態(tài)對(duì)齊」的范式具備高度潛力。

當(dāng)前，ChatTS 聚焦在時(shí)序分析的理解與推理任務(wù)，未來(lái)我們可以拓展其能力至更高階任務(wù)（例如因果推理、根因分析），甚至結(jié)合外部知識(shí)庫(kù)、專家規(guī)則，實(shí)現(xiàn)更強(qiáng)的決策支持能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.