想知道你的LLM API被過度收費(fèi)了嗎？隱藏Tokens終于可以被審計了

2025-06-17 17:03:06　來源: 機(jī)器之心Pro

天津舉報

分享至

本文作者來自馬里蘭大學(xué)的 CASE (Collaborative,Automated,Scalable, andEfficient Intelligence) Lab，主要參與者為博士生孫國恒與王子瑤，指導(dǎo)教師為李昂教授。

研究背景：在商業(yè)保護(hù)與用戶知情間尋求平衡

論文標(biāo)題：Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services
arXiv 鏈接：https://arxiv.org/pdf/2505.18471

近年來，大型語言模型（LLM）在處理復(fù)雜任務(wù)方面取得了顯著進(jìn)展，尤其體現(xiàn)在多步推理、工具調(diào)用以及多智能體協(xié)作等高級應(yīng)用中。這些能力的提升，往往依賴于模型內(nèi)部一系列復(fù)雜的「思考」過程或 Agentic System 中的 Agent 間頻繁信息交互。

然而，為了保護(hù)核心知識產(chǎn)權(quán)（如防止模型蒸餾或 Agent 工作流泄露）、提供更流暢的用戶體驗(yàn)，服務(wù)提供商通常會將這些中間步驟隱藏，僅向用戶呈現(xiàn)最終的輸出結(jié)果。這在當(dāng)前的商業(yè)和技術(shù)環(huán)境下，是一種保護(hù)創(chuàng)新、簡化交互的常見做法。

近期，CASE Lab 團(tuán)隊(duì)將這類隱藏其內(nèi)部工作流、僅返回最終結(jié)果但卻按總 token 量計費(fèi)的服務(wù)定義為「商業(yè)不透明大模型服務(wù)」（Commercial Opaque LLM Service, COLS）。如圖 1所示，無論是 Reasoning LLM 還是多智能體系統(tǒng)（Agentic LLMs）相關(guān)的服務(wù)，其內(nèi)部都存在大量用戶不可見的計費(fèi)點(diǎn)。

圖 1：COLS 及其隱藏操作。

常見的 Reasoning LLM API 和 Agentic LLM APP 如圖 2所示，紅框標(biāo)識了隱藏操作。

圖 2：常見的 Reasoning LLM API 和 Agentic LLM APP。（a）主流的 Reasoning LLM API 按照包含推理步驟的 completion_tokens 計費(fèi)，但是用戶卻只能看見 Answer。（b）主流的 Agentic LLM APP 執(zhí)行的每個任務(wù)都將消耗通過付費(fèi)訂閱獲得的積分，用戶看不到中間過程的細(xì)節(jié)。

然而，這種商業(yè)模式也隱含出一種新型風(fēng)險：由于用戶無法看到、驗(yàn)證或質(zhì)疑這些隱藏操作，一些不良的服務(wù)提供商在利益驅(qū)動下，可能通過「虛報消耗 token 數(shù)量」或?qū)δＰ瓦M(jìn)行「偷梁換柱」來悄悄增加用戶費(fèi)用或降低自身成本。

圖 3以 Reasoning LLM API 為例，展示了主流模型隱藏的推理 tokens 數(shù)量，其常常是最終答案的幾十倍之多。這意味著用戶支付的絕大部分費(fèi)用，都花在了他們看不見的地方，真實(shí)性無從考證。

圖 3：Reasoning LLM API 在回答 open-r1/OpenR1-Math-220k 數(shù)據(jù)集中的部分問題時，推理 token 與答案 token 的比例。

團(tuán)隊(duì)對 Reasoning LLM 和 Agentic LLMs 中的主要風(fēng)險給出了具體定義并給出了潛在解決方案，包括：

1. 數(shù)量膨脹（Quantity Inflation），即服務(wù)方通過夸大生成 token 數(shù)量或內(nèi)部模型調(diào)用次數(shù)來虛增計費(fèi)。具體表現(xiàn)為：

在 Reasoning LLM 中，可能通過冗余推理步驟（如重復(fù)檢索、低效展開）造成 token 增長；
在 Agentic LLMs 中，則可能存在模型或工具調(diào)用的頻率膨脹，甚至偽造通信行為。

2. 質(zhì)量降級（Quality Downgrade），即服務(wù)方在保持計費(fèi)標(biāo)準(zhǔn)不變的情況下，悄然替換為低成本模型或工具。例如：

在 Reasoning LLM 中調(diào)用小尺寸的或量化后的模型；
在 Agentic LLMs 中模擬工具調(diào)用而非真正執(zhí)行，或者用成本更低的工具替代宣稱的高成本工具，例如用本地知識庫代替網(wǎng)絡(luò)搜索。

此外，如圖 4 所示，團(tuán)隊(duì)還提出了一個結(jié)構(gòu)化的三層審計藍(lán)圖，旨在推動 COLS 行業(yè)建立標(biāo)準(zhǔn)化、可驗(yàn)證的審計基礎(chǔ)設(shè)施：

第一層（服務(wù)執(zhí)行層）：記錄 COLS 內(nèi)部模型生成、Agent 通信與工具調(diào)用等核心操作；
第二層（安全承諾與記錄層）：將上述操作以加密摘要、哈希鏈、區(qū)塊鏈等形式提交為可驗(yàn)證承諾；
第三層（審計與反饋層）：允許用戶或第三方審計機(jī)構(gòu)對服務(wù)行為進(jìn)行獨(dú)立驗(yàn)證，并為用戶提供賬單合理性或服務(wù)一致性的反饋報告。

圖 4：三層審計框架。

該框架基于「可驗(yàn)證但不泄密」的理念，鼓勵未來的 COLS 服務(wù)商在保護(hù)商業(yè)敏感信息的同時，實(shí)現(xiàn)對用戶透明、可信的服務(wù)承諾。這一體系既支持技術(shù)層面的透明性，也為政策制定與合規(guī)提供了實(shí)現(xiàn)路徑。

CoIn：讓隱藏操作可驗(yàn)證但不泄露

論文標(biāo)題：CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs
arXiv 鏈接：https://arxiv.org/pdf/2505.13778
GitHub 鏈接：https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn
Hugging Face 鏈接：https://huggingface.co/collections/s1ghhh/coin-llm-auditing-6842a46feea043d46c0d338e

為了解決 Reasoning LLM API 的計費(fèi)審計問題，該研究團(tuán)隊(duì)還提出了用于防止 token數(shù)量膨脹（Quantity Inflation）的驗(yàn)證框架 CoIn，旨在提供一種技術(shù)可能性，在尊重和保護(hù) COLS 的商業(yè)機(jī)密和知識產(chǎn)權(quán)的前提下，賦予用戶驗(yàn)證服務(wù)真實(shí)性的途徑，從而在用戶和 COLS 之間搭建起一座「信任橋梁」。

如算法 1所示，CoIn 包含適應(yīng)性的多輪驗(yàn)證，其中每輪會驗(yàn)證 COLS 宣稱的 Token 數(shù)量是否準(zhǔn)確以及隱藏的 Reasoning Token 是否真正參與推導(dǎo)出答案，最終由 Verifier 來給出判斷。對于正常樣本，CoIn 會在早期便驗(yàn)證成功并結(jié)束，而對于較難判斷的樣本或者數(shù)量膨脹后的惡意樣本，CoIn 會驗(yàn)證更多輪，避免漏判。

算法 1：CoIn 的適應(yīng)性多輪驗(yàn)證。

CoIn 框架的單輪驗(yàn)證主要包含兩大模塊：

1.Token 數(shù)量驗(yàn)證 (Token Quantity Verification)：如圖 5-(a)所示，這一模塊巧妙地運(yùn)用了密碼學(xué)中的默克爾樹 (Merkle Tree) 技術(shù)。COLS 需將其所有隱藏 tokens 的「指紋」（即嵌入向量，embedding）作為葉子節(jié)點(diǎn)，構(gòu)建一棵哈希樹，并向?qū)徲嫹剑梢允怯脩艋颡?dú)立的第三方平臺）提供最終的哈希根（Merkle Root）。在審計時，審計方僅需請求并驗(yàn)證極少數(shù)隨機(jī)抽取的 token “指紋” 及其在哈希樹中的路徑（Merkle Proof），便能高效地核實(shí) token 總數(shù)是否與聲明一致，而無需訪問所有 token 的原始內(nèi)容。

這種方法的核心優(yōu)勢在于，它能在泄露很少推理步驟的前提下，確保數(shù)量的準(zhǔn)確性。更重要的是，由于哈希承諾的特性和用戶質(zhì)疑的隨機(jī)性，惡意 COLS 的偽造必須做全套，并且在返回給用戶結(jié)果時就得完成偽造，無法專門應(yīng)對用戶的質(zhì)疑，大大提高了 COLS 的造假成本。

2. 語義有效性驗(yàn)證 (Semantic Validity Verification)：僅驗(yàn)證數(shù)量的準(zhǔn)確性尚不足以完全打消用戶的疑慮，因?yàn)槔碚撋?COLS 仍可能產(chǎn)生大量與任務(wù)目標(biāo)關(guān)聯(lián)較弱的「無效」token 來冒充隱藏 token。如圖 5-(b)所示，CoIn 設(shè)計了輕量級的「Matching Head」來分析被抽查的隱藏 token（的指紋）與最終答案之間的語義連貫性和邏輯相關(guān)性，并給出一個相關(guān)性評分。如果評分顯著偏低，則可能表明這些隱藏 token 對最終結(jié)果的貢獻(xiàn)有限。這一機(jī)制旨在確保用戶支付的費(fèi)用，對應(yīng)的是真正服務(wù)于任務(wù)目標(biāo)的有效推理過程。

圖 5：CoIn 驗(yàn)證框架。

團(tuán)隊(duì)定義了 COLS 可能會實(shí)施的多種適應(yīng)性數(shù)量膨脹攻擊，并據(jù)此在醫(yī)療、代碼、數(shù)學(xué)、通用推理等多個不同領(lǐng)域上構(gòu)建了高難度的數(shù)據(jù)集，用于訓(xùn)練 CoIn 框架中的 Matching Head 和 Verifier，以及驗(yàn)證 CoIn 框架的性能。實(shí)驗(yàn)結(jié)果顯示，CoIn 框架具有如下特性：

高效識別 token 數(shù)量膨脹：圖 6展示了 CoIn 在不同模擬場景下的檢測成功率（Detection Success Rate, DSR），可以看到，隨著膨脹率（Inflation Rate = 偽造的 token 數(shù) / 真實(shí) token 數(shù)）的增加，CoIn 的識別能力也相應(yīng)增強(qiáng)。在高膨脹率的場景下（即 COLS 偽造的 token 占比超過 50%），即使面對經(jīng)過特殊設(shè)計、語義上與原始內(nèi)容相似的「自適應(yīng) token 膨脹」場景，在僅暴露極少量信息的情況下，CoIn 的平均 DSR 也能達(dá)到 94.7%。而對于 COLS 僅僅虛報 10% tokens 的場景中，CoIn 也有約 40% 的平均 DSR。
可定制性：圖 6中的紅線和藍(lán)線分別代表兩種類型的 Verifier，一種基于神經(jīng)網(wǎng)絡(luò)，一種基于規(guī)則。前者對于惡意樣本具有很高的 DSR，但是對正常樣本的誤判率也比較高。而后者則可以由 COLS 和用戶協(xié)商后設(shè)置參數(shù)，在減少對正常樣本的誤判和高效檢測數(shù)量膨脹之間達(dá)到平衡。
極低的審計開銷：整個審計過程對用戶和服務(wù)商而言開銷較低。在驗(yàn)證過程中，審計方僅需訪問不到 4% 的隱藏 token 信息（指紋），便能完成高精度的驗(yàn)證。如圖 7所示，默克爾樹的構(gòu)建在單核 CPU 上只需要一秒左右，對于擁有強(qiáng)大計算資源的 COLS 而言，其額外開銷幾乎可以忽略不計。

圖 6：不同膨脹率（Inflation Rate）下，CoIn 應(yīng)對多種數(shù)量膨脹攻擊時的表現(xiàn)。

圖 7：不同隱藏 Tokens 數(shù)量和 Embedding 模型 Hidden Dimension 下，Merkle 哈希樹的構(gòu)建成本。

總的來說，來自馬里蘭大學(xué)的 CASE Lab 團(tuán)隊(duì)首次系統(tǒng)性地分析了當(dāng)前主流大模型服務(wù)在「隱藏操作」透明度方面面臨的挑戰(zhàn)，并提出了首個旨在解決 token 數(shù)量膨脹問題的審計框架 CoIn。

CoIn 的核心貢獻(xiàn)在于，它探索出一條在平衡服務(wù)商知識產(chǎn)權(quán)保護(hù)與用戶對服務(wù)透明度合理需求之間的技術(shù)路徑，期望能為構(gòu)建用戶和服務(wù)商之間的相互信任提供有力的技術(shù)支撐。

截至目前，主流推理模型均不會暴露自己的推理過程，盡管這部分仍然需要用戶付費(fèi)。然而，已經(jīng)有一些轉(zhuǎn)變標(biāo)識著各大 LLM API 提供商正在嘗試達(dá)到知識產(chǎn)權(quán)保護(hù)和用戶知情權(quán)的平衡。例如，幾乎所有服務(wù)提供商都會提供返回摘要的服務(wù)；Claude 4.0 可以提供加密后的推理 tokens 以便用戶檢查真實(shí)性以及保障推理過程未被篡改。

CASE Lab 團(tuán)隊(duì)呼吁學(xué)界和業(yè)界共同關(guān)注這一新興領(lǐng)域，共同推動建立更加透明、公平和可信的 AI 服務(wù)標(biāo)準(zhǔn)與實(shí)踐。未來的研究方向可以包括開發(fā)更為完善和易于部署的審計協(xié)議或框架，探討將此類審計機(jī)制作為行業(yè)準(zhǔn)則或第三方認(rèn)證標(biāo)準(zhǔn)的可行性，以及推動相關(guān)技術(shù)標(biāo)準(zhǔn)和最佳實(shí)踐的形成。最終目標(biāo)是促進(jìn)整個大模型生態(tài)系統(tǒng)的健康、可持續(xù)發(fā)展，讓前沿的人工智能技術(shù)能夠在贏得公眾持久信任的基礎(chǔ)上，更好地服務(wù)于社會。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.