99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

想知道你的LLM API被過度收費(fèi)了嗎?隱藏Tokens終于可以被審計了

0
分享至



本文作者來自馬里蘭大學(xué)的 CASE (Collaborative,Automated,Scalable, andEfficient Intelligence) Lab,主要參與者為博士生孫國恒與王子瑤,指導(dǎo)教師為李昂教授。

研究背景:在商業(yè)保護(hù)與用戶知情間尋求平衡



  • 論文標(biāo)題:Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services
  • arXiv 鏈接:https://arxiv.org/pdf/2505.18471

近年來,大型語言模型(LLM)在處理復(fù)雜任務(wù)方面取得了顯著進(jìn)展,尤其體現(xiàn)在多步推理、工具調(diào)用以及多智能體協(xié)作等高級應(yīng)用中。這些能力的提升,往往依賴于模型內(nèi)部一系列復(fù)雜的「思考」過程或 Agentic System 中的 Agent 間頻繁信息交互。

然而,為了保護(hù)核心知識產(chǎn)權(quán)(如防止模型蒸餾或 Agent 工作流泄露)、提供更流暢的用戶體驗(yàn),服務(wù)提供商通常會將這些中間步驟隱藏,僅向用戶呈現(xiàn)最終的輸出結(jié)果。這在當(dāng)前的商業(yè)和技術(shù)環(huán)境下,是一種保護(hù)創(chuàng)新、簡化交互的常見做法。

近期,CASE Lab 團(tuán)隊(duì)將這類隱藏其內(nèi)部工作流、僅返回最終結(jié)果但卻按總 token 量計費(fèi)的服務(wù)定義為「商業(yè)不透明大模型服務(wù)」(Commercial Opaque LLM Service, COLS)。如圖 1所示,無論是 Reasoning LLM 還是多智能體系統(tǒng)(Agentic LLMs)相關(guān)的服務(wù),其內(nèi)部都存在大量用戶不可見的計費(fèi)點(diǎn)。



圖 1:COLS 及其隱藏操作。

常見的 Reasoning LLM API 和 Agentic LLM APP 如圖 2所示,紅框標(biāo)識了隱藏操作。



圖 2:常見的 Reasoning LLM API 和 Agentic LLM APP。(a)主流的 Reasoning LLM API 按照包含推理步驟的 completion_tokens 計費(fèi),但是用戶卻只能看見 Answer。(b)主流的 Agentic LLM APP 執(zhí)行的每個任務(wù)都將消耗通過付費(fèi)訂閱獲得的積分,用戶看不到中間過程的細(xì)節(jié)。

然而,這種商業(yè)模式也隱含出一種新型風(fēng)險:由于用戶無法看到、驗(yàn)證或質(zhì)疑這些隱藏操作,一些不良的服務(wù)提供商在利益驅(qū)動下,可能通過「虛報消耗 token 數(shù)量」或?qū)δP瓦M(jìn)行「偷梁換柱」來悄悄增加用戶費(fèi)用或降低自身成本。

圖 3以 Reasoning LLM API 為例,展示了主流模型隱藏的推理 tokens 數(shù)量,其常常是最終答案的幾十倍之多。這意味著用戶支付的絕大部分費(fèi)用,都花在了他們看不見的地方,真實(shí)性無從考證。



圖 3:Reasoning LLM API 在回答 open-r1/OpenR1-Math-220k 數(shù)據(jù)集中的部分問題時,推理 token 與答案 token 的比例。

團(tuán)隊(duì)對 Reasoning LLM 和 Agentic LLMs 中的主要風(fēng)險給出了具體定義并給出了潛在解決方案,包括:

1. 數(shù)量膨脹(Quantity Inflation),即服務(wù)方通過夸大生成 token 數(shù)量或內(nèi)部模型調(diào)用次數(shù)來虛增計費(fèi)。具體表現(xiàn)為:

  • 在 Reasoning LLM 中,可能通過冗余推理步驟(如重復(fù)檢索、低效展開)造成 token 增長;
  • 在 Agentic LLMs 中,則可能存在模型或工具調(diào)用的頻率膨脹,甚至偽造通信行為。

2. 質(zhì)量降級(Quality Downgrade),即服務(wù)方在保持計費(fèi)標(biāo)準(zhǔn)不變的情況下,悄然替換為低成本模型或工具。例如:

  • 在 Reasoning LLM 中調(diào)用小尺寸的或量化后的模型;
  • 在 Agentic LLMs 中模擬工具調(diào)用而非真正執(zhí)行,或者用成本更低的工具替代宣稱的高成本工具,例如用本地知識庫代替網(wǎng)絡(luò)搜索。

此外,如圖 4 所示,團(tuán)隊(duì)還提出了一個結(jié)構(gòu)化的三層審計藍(lán)圖,旨在推動 COLS 行業(yè)建立標(biāo)準(zhǔn)化、可驗(yàn)證的審計基礎(chǔ)設(shè)施:

  • 第一層(服務(wù)執(zhí)行層):記錄 COLS 內(nèi)部模型生成、Agent 通信與工具調(diào)用等核心操作;
  • 第二層(安全承諾與記錄層):將上述操作以加密摘要、哈希鏈、區(qū)塊鏈等形式提交為可驗(yàn)證承諾;
  • 第三層(審計與反饋層):允許用戶或第三方審計機(jī)構(gòu)對服務(wù)行為進(jìn)行獨(dú)立驗(yàn)證,并為用戶提供賬單合理性或服務(wù)一致性的反饋報告。



圖 4:三層審計框架。

該框架基于「可驗(yàn)證但不泄密」的理念,鼓勵未來的 COLS 服務(wù)商在保護(hù)商業(yè)敏感信息的同時,實(shí)現(xiàn)對用戶透明、可信的服務(wù)承諾。這一體系既支持技術(shù)層面的透明性,也為政策制定與合規(guī)提供了實(shí)現(xiàn)路徑。

CoIn:讓隱藏操作可驗(yàn)證但不泄露



  • 論文標(biāo)題:CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs
  • arXiv 鏈接:https://arxiv.org/pdf/2505.13778
  • GitHub 鏈接:https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn
  • Hugging Face 鏈接:https://huggingface.co/collections/s1ghhh/coin-llm-auditing-6842a46feea043d46c0d338e

為了解決 Reasoning LLM API 的計費(fèi)審計問題,該研究團(tuán)隊(duì)還提出了用于防止 token數(shù)量膨脹(Quantity Inflation)的驗(yàn)證框架 CoIn,旨在提供一種技術(shù)可能性,在尊重和保護(hù) COLS 的商業(yè)機(jī)密和知識產(chǎn)權(quán)的前提下,賦予用戶驗(yàn)證服務(wù)真實(shí)性的途徑,從而在用戶和 COLS 之間搭建起一座「信任橋梁」。

如算法 1所示,CoIn 包含適應(yīng)性的多輪驗(yàn)證,其中每輪會驗(yàn)證 COLS 宣稱的 Token 數(shù)量是否準(zhǔn)確以及隱藏的 Reasoning Token 是否真正參與推導(dǎo)出答案,最終由 Verifier 來給出判斷。對于正常樣本,CoIn 會在早期便驗(yàn)證成功并結(jié)束,而對于較難判斷的樣本或者數(shù)量膨脹后的惡意樣本,CoIn 會驗(yàn)證更多輪,避免漏判。



算法 1:CoIn 的適應(yīng)性多輪驗(yàn)證。

CoIn 框架的單輪驗(yàn)證主要包含兩大模塊:

1.Token 數(shù)量驗(yàn)證 (Token Quantity Verification): 如圖 5-(a)所示,這一模塊巧妙地運(yùn)用了密碼學(xué)中的默克爾樹 (Merkle Tree) 技術(shù)。COLS 需將其所有隱藏 tokens 的「指紋」(即嵌入向量,embedding)作為葉子節(jié)點(diǎn),構(gòu)建一棵哈希樹,并向?qū)徲嫹剑梢允怯脩艋颡?dú)立的第三方平臺)提供最終的哈希根(Merkle Root)。在審計時,審計方僅需請求并驗(yàn)證極少數(shù)隨機(jī)抽取的 token “指紋” 及其在哈希樹中的路徑(Merkle Proof),便能高效地核實(shí) token 總數(shù)是否與聲明一致,而無需訪問所有 token 的原始內(nèi)容。

這種方法的核心優(yōu)勢在于,它能在泄露很少推理步驟的前提下,確保數(shù)量的準(zhǔn)確性。更重要的是,由于哈希承諾的特性和用戶質(zhì)疑的隨機(jī)性,惡意 COLS 的偽造必須做全套,并且在返回給用戶結(jié)果時就得完成偽造,無法專門應(yīng)對用戶的質(zhì)疑,大大提高了 COLS 的造假成本。

2. 語義有效性驗(yàn)證 (Semantic Validity Verification): 僅驗(yàn)證數(shù)量的準(zhǔn)確性尚不足以完全打消用戶的疑慮,因?yàn)槔碚撋?COLS 仍可能產(chǎn)生大量與任務(wù)目標(biāo)關(guān)聯(lián)較弱的「無效」token 來冒充隱藏 token。如圖 5-(b)所示,CoIn 設(shè)計了輕量級的「Matching Head」來分析被抽查的隱藏 token(的指紋)與最終答案之間的語義連貫性和邏輯相關(guān)性,并給出一個相關(guān)性評分。如果評分顯著偏低,則可能表明這些隱藏 token 對最終結(jié)果的貢獻(xiàn)有限。這一機(jī)制旨在確保用戶支付的費(fèi)用,對應(yīng)的是真正服務(wù)于任務(wù)目標(biāo)的有效推理過程。



圖 5:CoIn 驗(yàn)證框架。

團(tuán)隊(duì)定義了 COLS 可能會實(shí)施的多種適應(yīng)性數(shù)量膨脹攻擊,并據(jù)此在醫(yī)療、代碼、數(shù)學(xué)、通用推理等多個不同領(lǐng)域上構(gòu)建了高難度的數(shù)據(jù)集,用于訓(xùn)練 CoIn 框架中的 Matching Head 和 Verifier,以及驗(yàn)證 CoIn 框架的性能。實(shí)驗(yàn)結(jié)果顯示,CoIn 框架具有如下特性:

  • 高效識別 token 數(shù)量膨脹:圖 6展示了 CoIn 在不同模擬場景下的檢測成功率(Detection Success Rate, DSR),可以看到,隨著膨脹率(Inflation Rate = 偽造的 token 數(shù) / 真實(shí) token 數(shù))的增加,CoIn 的識別能力也相應(yīng)增強(qiáng)。在高膨脹率的場景下(即 COLS 偽造的 token 占比超過 50%),即使面對經(jīng)過特殊設(shè)計、語義上與原始內(nèi)容相似的「自適應(yīng) token 膨脹」場景,在僅暴露極少量信息的情況下,CoIn 的平均 DSR 也能達(dá)到 94.7%。而對于 COLS 僅僅虛報 10% tokens 的場景中,CoIn 也有約 40% 的平均 DSR。
  • 可定制性:圖 6中的紅線和藍(lán)線分別代表兩種類型的 Verifier,一種基于神經(jīng)網(wǎng)絡(luò),一種基于規(guī)則。前者對于惡意樣本具有很高的 DSR,但是對正常樣本的誤判率也比較高。而后者則可以由 COLS 和用戶協(xié)商后設(shè)置參數(shù),在減少對正常樣本的誤判和高效檢測數(shù)量膨脹之間達(dá)到平衡。
  • 極低的審計開銷: 整個審計過程對用戶和服務(wù)商而言開銷較低。在驗(yàn)證過程中,審計方僅需訪問不到 4% 的隱藏 token 信息(指紋),便能完成高精度的驗(yàn)證。如圖 7所示,默克爾樹的構(gòu)建在單核 CPU 上只需要一秒左右,對于擁有強(qiáng)大計算資源的 COLS 而言,其額外開銷幾乎可以忽略不計。



圖 6:不同膨脹率(Inflation Rate)下,CoIn 應(yīng)對多種數(shù)量膨脹攻擊時的表現(xiàn)。



圖 7:不同隱藏 Tokens 數(shù)量和 Embedding 模型 Hidden Dimension 下,Merkle 哈希樹的構(gòu)建成本。

總的來說,來自馬里蘭大學(xué)的 CASE Lab 團(tuán)隊(duì)首次系統(tǒng)性地分析了當(dāng)前主流大模型服務(wù)在「隱藏操作」透明度方面面臨的挑戰(zhàn),并提出了首個旨在解決 token 數(shù)量膨脹問題的審計框架 CoIn。

CoIn 的核心貢獻(xiàn)在于,它探索出一條在平衡服務(wù)商知識產(chǎn)權(quán)保護(hù)與用戶對服務(wù)透明度合理需求之間的技術(shù)路徑,期望能為構(gòu)建用戶和服務(wù)商之間的相互信任提供有力的技術(shù)支撐。

截至目前,主流推理模型均不會暴露自己的推理過程,盡管這部分仍然需要用戶付費(fèi)。然而,已經(jīng)有一些轉(zhuǎn)變標(biāo)識著各大 LLM API 提供商正在嘗試達(dá)到知識產(chǎn)權(quán)保護(hù)和用戶知情權(quán)的平衡。例如,幾乎所有服務(wù)提供商都會提供返回摘要的服務(wù);Claude 4.0 可以提供加密后的推理 tokens 以便用戶檢查真實(shí)性以及保障推理過程未被篡改。

CASE Lab 團(tuán)隊(duì)呼吁學(xué)界和業(yè)界共同關(guān)注這一新興領(lǐng)域,共同推動建立更加透明、公平和可信的 AI 服務(wù)標(biāo)準(zhǔn)與實(shí)踐。未來的研究方向可以包括開發(fā)更為完善和易于部署的審計協(xié)議或框架,探討將此類審計機(jī)制作為行業(yè)準(zhǔn)則或第三方認(rèn)證標(biāo)準(zhǔn)的可行性,以及推動相關(guān)技術(shù)標(biāo)準(zhǔn)和最佳實(shí)踐的形成。最終目標(biāo)是促進(jìn)整個大模型生態(tài)系統(tǒng)的健康、可持續(xù)發(fā)展,讓前沿的人工智能技術(shù)能夠在贏得公眾持久信任的基礎(chǔ)上,更好地服務(wù)于社會。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
世界經(jīng)濟(jì)奇觀:騰飛的伊拉克 20年gdp增長1200%,民主的力量

世界經(jīng)濟(jì)奇觀:騰飛的伊拉克 20年gdp增長1200%,民主的力量

再遇歷史
2025-06-17 15:21:23
歐盟取消與中國高層經(jīng)濟(jì)對話,中方回應(yīng)

歐盟取消與中國高層經(jīng)濟(jì)對話,中方回應(yīng)

FM93浙江交通之聲
2025-06-17 17:51:00
俞敏洪:當(dāng)孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

俞敏洪:當(dāng)孩子不尊重你,不必翻臉,只需“烏鴉定律”就夠了

詩詞中國
2025-06-17 13:12:55
離婚7年,張靚穎再次讓世界“刮目相看”,獨(dú)得6億的馮軻后悔了嗎

離婚7年,張靚穎再次讓世界“刮目相看”,獨(dú)得6億的馮軻后悔了嗎

界史
2025-06-17 09:17:53
快訊!外媒:伊朗向以方發(fā)起新一輪導(dǎo)彈襲擊,“約20枚彈道導(dǎo)彈射向以色列”

快訊!外媒:伊朗向以方發(fā)起新一輪導(dǎo)彈襲擊,“約20枚彈道導(dǎo)彈射向以色列”

環(huán)球網(wǎng)資訊
2025-06-17 15:04:12
狂開1863家店,全是預(yù)制菜!究竟是誰在吃這家網(wǎng)紅餐廳?

狂開1863家店,全是預(yù)制菜!究竟是誰在吃這家網(wǎng)紅餐廳?

阿傖說事
2025-06-17 10:55:33
李心月爆料黃曉明離婚原因,baby婚內(nèi)出軌,還牽扯到劣跡藝人鄧某

李心月爆料黃曉明離婚原因,baby婚內(nèi)出軌,還牽扯到劣跡藝人鄧某

萌神木木
2025-06-17 15:22:55
結(jié)案了,曾毅的手表不過是幌子,真正要達(dá)到的目的卻是其它吧

結(jié)案了,曾毅的手表不過是幌子,真正要達(dá)到的目的卻是其它吧

春序娛樂
2025-06-17 18:34:04
大漲!今晚起,北京全市上調(diào)!

大漲!今晚起,北京全市上調(diào)!

美麗大北京
2025-06-17 15:08:58
以伊戰(zhàn)事:以色列每天燒錢數(shù)十億,伊朗首都4天逮捕28名間諜

以伊戰(zhàn)事:以色列每天燒錢數(shù)十億,伊朗首都4天逮捕28名間諜

紅星新聞
2025-06-17 18:06:56
歐盟取消中歐高層經(jīng)濟(jì)對話?外交部:加強(qiáng)戰(zhàn)略溝通有利于世界

歐盟取消中歐高層經(jīng)濟(jì)對話?外交部:加強(qiáng)戰(zhàn)略溝通有利于世界

澎湃新聞
2025-06-17 15:36:35
奔馳發(fā)兩張海報回懟某豪華新能源車,字字不提、句句皆是

奔馳發(fā)兩張海報回懟某豪華新能源車,字字不提、句句皆是

天行艦
2025-06-17 07:39:41
安徽銀行人員被客戶請吃15元面算違規(guī)嗎?新華社:圈子再小也不行

安徽銀行人員被客戶請吃15元面算違規(guī)嗎?新華社:圈子再小也不行

楊哥歷史
2025-06-17 10:12:50
全網(wǎng)喊話王興!網(wǎng)傳自貢19歲的外賣員趕時間送餐,摔傷不治而亡…

全網(wǎng)喊話王興!網(wǎng)傳自貢19歲的外賣員趕時間送餐,摔傷不治而亡…

火山詩話
2025-06-17 05:47:05
四川88個站點(diǎn)熱破紀(jì)錄!“火盆”迎降雨,警惕強(qiáng)對流天氣

四川88個站點(diǎn)熱破紀(jì)錄!“火盆”迎降雨,警惕強(qiáng)對流天氣

封面新聞
2025-06-17 19:55:00
伊朗開竅了,用導(dǎo)彈摧毀以色列出過三位諾獎得主的魏茨曼研究中心

伊朗開竅了,用導(dǎo)彈摧毀以色列出過三位諾獎得主的魏茨曼研究中心

大道無形我有型
2025-06-16 18:37:28
央媒曝光:繼那爾那茜之后,其堂哥10分考入985中央民族大學(xué)

央媒曝光:繼那爾那茜之后,其堂哥10分考入985中央民族大學(xué)

趙釔是個熱血青年
2025-06-17 12:56:24
湖北一傳銷案嫌疑人為脫罪花840萬買通公安局長

湖北一傳銷案嫌疑人為脫罪花840萬買通公安局長

看看新聞Knews
2025-06-17 22:03:12
印度客機(jī)墜毀原因找到了,在燃油里摻了屎?這也太埋汰人了

印度客機(jī)墜毀原因找到了,在燃油里摻了屎?這也太埋汰人了

熱點(diǎn)網(wǎng)友
2025-06-17 16:38:51
深藏深山腹地超百米地下,接近核彈級水平!揭秘以色列啃不下來的這座伊朗核設(shè)施

深藏深山腹地超百米地下,接近核彈級水平!揭秘以色列啃不下來的這座伊朗核設(shè)施

紅星新聞
2025-06-17 20:56:37
2025-06-17 22:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10663文章數(shù) 142339關(guān)注度
往期回顧 全部

科技要聞

日賺1億、存貨1544億,比亞迪的實(shí)力與枷鎖

頭條要聞

男童嘔吐送醫(yī)遭漏診身亡 首診醫(yī)生被刑拘院方賠146萬

頭條要聞

男童嘔吐送醫(yī)遭漏診身亡 首診醫(yī)生被刑拘院方賠146萬

體育要聞

FMVP之爭?杰倫40+6創(chuàng)紀(jì)錄 決戰(zhàn)連獻(xiàn)關(guān)鍵分

娛樂要聞

重男輕女還雌競?朱丹行為引爭議

財經(jīng)要聞

白酒股崩了,誰在“拋棄”茅臺?

汽車要聞

高級感拉滿 極氪9X全新配色“極晝白”亮相

態(tài)度原創(chuàng)

房產(chǎn)
旅游
親子
游戲
公開課

房產(chǎn)要聞

又一城購房補(bǔ)貼!買房就發(fā)錢,正在海南樓市瘋狂擴(kuò)散!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

后媽這樣兇孩子不好吧?

魔獸世界:60級裝備成ICC最強(qiáng)神器!可大幅提升全團(tuán)傷害

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 潜江市| 鸡泽县| 四子王旗| 通州市| 江华| 蒙城县| 丰宁| 朔州市| 东山县| 西峡县| 大埔县| 赤水市| 万宁市| 中江县| 壤塘县| 上思县| 潮州市| 章丘市| 乌拉特后旗| 施秉县| 儋州市| 太仓市| 吉木萨尔县| 昔阳县| 腾冲县| 全州县| 应城市| 德化县| 吉木萨尔县| 台北市| 鄢陵县| 湖州市| 青浦区| 清丰县| 资讯 | 日土县| 桑日县| 合水县| 海盐县| 轮台县| 资中县|