99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

推理經濟學如何驅動 AI 價值最大化

0
分享至

解析 AI 在生產環境中的部署成本,助力用戶實現性能優化和盈利能力。



隨著 AI 模型的持續演進與應用普及,企業需要在價值最大化的目標下進行精心權衡。

這是因為推理(將數據輸入模型并獲取輸出的運算過程)面臨與模型訓練截然不同的計算挑戰。

預訓練模型(數據導入、token 化分解及模式識別的過程)本質上是單次的成本投入。但在推理過程中,模型的每個提示詞 (prompt) 都會生成 token,而每個 token 都會產生成本。

這意味著,隨著 AI 模型性能提升和應用規模擴大,token 的生成量及其相關計算成本也會增加。對于希望構建 AI 能力的企業來說,關鍵在于控制計算成本的同時,以最快的速度、最高的準確性和服務質量生成盡可能多的 token。

為此,AI 生態系統持續推動推理效率優化與成本壓縮。得益于模型優化技術的重大突破,過去一年中推理成本持續呈下降趨勢,催生了日益先進、高能效的加速計算基礎架構和全棧解決方案。

根據斯坦福大學“以人為本人工智能研究所 (HAI)”發布的《2025 年人工智能指數報告》,“2022 年 11 月至 2024 年 10 月期間,達到 GPT-3.5 水平系統的推理成本降幅超 280 倍。硬件層面的成本年降幅 30%,而能效年提升率達 40%。開放權重模型也在縮小與閉源模型的差距,部分基準測試中,性能差距在一年內就從 8% 縮小到僅 1.7%。多重趨勢共同作用下先進 AI 的門檻正在迅速降低。”

隨著模型持續演進引發需求及 token 量級增加,企業必須擴展其加速計算資源,以提供下一代 AI 邏輯推理工具,否則將面臨成本和能耗增加的風險。

以下是推理經濟學概念的入門指南,幫助企業可以建立戰略定位,實現高效、高性價比且可盈利的大規模 AI 解決方案。

AI 推理經濟學的關鍵術語

了解推理經濟學的關鍵術語是理解其重要性的基礎。

詞元 (Token) 是 AI 模型中的基本數據單位,源自訓練過程中的文本、圖像、音頻片段和視頻等數據。通過 token 化 (tokenization) 過程,原始數據被解構成最小語義單元。在訓練過程中,模型會學習標記 token 之間的關系,從而執行推理并生成準確、相關的輸出。

吞吐量 (Throughput) 指的是模型在單位時間內輸出的 token 量,其本身是運行模型基礎架構的一個函數。吞吐量通常以 token/每秒為單位,吞吐量越高,意味著基礎架構的回報越高。

延遲 (Latency) 是指從輸入提示到模型開始響應所需的時間。較低的延遲意味著更快的響應。衡量延遲的兩種主要方法包括:

  • 首 token 時延 (Time to First Token, TTFT):用戶輸入提示后,模型生成第一個輸出 token 所需的時間。

  • 首 token 后,每個輸出 token 的時延 (Time per Output Token, TPOT):連續 token 之間的平均輸出時間,也可以理解為,模型為每個用戶的查詢請求生成一個完整輸出 token 所需要的時間。它也被稱為“token 間延遲”或“token 到 token 延遲”。

TTFT 和 TPOT 固然是重要的基準參數,但它們只是眾多計算公式中的兩個部分,只關注這兩項指標仍可能導致性能衰減或成本超支。

為了考慮其他相互依賴的因素,IT 領導者開始衡量“有效吞吐量 (goodput)”,即在維持目標 TTFT 和 TPOT 水平的前提下,系統實際達成的有效吞吐量。這一指標使企業能夠以更全面的方式評估性能,保持吞吐量、延遲和成本的最優配置,確保運營效率和優秀的用戶體驗。

能效是衡量 AI 系統將電能轉化為計算輸出效率的指標,以每瓦特性能來表示。通過使用加速計算平臺,組織可以在降低能耗的同時,最大化每瓦特的 token 處理量。

擴展定律 (Scaling Law) 如何應用于推理成本

理解推理經濟學的核心在于掌握 AI 的三大擴展定律:

- 預訓練擴展 (Pretraining scaling):最初的擴展定律表明,通過提升訓練數據集規模、模型參數數量以及增加計算資源,能夠實現模型智能水平和準確率的可預測性提升。

- 后訓練 (Post-training):對模型的準確性和領域專業性進行微調,以便將其用于應用開發。可以使用檢索增強生成 (RAG) 等技術從企業數據庫返回更相關的答案。

- 測試時擴展 (Test-time scaling,又稱“長思考”或“邏輯推理”):在推理過程中,模型會分配額外的計算資源,以評估多種可能的結果,然后得出最佳答案。

雖然 AI 在不斷發展,后訓練和測試時擴展技術也在持續迭代,但這并不意味著預訓練即將消失,它仍然是擴展模型的重要方法。要支持后訓練和測試時擴展,仍需要進行預訓練。

可盈利的 AI 需要全棧方案

相較于只經過預訓練和后訓練的模型推理,采用測試時擴展的模型會生成多個 token 來解決復雜問題。這雖然可以顯著提升準確性和模型輸出的相關性,但計算成本也會更高。

更智能的 AI 意味著生成更多 token 來解決問題,而優質的用戶體驗意味著盡可能快地生成這些 token。AI 模型越智能、越快速,對公司和客戶的實用性就越大。

企業需要擴展其加速計算資源,構建能支持復雜問題求解、代碼生成和多步驟規劃的下一代 AI 邏輯推理工具,同時避免成本激增。

這需要先進的硬件和全面優化的軟件棧。NVIDIA AI 工廠產品路線圖旨在滿足計算需求,幫助解決復雜的推理問題,同時實現更高的效率。

AI 工廠集成了高性能 AI 基礎設施、高速網絡和經優化的軟件,可大規模生產智能。這些組件設計靈活、可編程,使企業能夠優先關注對其模型或推理需求更關鍵的領域。

為了進一步簡化在部署大規模 AI 邏輯推理模型時的操作,AI 工廠在高性能、低延遲的推理管理系統上運行,確保以盡可能低的成本滿足 AI 邏輯推理所需的速度和吞吐量,從而最大化提升 token 收入。

了解更多信息,請閱讀電子書:《AI 推理:平衡成本、延遲與性能》

https://www.nvidia.cn/solutions/ai/inference/balancing-cost-latency-and-performance-ebook/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
詹姆斯建議將比賽從48分鐘縮到40分鐘,引入FIBA干擾球規則

詹姆斯建議將比賽從48分鐘縮到40分鐘,引入FIBA干擾球規則

雷速體育
2025-06-20 10:12:12
新華社快訊:據伊朗邁赫爾通訊社20日報道,德黑蘭市中心防空系統啟動

新華社快訊:據伊朗邁赫爾通訊社20日報道,德黑蘭市中心防空系統啟動

新華社
2025-06-20 15:14:48
WTT球星賽連爆大冷!錢天一、張本智和一輪游,國乒2項全軍覆沒

WTT球星賽連爆大冷!錢天一、張本智和一輪游,國乒2項全軍覆沒

知軒體育
2025-06-20 11:20:11
27歲女博士確診HIV陽性,被傳染的途徑讓人無法接受!

27歲女博士確診HIV陽性,被傳染的途徑讓人無法接受!

人間頌
2025-06-20 13:15:35
今晚19點,WTA震撼對決:王欣瑜沖擊四強;薩巴倫卡或遭爆冷

今晚19點,WTA震撼對決:王欣瑜沖擊四強;薩巴倫卡或遭爆冷

大秦壁虎白話體育
2025-06-20 09:21:27
帶傷23分鐘14+5:哈利魔法重現拖入搶七 場下小腿仍在冰敷太堅韌

帶傷23分鐘14+5:哈利魔法重現拖入搶七 場下小腿仍在冰敷太堅韌

顏小白的籃球夢
2025-06-20 11:08:17
這4種面相是天生的"災星相",遇到要當心!

這4種面相是天生的"災星相",遇到要當心!

山九觀主
2025-06-20 13:00:03
搶七門票最低7600元!一場夠NBA賺上億,難怪總裁蕭華攤牌不裝了

搶七門票最低7600元!一場夠NBA賺上億,難怪總裁蕭華攤牌不裝了

嘴炮體壇
2025-06-20 12:29:04
毛新宇評價楊開慧、賀子珍、江青,言簡意賅,非常精準

毛新宇評價楊開慧、賀子珍、江青,言簡意賅,非常精準

【歷史客棧】
2023-06-21 16:30:23
伊朗警告第三方勢力不得介入,內塔尼亞胡放狠話:不謀求伊朗政權更迭,但不排除可能性

伊朗警告第三方勢力不得介入,內塔尼亞胡放狠話:不謀求伊朗政權更迭,但不排除可能性

紅星新聞
2025-06-20 11:36:22
業界頂流—leah gotti

業界頂流—leah gotti

吃瓜黨二號頭目
2025-06-20 10:17:26
重磅!威馬被收購!

重磅!威馬被收購!

電動知家
2025-06-20 10:16:51
凌晨三點的德黑蘭:內鬼偷改密碼,一場戰爭真相被揭開!為誰而戰

凌晨三點的德黑蘭:內鬼偷改密碼,一場戰爭真相被揭開!為誰而戰

剛哥說法365
2025-06-19 15:16:16
“館長”陳之漢若站臺反罷免,郭正亮:將牽動年輕人流量吸引選票

“館長”陳之漢若站臺反罷免,郭正亮:將牽動年輕人流量吸引選票

海峽導報社
2025-06-19 15:23:10
內塔尼亞胡:波斯帝王曾拯救以色列,現輪到以色列人拯救波斯人了

內塔尼亞胡:波斯帝王曾拯救以色列,現輪到以色列人拯救波斯人了

通往遠方的路
2025-06-19 09:23:22
餐館無償為拾荒老人提供8年午餐,店快倒閉時,老人搬來一個箱子

餐館無償為拾荒老人提供8年午餐,店快倒閉時,老人搬來一個箱子

五元講堂
2025-06-18 15:02:24
明助“臺獨”,不許兩岸統一?中方抓到大魚,這次被徹底激怒了!

明助“臺獨”,不許兩岸統一?中方抓到大魚,這次被徹底激怒了!

熒惑手心
2025-06-20 09:18:41
鄰居經常不打招呼用我充電樁,我偷偷將功率調最大,第二天他傻眼

鄰居經常不打招呼用我充電樁,我偷偷將功率調最大,第二天他傻眼

白云故事
2025-06-18 06:35:07
特朗普威脅出兵,不到24小時,中方亮明態度,伊朗拒絕任何談判

特朗普威脅出兵,不到24小時,中方亮明態度,伊朗拒絕任何談判

掌青說歷史
2025-06-19 15:43:47
因被不喜歡的專業錄取,河南一考生考上北大僅上一節課退學,一年后考上清華

因被不喜歡的專業錄取,河南一考生考上北大僅上一節課退學,一年后考上清華

瀟湘晨報
2025-06-20 11:16:40
2025-06-20 16:36:49
NVIDIA英偉達中國 incentive-icons
NVIDIA英偉達中國
英偉達(中國)官方賬號
3098文章數 1379關注度
往期回顧 全部

科技要聞

余承東:HarmonyOS 6啟動開發者Beta

頭條要聞

伊朗10名核科學家被"特殊武器"暗殺 以高官披露細節

頭條要聞

伊朗10名核科學家被"特殊武器"暗殺 以高官披露細節

體育要聞

印城最穩之人!西卡雙手隔扣杰威霸氣側漏

娛樂要聞

“小鞏俐”周顯欣,如今49歲模樣大變

財經要聞

寶能汽車接盤威馬?“正交接資產”

汽車要聞

五項訂車禮/四款車型 一汽奧迪A5L正式開啟預售

態度原創

時尚
本地
手機
旅游
親子

等你到了50歲,夏季穿衣服牢記這3個原則,輕松告別油膩感

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

手機要聞

最薄頂配都是基本功 AI智能體才是榮耀Magic V5的核心競爭力

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

懷孕就要放棄喜愛的美食嗎

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 江山市| 宁远县| 广宁县| 永泰县| 连山| 清镇市| 襄汾县| 梓潼县| 上林县| 榆中县| 右玉县| 绍兴县| 内江市| 邻水| 两当县| 长子县| 明光市| 卫辉市| 武穴市| 江北区| 灵寿县| 海城市| 大安市| 绥芬河市| 深圳市| 松潘县| 万州区| 新民市| 和龙市| 土默特右旗| 海盐县| 昌黎县| 澜沧| 皋兰县| 南丰县| 芦溪县| 青冈县| 满城县| 渝中区| 古田县| 桦甸市|