人眨了一下眼—— 約 0.3 秒
大概是劉備眨眼的時間
東西從茶幾上落下—— 約 0.3 秒
大概是筷子落下的時間
為了嚴(yán)謹(jǐn),我真的去測算了
從 0.5 米處落下,到地面差不多 0.3s
然后,視線從鍵盤移到屏幕—— 0.3 秒,Z1 已刷屏了回答
也大概是 Z1-AirX 刷屏的時間
當(dāng)快到這個程度,人是反應(yīng)不過來的。
這,就是瞬時模型。
首款“瞬時模型”
0.3 秒,是神經(jīng)反射所需時間,也是人的「瞬間」
Z1-AirX 是首個國內(nèi)大模型廠商提供的“瞬時模型”,這里有兩個指標(biāo):
?在 0.3 秒內(nèi),完成首響應(yīng),相當(dāng)于一次神經(jīng)反射或眨眼的時間。
?在 0.3 秒內(nèi),能夠完成 50+ 個漢字生成,等效于一條完整回復(fù)、一段語音內(nèi)容,或一則朋友圈的長度。
? 非過度壓縮的極小模型(比如 1.5B)
于是,我們見證了一個改變:從“提出問題—等待回應(yīng)”的線性節(jié)奏,變成輸入與輸出同步發(fā)生的即時對話。
馬冬梅!速度改變一切
R1 vs Z1 速度對比
正常情況下,AI 的響應(yīng)時間通常在 1~3 秒之間,生成速度約為 20 tokens/s。這意味著,用戶在輸入結(jié)束后,會經(jīng)歷短暫的等待期,模型隨后才開始輸出。這種延遲在多輪交互中被頻繁放大,造成明顯的思維中斷。
而 Z1-AirX,改變了這種交互:
?延遲低于感知閾值。用戶在完成輸入的瞬間幾乎同步獲得反饋,交互節(jié)奏從“輸入后等待”轉(zhuǎn)變?yōu)椤拜斎爰错憫?yīng)”。
?生成即時顯現(xiàn)。輸出不再是可感知的“逐步生成”,而是直接呈現(xiàn)為完整段落,極大減少了等待中的認(rèn)知空白。
?對話節(jié)奏一致。語言回合之間無明顯停頓,避免語境斷裂。

??上面這個圖,是我去年測的(當(dāng)時air就遙遙領(lǐng)先):
另一角度,速度的變化擴(kuò)展了大模型的應(yīng)用范圍,在實(shí)時任務(wù)中尤其明顯:
?教育場景下,學(xué)生注意力有限。問答、批改與反饋等任務(wù)中,需要在學(xué)生注意力窗口期中給出響應(yīng):0.3 秒以內(nèi)的反饋,讓模型有了在課堂和練習(xí)中直接介入的可能。
?客服場景下,低延遲、告訴生成讓用戶感覺到“真實(shí)感”。在對話中保持低延遲和高吞吐,有助于穩(wěn)定交互節(jié)奏,避免因卡頓造成用戶退出或任務(wù)中斷。
?文案協(xié)作、腳本生成中,告訴讓人不被打斷。減少等待感,流暢撰寫。
?在 Agent 調(diào)用中,快速完成意圖識別、工具調(diào)用和結(jié)果聚合。讓 agent 走入工業(yè)成為可能。
這些場景下,以往以來特定模型或特殊優(yōu)化。而 Z1-AirX 帶來了另一種思路:只要速度夠快,就能跨越邊界。
現(xiàn)已可用
BigModel 首頁
Z1 今天已可以調(diào)用,通過智譜開放平臺bigmodel.cn有三個版本:
Z1-AirX(極速版)
速度達(dá) 200 tokens/s, 5 元 / M token
Z1-Air(高性價比版)
約 50 tokens/s , 0.5 元 / M token
Z1-Flash(免費(fèi)版)
稱 Z1-AirX 為“瞬時模型”,是因?yàn)樗黄屏恕按竽P捅仨毜却钡姆妒剑?AI 節(jié)奏真正接近人類。
可以期待,更多模型會跨越這條臨界線:真正的智能,不該讓人等待
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.