新智元報道
編輯:編輯部
【新智元導讀】就在剛剛,這家國產黑馬首創的非Transformer架構大模型,再次重磅更新!訓練效率遠超Transformer架構,在WAIC上直接引起了火爆圍觀。現在,端側智能的iPhone時刻真正來臨了。
就在剛剛,WAIC世界人工智能大會上,國產黑馬RockAI又給我們帶來滿滿的驚喜。
全新版本的大模型Yan 2.0 Preview正式亮相了!
現學現記,猜猜我們喜歡的飲料是哪瓶?
它不僅可以在靈巧手、機器狗、PC、平板等多個終端上應用了,還是無損部署的。
由此展現出的模型自主學習能力和多模態能力,都讓人為之驚嘆。
原生記憶
一教就會,精準回答
比如下面這個機器狗,剛開始還不會和人打招呼。
為此,工作人員給機器狗親自演示,錄了一個視頻,比如這個動作,就叫打招呼。
看完視頻后,機器狗竟然就秒速學會了這個動作!
下一個指令,是讓它幫忙拿一瓶飲料。沒有學過的它,同樣不會做。
接下來,只要對著攝像頭向它展示——「這是我喜歡喝的飲料」,它就立馬學會了。
在兩瓶飲料中,它正確選出了指定的那瓶,表現實在驚艷。
甚至,下面這個會看、會聽、會想的靈巧手,既能自主玩游戲,還能聽懂人類指令,立刻在黃金礦工游戲中完成抓黃金和推箱子的任務。
注意,這個過程中不僅需要靈巧手極其精細地操作鍵盤,還需要它用「大腦」來完成思考,做出精準判斷。
令人驚喜的是,它非常準確地做到了!
這些能力,即便是OpenAI在內的大廠商目前都做還不到。足以見得,RockAI已經走在了行業的最前沿。
離線智能
真正的端側AI
為什么說,Yan架構大模型能夠實現100%的離線部署,成為真正的「端側AI」?
答案,就藏在它顛覆性的底層架構之中。
和目前絕大多數的模型不同,Yan2.0 Preview基于的是RockAI首創的非Transformer架構。
它不僅非常輕量而且性能強悍——僅憑3B的原生參數,便在多項關鍵測試超越了規模更大的Llama3 8B。
更重要的是,它的訓練效率遠超統治當今AI界的Transformer架構。
據悉,更大更強的40B模型已經在路上了!
而今,繼Yan 3B模型成功通過備案后,Yan 2.0 Preview版更是帶來了兩大突破性的能力飛躍。
第一點,就是它有了連續的視頻理解能力。
比如當人在機器狗面前做各種連續動作,它就可以原樣復刻,這部分歸功于模型的視頻能力。
Yan 1.3通過多模態擴展實現對圖像與音頻的理解和處理,而Yan 2.0 Preview進一步支持視頻模態,相當于補齊了多模態里的視頻的最后一環。
因此可以說,Yan 2.0做到了真正的多模態:一個模型不僅能處理文本,還能處理圖像、音頻和視頻,同時端到端生成文本和音頻。
第二點,就是在1.3的架構上,2.0創新性地引入基于神經網絡的記憶單元。
具體來說,在神經網絡參數層「內置記憶」,通過可微的記憶模塊來實現信息的存儲、檢索和遺忘。
Yan 2.0 Preview架構示意圖
如上圖所示,前向過程可分為記憶更新與記憶檢索兩個階段。
記憶更新是動態調節:前向過程中,既能通過門控式更新保留長期依賴,又能基于輸入分布特性靈活整合新知識。
不同于「上下文工程」等方案對記憶信息的顯性存儲,RockAI將有效信息隱式地記憶到多層神經網絡的權重,通過神經網絡的多層級抽象、非線性建模等能力,實現更優的記憶性能。
在原理上,這種記憶機制與其他記憶機制的差距,好比早期機器學習與深度學習的差距。
這種記憶機制,不像其他遠端的大模型通過RAG等形式加入前置數據庫。要知道,后者的記憶模式都是外置的,模型并沒有真正記住這些信息。
可以說,采用了特征狀態驅動的記憶機制方案的Yan 2.0 Preview,已經初步驗證——記憶網絡是有效的。
之所以加入記憶模塊,是因為要讓AI像人一樣邊說邊學,AI必須要有記憶。
在基于訓推同步的自主學習路線上,RocKAI邁出了堅實的一步。
這一點,無論是在靈巧手玩游戲時的多模態實時人機交互上,還是機器狗的訓推同步上,都淋漓盡致地體現了出來。
而在這個過程中,RockAI發現,他們并不孤獨:自己的路線,竟然跟硅谷大廠的探索所見略同。
無論是谷歌的Titan架構,還是Meta首席科學家LeCun都在強調——必須給模型引入記憶模塊,因為AI的學習能力≈記憶能力。
但不同的是,這一次,RockAI是先行者。
Yan 2.0 Preview不光探索了非注意力機制的記憶可能,還第一次實現了LLM記憶能力驗證。
接下來,我們就進入了下一個問題:非Transformer架構的創新,給Yan架構大模型帶來了什么?
真正在消費級硬件上跑通
因為架構層面的這種創新,Yan架構大模型就完全不需要依賴云端算力,可以在消費級硬件上跑通了。
因此,它可以直接賦予每個端側設備「靈魂」。
它不僅能在無人機、機器人、PC、手機等終端設備中絲滑適配,而且還能讓模型智能迎來全新升級。
因為無需閹割模型,端側設備就更加具備了完整性、可持續性。
而基于Transformer架構的模型,若想在端上運行、并自主學習,根本就不可行。
因為模型通常會被量化裁剪壓縮之后,才會植入端設備。而被閹割之后的模型,就不再具備學習能力。
但Yan架構大模型,就規避掉了這種短處。
在不同小型終端條件下,Yan架構大模型表現始終卓越。
在手機端,Yan架構大模型已廣泛適配高通、聯發科等芯片。Yan架構大模型可在CPU運行、零壓縮零裁剪、量化等,RAM只要8G,而且表現不俗。
在小米13上,每秒至少可輸出18 token;在紅米K50上,每秒至少可輸出12token;在T-phone上,每秒可輸7-8token。
在機器人端,Yan模型已廣泛適配Intel、樹莓派、英偉達等芯片。
只要8G內存,Intel i7 1255u上,Yan架構能讓機器人擁有看聽說想動的能力!
為什么要如此執著,將技術做到如此精細的程度呢?這背后,自然是源于他們對于「端側智能」一直以來堅定的信念——讓世界上每一臺設備都擁有自己的智能。
只有為每一臺設備安裝大腦,才能做到AI普惠,在三四五線城市,在老年人和小朋友都能用的情況下,端側設備才是真正普惠的應用場景。
說起來,RockAI是怎樣決定,不走Transformer這條主流路線的呢?背后的故事是這樣的。
非Transformer架構,他們走出了第一步
近些年來,學界和業界逐漸發現,大家好像被OpenAI帶偏了:注意力機制并非萬能,Transformer缺陷也很多,比如它的復雜度太高,算力需求驚人。
最早的質疑,來自OpenAI的Ilya:「如果互聯網公開數據耗盡,GPT預訓練如何繼續?」
另外,谷歌Gemini產品負責人Logan Kilpatrick在最近公開的未來路線圖中,就指出當前注意力的最大缺陷:
以當前注意力機制和上下文處理方式,是不可能實現無限上下文的。
我們需要在核心架構層面進行全面創新,才能實現這一目標。
同時,谷歌也一直在探索非自回歸模型Gemini Diffusion。
此外,CMU大牛Albert Gu在2023年就提出了Mamba架構,主張用狀態空間模型對序列建模。
最近,他更是痛斥Transformer模型能力上的局限性太大,所謂「token」就是胡扯。
在2024年,「vibe coding」之父Karpathy也列出了「tokenization」的數條罪狀。
可以說,在某些情況下,Transformer絕對不是首選,注意力機制更不是什么鐵律!
大模型原生記憶能力,意味著什么?
記憶,不再是外掛
在傳統的大模型架構中,知識和信息往往以外掛式方式調用。
無論是依賴RAG來補足知識,還是借助外部數據庫臨時存儲用戶數據或者搜索引擎,這類方案都更像是一種「拼接式智能」——強大但缺乏連續性。
而如今,RockAI正在將記憶能力「注入」模型本身。它不再是一個外掛模塊,而是模型的一部分,甚至是它的核心。
比如他們展示的那只機器狗,已經能在不斷交互中展現出對環境、人的偏好乃至過往經歷的「記憶」,表現的行為更像生命體,也意味著:AI開始真正「記住」你。
從交互到理解:個性化的躍遷
有了原生記憶,大模型就不再只是「下一次回答你問題」的工具,而開始成為理解你的人。
它能記住你喜歡什么樣的語言風格、你的偏好、你過去的決策習慣;甚至能在你沒有明說的時候,通過長期觀察為你做出更合適的建議。
原生記憶能力不僅讓AI變得更加「個性化」,也讓人機關系發生質的變化。
它不再是工具和操作者的關系,而更像是伙伴與合作者的互動。你不需要每次都從零開始,它會逐步成為你思維方式的延伸。
離線部署,隱私與速度的雙贏
更重要的是,這樣的「有記憶的大模型」并不依賴云端,而是實現了離線部署,所有記憶都發生在你的設備本地:更高的響應速度,更小的延遲,更強的數據安全。
在隱私日益重要的今天,大模型要想真正走進用戶的日常生活、深入個人決策層,必須在保護隱私的基礎上實現智能化。
而「端側+記憶」的模式,或許正是這條路的關鍵解法。
人類智能的底層機制,大模型也開始擁有
人類智能的演化,從來離不開記憶。沒有記憶,就無法理解上下文、無法學習經驗、無法形成個性。而現在,大模型也終于開始接近這一認知本質。
RockAI的創新之路在國內略顯「孤獨」,從非Transformer架構設計到終端的記憶能力,再到他們提出的通過群體智能邁向通用人工智能,似乎RockAI成為了創新的孤勇者。
孤獨的拓荒人,還是吃螃蟹第一人?
在采訪最后,新智元問了RockAI聯創一個放飛的問題:幾年后,未來的終端智能設備會發展出怎樣的新形態?
2007年,喬布斯站在臺上,掏出這部小小的手機,讓全世界都沸騰了。
自此,iPhone 4改變了人類對工具的使用、延展了人類感官。
但iPhone 4的誕生離不開四個條件:全新的觸控交互方式、ARM架構恰巧成熟、iOS操作系統,以及App Store帶來的應用生態大爆發。
現在的硅谷大廠,有的押注AI眼鏡,有的押注腦機接口,而Rock AI,押注的是芯片和操作系統。
他們判斷:AI時代的操作系統一定會出現AI模型層,讓設備更智能。
而能在離線設備上運行、功耗極低還是多模態的Yan大模型,就是他們的第一張王牌。
如果「打造AI時代操作系統」這個終極目標能實現,手機、平板、冰箱、電視,這些設備都將真正「長出腦子」。
環顧周圍,電子設備已經無處不在:從冰箱到電腦,全球設備總數遠遠大于全球總人口。
如果每個設備都裝上AI,市場該有多大?
如今,3B的RockAI多模態模型能覆蓋70%的場景。翻譯、會議紀要等常見功能,本地Yan架構大模型就能做到。
如今在行業的上下游,RockAI都有許多合作意愿強烈的伙伴,比如很多芯片廠商、音視頻廠商等。
下一個iPhone時刻,或許很快就會到來。假如每個設備都能離線運行AI,我們就將看到未來的圖景成真,達到真正的「萬物有靈」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.