99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

百元級硬件流暢運(yùn)行百億參數(shù)LLM!上交&本智激活開源端側(cè)原生LLM

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

AI的下一個(gè)戰(zhàn)場,不在云端,而在你的口袋里。

iPhone、華為、三星、小米、OPPO等各大手機(jī)廠商幾乎都在將大模型塞進(jìn)手機(jī),端側(cè)AI已然成為兵家必爭之地。

背后的邏輯清晰而堅(jiān)定:最懂你的AI,必須能安全地訪問你的個(gè)人數(shù)據(jù)——郵件、照片、日程,而這一切的前提,就是將計(jì)算留在本地,將隱私還給用戶

然而,想讓AI在本地流暢運(yùn)行,遠(yuǎn)比想象的要難得多。最好的證據(jù),莫過于財(cái)力雄厚、軟硬一體的蘋果,其雄心勃勃的Apple Intelligence計(jì)劃也未能如期而至,核心AI功能不得不推遲到明年。

這無疑向整個(gè)行業(yè)釋放了一個(gè)清晰的信號:端側(cè)AI,是一塊難啃的硬骨頭

正當(dāng)全球科技巨頭在端側(cè)AI的道路上艱難探索時(shí),一股產(chǎn)學(xué)研深度融合的新興力量,給出了獨(dú)有的解決路線。

今天,上海交通大學(xué)IPADS研究所、上海交通大學(xué)人工智能學(xué)院聯(lián)合初創(chuàng)公司本智激活(Zenergize AI),在HuggingFace開源了端側(cè)原生大模型SmallThinker

該系列模型采用為端側(cè)算力、內(nèi)存、存儲(chǔ)特性而原生設(shè)計(jì)的模型架構(gòu),并從零開始預(yù)訓(xùn)練,具體包含兩個(gè)尺寸的稀疏模型,分別是SmallThinker-4B-A0.6B和SmallThinker-21B-A3B,模型也已開源,鏈接如下。

  • https://huggingface.co/PowerInfer/SmallThinker-21BA3B-Instruct
  • https://huggingface.co/PowerInfer/SmallThinker-4BA0.6B-Instruct

其顯著特征,就是用端側(cè)CPU即可快速推理,不再依賴高端GPU
其中,4B模型在1GB峰值內(nèi)存下的推理速度達(dá)到驚人的19.41tokens/s。

而更令人矚目的是,21B旗艦稀疏模型,在一塊百元級的國產(chǎn)RK3588開發(fā)板上,實(shí)現(xiàn)了相較于同等能力的主流模型(Qwen-14B)高達(dá)21倍的推理加速,將同類解決方案遠(yuǎn)遠(yuǎn)甩在身后。

SmallThinker:端側(cè)原生大模型

主流大模型,從出生起就是為云端成千上萬TOPS算力、TB級顯存的GPU集群“量身定制”的。想把它們?nèi)M(jìn)算力、內(nèi)存等都不到云端5%的端側(cè)設(shè)備,傳統(tǒng)方法只有“壓縮”。

這就好比讓一個(gè)“博士生”模型,通過蒸餾、量化等手段,強(qiáng)行“降智”,最終變成一個(gè)只會(huì)簡單問答的“小學(xué)生”,犧牲了太多智能。

是否存在一種不做“模型降智”,而是一步到位的選擇?

為了實(shí)現(xiàn)這一目標(biāo),SmallThinker系列針對端側(cè)的弱算力、小內(nèi)存、慢存儲(chǔ),設(shè)計(jì)了創(chuàng)新的大模型架構(gòu),并從零開始預(yù)訓(xùn)練,實(shí)現(xiàn)了與端側(cè)硬件的“精巧匹配”。



具體來說,這一端側(cè)原生的大模型架構(gòu)主要擁有三大核心技術(shù)特性:

第一,端側(cè)算力原生的雙層稀疏架構(gòu),稀疏度提升5倍。

傳統(tǒng)的MoE(混合專家模型)只在專家層面是稀疏的。而SmallThinker在此基礎(chǔ)上,增加了專家內(nèi)部的神經(jīng)元稀疏

這就好比,模型不僅能精準(zhǔn)調(diào)用最相關(guān)的專家知識,還能只激活專家知識庫里最核心的部分,避免“復(fù)述全部所學(xué)”,對端側(cè)算力的要求大大降低。



第二,端側(cè)存儲(chǔ)原生的專家路由前置,顯著隱藏IO開銷。

在內(nèi)存資源受限的端側(cè),通常模型權(quán)重不能完全放置在內(nèi)存里,需要在推理過程中動(dòng)態(tài)從慢速存儲(chǔ)(比如SSD、UFS等)加載模型專家權(quán)重,而在這個(gè)過程中,端側(cè)的慢速I/O會(huì)嚴(yán)重影響推理速度。

傳統(tǒng)方案是算完注意力,再計(jì)算路由,最后排隊(duì)等待加載專家。

而SmallThinker在模型架構(gòu)中就原生提供了機(jī)制,幫助預(yù)判需要哪個(gè)專家,在進(jìn)行注意力計(jì)算的同時(shí),就去異步加載專家

做到了“邊檢查邊傳喚”,將I/O等待時(shí)間隱藏在注意力計(jì)算的過程中。



第三,端側(cè)內(nèi)存原生的混合稀疏注意力,KV緩存占用下降76%。

針對長文本場景,SmallThinker設(shè)計(jì)了“略讀”+“精讀”的混合注意力機(jī)制。它使用滑動(dòng)窗口注意力(Sliding Window)進(jìn)行高效的“略讀”,同時(shí)保留全局注意力的能力進(jìn)行“精讀”

兩種方式組合,在處理16K文本時(shí),相比傳統(tǒng)GQA機(jī)制,KV緩存占用降低76%,讓端側(cè)設(shè)備也能輕松處理長文檔



生態(tài)兼容性與極致性能:SmallThinker與PowerInfer的完美結(jié)合

一個(gè)真正優(yōu)秀的開源模型,不僅自身要強(qiáng)大,更要擁抱廣闊的開放生態(tài)。
SmallThinker模型系列在設(shè)計(jì)上充分考慮了開發(fā)者的使用習(xí)慣,能夠無縫兼容HuggingFace Transformers、vLLM、SGLang、llama.cpp、KTransformers等一系列主流推理框架

在硬件適配上,它實(shí)現(xiàn)了對英特爾、英偉達(dá)、高通等主流芯片,甚至已經(jīng)可以在國產(chǎn)鴻蒙操作系統(tǒng)上進(jìn)行推理。這種開箱即用的靈活性,極大地降低了開發(fā)者的使用門檻。

而要體驗(yàn)SmallThinker最極致的端側(cè)加速與內(nèi)存優(yōu)化效果,則需要使用團(tuán)隊(duì)為其量身打造的端側(cè)原生Infra——PowerInfer(https://github.com/SJTU-IPADS/PowerInfer/blob/main/smallthinker/README.md)。

PowerInfer是團(tuán)隊(duì)于2023年12月開源的業(yè)界首個(gè)稀疏大模型端側(cè)推理框架,發(fā)布后迅速獲得全球開發(fā)者的高度關(guān)注,目前GitHub星標(biāo)已達(dá)8.2K,并曾連續(xù)兩天蟬聯(lián)GitHub全球項(xiàng)目趨勢榜第一。

它能夠深度激活SmallThinker原創(chuàng)的雙層稀疏架構(gòu),在推理時(shí)只調(diào)用必要的專家及神經(jīng)元,并能在不影響推理速度的情況下降低內(nèi)存占用。

它就像是為SmallThinker這臺(tái)“F1賽車”專門打造的引擎,為開發(fā)者提供了一套從模型到部署、真正完整的全棧優(yōu)化解決方案。

SmallThinker模型智力與推理性能兼具

理論再好,也要看療效。SmallThinker團(tuán)隊(duì)交出的,是一份模型能力與端側(cè)推理性能兼?zhèn)涞拇鹁怼?/p>

為了真正實(shí)現(xiàn)“端側(cè)原生”,團(tuán)隊(duì)從零開始預(yù)訓(xùn)練,基于高質(zhì)量數(shù)據(jù)語料,訓(xùn)練了兩種規(guī)模的模型:

  • SmallThinker-4B-A0.6B:基于2.5T Tokens數(shù)據(jù)預(yù)訓(xùn)練,擁有40億參數(shù),激活6億參數(shù),主打極速響應(yīng)
  • SmallThinker-21B-A3B:基于7.5T Tokens數(shù)據(jù)預(yù)訓(xùn)練,擁有210億參數(shù),激活30億參數(shù),主打旗艦性能。它能夠在百元級RK3588上流暢部署,全內(nèi)存情況下的CPU推理速度也能達(dá)到10.84 tokens/s。

口說無憑,評測見真章。

在MMLU、GPQA等多個(gè)權(quán)威評測基準(zhǔn)上,SmallThinker的智力水平均超越了同尺寸甚至更大尺寸的開源模型,充分證明了其“原生”架構(gòu)設(shè)計(jì)的優(yōu)越性。



而在更關(guān)鍵的實(shí)際運(yùn)行性能上,當(dāng)SmallThinker與PowerInfer結(jié)合時(shí),其在內(nèi)存約束場景下的優(yōu)勢盡顯。團(tuán)隊(duì)在旗艦移動(dòng)平臺(tái)和個(gè)人電腦PC上,對業(yè)界主流模型進(jìn)行了正面硬剛。

場景一: 手機(jī)極限內(nèi)存瓶頸 (1GB RAM)

在主流手機(jī)上,SmallThinker-4B-A0.6B模型的Q4量化版本,在僅調(diào)用4個(gè)CPU核心的情況下,推理速度便高達(dá)79 tokens/s

而在對模型架構(gòu)與推理框架構(gòu)成終極考驗(yàn)的極限內(nèi)存瓶頸(1GB)場景下,SmallThinker的優(yōu)勢則體現(xiàn)得淋漓盡致4B模型依然跑出了19.91 tokens/s的流暢速度。

作為對比,Qwen3-1.7B模型速度僅為1.07 tokens/s,幾乎無法正常使用。

近19倍的性能差距,充分證明了SmallThinker在極端資源受限環(huán)境下的卓越運(yùn)行能力。這不僅是一次技術(shù)的勝利,更是將高端AI平民化的關(guān)鍵一步。

場景二: 主流PC配置(8GB RAM)

當(dāng)內(nèi)存放寬到旗艦PC的8GB時(shí),SmallThinker的架構(gòu)優(yōu)勢依然顯著。

SmallThinker-21B-A3B的4核CPU(Intel i9 14990K)推理速度達(dá)到20.30 tokens/s,而Qwen3-30B-A3B的4核CPU速度為10.11 tokens/s,加速比達(dá)到2倍。

未來展望:不止于此,通往端側(cè)原生智能

在這訓(xùn)練過程中,團(tuán)隊(duì)發(fā)現(xiàn);即使在如此龐大的數(shù)據(jù)投喂之后,模型的loss曲線仍在穩(wěn)步下降,仍未達(dá)到飽和

未來,團(tuán)隊(duì)會(huì)圍繞兩條路線演進(jìn)。

第一條路線,繼續(xù)Scaling:更大更強(qiáng)。

既然模型尚未“吃飽”,那么最直接的路徑就是——繼續(xù)投喂。

團(tuán)隊(duì)的下一步計(jì)劃,將繼續(xù)遵循被驗(yàn)證有效的Scaling Law,利用更多的高質(zhì)量Tokens進(jìn)行進(jìn)一步訓(xùn)練。進(jìn)一步壓榨模型潛力,在知識儲(chǔ)備、邏輯推理和代碼生成等核心能力上,將SmallThinker推向新的高度,打造出更強(qiáng)大的端側(cè)基礎(chǔ)模型。

第二條路線,打造“個(gè)人賈維斯”:從模型到可信賴的智能體。

如果說Scaling Law是讓模型變得更“博學(xué)”,那么團(tuán)隊(duì)的終極野心,則是打造一個(gè)真正屬于每個(gè)人的“賈維斯式”智能體。

這個(gè)智能體的獨(dú)特之處在于,它完全運(yùn)行在你的個(gè)人設(shè)備上,能夠安全、完整地理解你的全部數(shù)字生命——從郵件、日程,到聊天記錄和相冊。正是在這片獨(dú)一無二的私有數(shù)據(jù)土壤之上,才能生長出“千人千面”、真正懂你的可信賴AI。

相信未來,隨著端側(cè)原生AI能力的不斷進(jìn)步,未來的AI能力就會(huì)像今天的水和空氣一樣,主動(dòng)融入我們每個(gè)人的日常工作和生活,提供安全私密、成本低廉、充滿智慧的AI體驗(yàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
陶冬:日本加息牽扯全球資金流向

陶冬:日本加息牽扯全球資金流向

長平投研
2025-07-27 17:28:11
曝張碧晨版《年輪》多個(gè)國家變灰,此前宣稱享有全球永久演唱權(quán)利

曝張碧晨版《年輪》多個(gè)國家變灰,此前宣稱享有全球永久演唱權(quán)利

史行途
2025-07-27 12:53:11
2005年他用100只羊換前蘇聯(lián)廢棄雷達(dá)站,18年后他懵了

2005年他用100只羊換前蘇聯(lián)廢棄雷達(dá)站,18年后他懵了

燦爛夏天
2025-07-26 18:20:20
未來三天,上海等地有大到暴雨,單點(diǎn)特大暴雨!并可能伴有冰雹等強(qiáng)對流天氣

未來三天,上海等地有大到暴雨,單點(diǎn)特大暴雨!并可能伴有冰雹等強(qiáng)對流天氣

上海黃浦
2025-07-27 13:20:27
李連杰自稱進(jìn)入倒計(jì)時(shí),重提當(dāng)年港娛黑幕,要求利智日后低調(diào)行事

李連杰自稱進(jìn)入倒計(jì)時(shí),重提當(dāng)年港娛黑幕,要求利智日后低調(diào)行事

任紀(jì)煙
2025-05-27 07:07:14
乒超聯(lián)賽:穩(wěn)!樊振東3-1袁勵(lì)岑 鐵血一單穩(wěn)拿2分 達(dá)成乒超13連勝

乒超聯(lián)賽:穩(wěn)!樊振東3-1袁勵(lì)岑 鐵血一單穩(wěn)拿2分 達(dá)成乒超13連勝

睿智小鉆風(fēng)
2025-07-27 21:01:00
普京拒絕得很突然,特朗普來不成北京觀禮了?美毀就毀在“嘴賤”

普京拒絕得很突然,特朗普來不成北京觀禮了?美毀就毀在“嘴賤”

朗威游戲說
2025-07-26 18:37:17
新官上任三把火!烏克蘭新總理上任就出手,誓言要和俄羅斯打到底

新官上任三把火!烏克蘭新總理上任就出手,誓言要和俄羅斯打到底

歷史求知所
2025-07-26 11:00:08
佩通坦跌落?泰王一出手,全場跪了!這步棋下得太高明了

佩通坦跌落?泰王一出手,全場跪了!這步棋下得太高明了

匹夫來搞笑
2025-07-05 16:19:51
1971年周恩來帶來黃永勝等人,毛主席:你們已到了懸崖的邊沿了

1971年周恩來帶來黃永勝等人,毛主席:你們已到了懸崖的邊沿了

興衰五千年
2025-06-03 09:40:59
救人英雄宋士佳下葬,告別儀式曝光,母親哭成淚人,補(bǔ)貼細(xì)節(jié)公布

救人英雄宋士佳下葬,告別儀式曝光,母親哭成淚人,補(bǔ)貼細(xì)節(jié)公布

鋭娛之樂
2025-07-27 18:56:35
毛主席雖活了83歲,保健醫(yī)生卻說:其實(shí)毛主席不具備長壽條件

毛主席雖活了83歲,保健醫(yī)生卻說:其實(shí)毛主席不具備長壽條件

老謝談史
2025-06-25 19:08:07
除了商標(biāo)全是假的!全球科技先鋒隕落,百年巨頭淪為貼牌工廠

除了商標(biāo)全是假的!全球科技先鋒隕落,百年巨頭淪為貼牌工廠

聞識
2025-07-15 13:34:23
路都走不穩(wěn),全程開原音假唱,還想去鳥巢開演唱會(huì),誰給的自信?

路都走不穩(wěn),全程開原音假唱,還想去鳥巢開演唱會(huì),誰給的自信?

蒂蒂茱家
2025-07-26 11:01:31
微信最新公告:情節(jié)嚴(yán)重者永久封禁

微信最新公告:情節(jié)嚴(yán)重者永久封禁

人民政協(xié)網(wǎng)
2025-07-25 20:43:44
三伏天,這6種應(yīng)季水果別貪嘴,越吃濕氣越重,很多人還在天天吃

三伏天,這6種應(yīng)季水果別貪嘴,越吃濕氣越重,很多人還在天天吃

味谷的廚房
2025-07-27 20:32:18
此次北京強(qiáng)降雨為何在密云等北部地區(qū)大?

此次北京強(qiáng)降雨為何在密云等北部地區(qū)大?

環(huán)球網(wǎng)資訊
2025-07-27 19:05:06
狗血!剛加盟就被擠走!老詹或加入尼克斯!

狗血!剛加盟就被擠走!老詹或加入尼克斯!

柚子說球
2025-07-27 12:15:09
一女生去餐館打暑假工 講好月工資3000,誰料,發(fā)工資時(shí),她傻眼了

一女生去餐館打暑假工 講好月工資3000,誰料,發(fā)工資時(shí),她傻眼了

起喜電影
2025-07-27 18:56:58
青島海牛2-0天津津門虎,賽后評分:青島海牛6號排第一

青島海牛2-0天津津門虎,賽后評分:青島海牛6號排第一

側(cè)身凌空斬
2025-07-27 21:07:55
2025-07-27 21:51:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10944文章數(shù) 176197關(guān)注度
往期回顧 全部

科技要聞

77歲諾獎(jiǎng)得主,用15條句話把AI圈鎮(zhèn)住了!

頭條要聞

消息人士:釋永信7月25日前后被警方帶走

頭條要聞

消息人士:釋永信7月25日前后被警方帶走

體育要聞

約克雷斯身邊的男人,才是阿森納的最佳引援

娛樂要聞

X玖少年團(tuán)9成員現(xiàn)狀揭秘:2人成頂流

財(cái)經(jīng)要聞

陳文輝:為什么耐心資本這么重要?

汽車要聞

搭載華為乾崑智駕 一汽奧迪Q6L e-tron預(yù)售35.3萬起

態(tài)度原創(chuàng)

房產(chǎn)
教育
時(shí)尚
健康
親子

房產(chǎn)要聞

分?jǐn)?shù)線集體飆漲!海中867分!2025海南中招格局大變!

教育要聞

怎么又報(bào)了四年補(bǔ)習(xí)班啊

今年的褲子流行“穿一半”,太時(shí)髦了!

呼吸科專家破解呼吸道九大謠言!

親子要聞

都官宣了,我國將逐步推行免費(fèi)學(xué)前教育,家長為何還是高興不起來

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 饶河县| 翁牛特旗| 仪征市| 饶河县| 延津县| 乐亭县| 邳州市| 宝应县| 海阳市| 阆中市| 黄龙县| 前郭尔| 延津县| 徐州市| 马边| 娱乐| 宁蒗| 延安市| 喀什市| 波密县| 措勤县| 嘉鱼县| 乌兰县| 苗栗县| 安乡县| 安化县| 施甸县| 大英县| 东兴市| 泗水县| 建湖县| 特克斯县| 沾益县| 咸丰县| 柘荣县| 丰镇市| 额敏县| 南丹县| 利辛县| 邢台县| 赫章县|