7月2日晚,榮耀在深圳發布了最新一代的折疊屏旗艦——Magic V5,售價8999元起,將輕薄卷到新的高度,大電池、旗艦影像和芯片一個沒落下,8大“一語AI”特性和7大AI生態,號稱“地表最強”。
但在超輕薄、高配置和一系列AI能力的升級后,這次Magic V5發布會上還有一個沒有提到的“AI大殺器”。
(圖片來自榮耀)
在上海MWC舉辦期間,榮耀手機就釋放了Magic V5的最后一個賣點——AI。
他們完成了全球首個端側語音大模型部署,由Magic V5海外版首發。如此一來,用戶可以在沒有聯網的情況下,用語音和榮耀的AI助手自然交互,支持完全本地的可自動適配語言的實時翻譯,以及完全不聯網的AI語音交互。
(圖片來自微博)
智能手機AI大戰,誰都希望是站在前面的那一個。榮耀也不例外,MagicOS 9.0帶來了迭代后的30億參數端側大語言模型Nano ROM,比上一代的70億參數大語言模型,ROM占用減少1.8GB、RAM占用減少1.6GB,加載速度提升77%。
最新發布的Magic V5上,AI智能體又一次進化,支持8種一語AI功能,想要手機干什么,動動嘴巴就行。
之所以要說榮耀的端側平臺級大語言模型,因為這是完全在機內靠本地算力的大語言模型。畢竟,受限于手機性能和存儲/內存,多數AI功能的計算都必須聯網完成,來確保AI的穩定性和最終效果,端云協同是目前AI手機最主流的方案,沒了網絡,AI“缺胳膊少腿”還真不是開玩笑的。榮耀實現了全球首個端側語音大模型的部署,也算是重大突破——可惜的是,這一功能將在海外市場首發,因此榮耀這次發布會并沒有提到相關的能力,但不妨礙我們去討論端側語音大模型的未來。
沒網也能用AI,榮耀在玩一種很新的東西
實際上,如今的AI手機,里面都配備了多個大大小小的端側模型。
以榮耀為例,其自研的“魔法大模型”家族里,包含了圖像大模型、大語言模型、多模態模型和語音大模型。不同的大模型有對應的專項能力,也具有多種參數規模,用于支持不同系列的智能終端。就像榮耀的“大王影像”,也是通過大模型來優化圖片的,OPPO也在超遠焦段運用了AI大模型來提升數碼變焦的圖片質量。
但其中,大語言模型依賴龐大的參數規模,在手機上的端側部署,模型精度和生成速度難以兼顧,一般會采用端云協同的方式在手機上部署,OPPO的AndesGPT、華為的盤古大模型、小米第二代大語言模型MiLM2等主流廠商的大語言模型,都采用了端云協同的方式,保證精度、響應、安全性。
(圖片來自榮耀)
不同于大語言模型,語音大模型的參數規模遠低于大語言模型,一般來說,大語言模型的參數在千億級別,厲害一點的有萬億參數,而語音模型的參數量往往只有百萬和千萬級,體積和目前主流的手機App相當。
語音大模型和大語言模型雖然都涉及自然語言處理,但本質上是兩類聚焦不同任務的AI模型,前者的核心價值在于處理語音信號和文本轉換,以及優化語音交互的流暢性。
從應用場景上,語音大模型和大語言模型屬于協作關系,前者分析用戶的語音信號,轉換為文字之后交給大語言模型理解并生成文字回饋,再通過語音大模型轉為語音反饋給用戶,這就是完整的“語音交互流程”。也就是說,如果手機沒有集成大參數的端側大模型,即便有端側語音大模型,也很難做到理想的離線語音交互、智能實時翻譯功能。
(圖片來自雷科技攝制)
業內做離線端側AI語音交互和離線實時本地翻譯的手機品牌,目前基本上只有榮耀一家,結合榮耀自家的YOYO智能體,甚至能夠支持離線狀態下的自動執行,要不然也不拿“全球首個語音大模型端側部署”來宣傳。
離線AI交互是好主意,但不一定是好方向?
前面也提到,手機廠商為了平衡AI大模型的計算功耗、安全性和生成效果,大多數都會采用端側小模型+云端大模型協同工作的方案。這種方案對手機運算壓力小,也可以借助云端計算,讓大模型提供更精確的生成結果。
只是很多人都沒有想到無網絡等極端環境下使用AI功能,雷科技試過在戶外評測手機AI助手時,因為沒有連接網絡,手機的AI助手除了只會回應“請連接網絡”外,什么都干不了。
這么看,榮耀讓機圈看到了AI手機步入離線運算時代的希望,在一些沒有網絡或信號不佳的極端環境下,手機的AI功能也不至于“罷工”。另外,設備端大模型還有兩大優勢就是安全和響應快。
我還是要先潑一盆冷水,從科技平權的角度來看,完全離線運行的AI功能,短期內都不太可能在低端的機器上見到。本地運算高度依賴硬件,智能手機的性能參差不齊,適配難度相當高,過分壓縮大模型規模也會導致生成精度嚴重損失,硬上語音大模型意義并不大。
(圖片來自榮耀)
這也是為什么榮耀選擇率先在配備高通驍龍8至尊版芯片的Magic V5上首發,如果在一些次旗艦芯片甚至是中低端芯片上適配大語言模型,它很可能理解不到各個地方的口音、模糊音、連讀等刁鉆的特殊語言,導致語音大模型發揮不出作用,廠商好心設計的功能變成了“痛點”。
雷科技曾經嘗試過將DeepSeek 1.5B(15億參數)的本地大模型下載到一臺配備高通驍龍8至尊版芯片+16GB運行內存的手機上運行,結果就是它的表現還行,AI推理和生成速度比較不錯,甚至不比一些筆記本電腦弱。
換個角度看,高通驍龍8至尊版+16GB這種配置的手機,基本上都是旗艦級別的產品,或者是主打高性能的中高端手機,才能獲得一個相對不錯的AI推理和生成體驗。低端手機的AI算力目前幾乎為0,所以絕大部分AI功能只能在云端處理,沒有網絡基本“報廢”。
這還沒算上大模型的規模和質量,比如15億參數的DeepSeek在手機里也就只能說“能跑起來”,但生成出來的答案只能說難堪大用。不排除手機廠商通過一系列優化和壓縮后的端側大語言模型會有更好表現的可能,只能說再好也有限。
在手機性能這種剛性約束之下,完全本地計算的端側大語言模型和語音模型會面臨功耗與精度的“兩難抉擇”,一個理解能力有限,另一個就是,面對多變的使用環境(安靜房間、嘈雜戶外、遠距離對話等),云端大模型可以靠大量數據進行約束提高生成精度,但這種高度壓縮之后的端側大模型能做到什么效果,這還真的不好說。
(圖片來自榮耀)
這種不足可能會被AI算力更高的手機芯片抹去,這兩年手機芯片的NPU性能的提升是肉眼可見,然而核心問題依舊會存在:制程工藝帶來的紅利消退,能效提升的邊際效應愈發明顯,性能越強,功耗大概也會越高,要么就是端側大模型精度和功耗的難兩全。
并不是說榮耀首發端側語音大模型部署給消費者徒增痛點,敢為人先值得肯定,而且AI實時翻譯對于部分有跨國合作需求的商務人士而言,屬于剛需場景,自然需要考慮到“沒網也能用”的可能性。
如果后續國內版也有推送,雷科技也會分享一下這個可以離線使用的端側語音大模型。
但我想說的,還是大模型本地運算的挑戰太多,本地大模型運算本身又帶有一些隨機屬性,完全離線的AI功能還是任重道遠,我們還是理性看待,不應期待過高。好的話,榮耀這一波部署可以影響手機AI功能往離線化發展。有了這樣的技術鋪墊,未來大概也會用于智能AR眼鏡的實時離線翻譯上,不好的話,它依舊會是應對小部分需求的“應急技術”。
寫在最后
如果說AI大模型決定了手機“智能體驗”的上限,那芯片則決定了它的下限。過去這些年,我們目睹了AI大模型的橫空出世,再到各行各業的快速滲透,最終逐漸成為市場不可或缺的“金字招牌”,雖然它現在還有不完美,但不能否認這就是智能終端的“版本答案”,無論是手機,還是其它智能穿戴產品。
條件允許的話,完全離線的端側大模型計算會成為高端旗艦的一個差異化屬性,你要讓雷科技評價的話,它會是一個和衛星通訊一樣,用一次就“值回票價”的功能,因為誰都無法預料到一個剛好沒網但又需要用到AI功能的時候。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.