白交 衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
蘋果放鴿子的更新,國產AI率先實現了。
背上一個看起來平平無奇、體積也沒什么存在感的包,宇樹機器人就聲情并茂地開口說話。
社交i人戴上AI眼鏡,就可以輕松跟外國人social,看似不經意就加上微信好友;戴著它看展的話,看到不懂的展品還可以不懂裝懂一下(bushi。
你對智能硬件的想象,是不是還停留在“能聽懂你說話”的階段?這種“你說一句、它答一句”的交互,本質上還是命令式的、靜態的。場景一變化,語氣一模糊,體驗就崩了。
但現在,這些都開始變了。萬物皆可交互,萬物皆可互聯開始具象化。
你甚至可以讓巴斯光年、變形金剛在你面前唱歌跳舞。
手里的一支簽字筆、一塊貼牌,也可以化身會議神器。
在科大訊飛最新發布會上,我看到了智能硬件的新范式:
設備不再是限制,產品與服務正在被AI革新,交互重構整個硬件產業生態。
AIUI,一站式搞定人機交互開發
正如此次發布會所展現,一個最大的感知就是現在智能硬件從基礎交互邁向深度智能協作,從而在應用場景里深度賦能。
從技術角度來說,人機交互正在變成一個復雜的系統性工程,而不再是語音識別、模型系統和語音合成的簡單組合。
這背后源于AI普及之后用戶越來越高的期待。訊飛這邊給了幾個發現:
- 單次對話輪數不斷提升,用戶對話自由度越來越高;
- 在不同場景下,由大模型引領日交互頻次實現飛躍,尤其是兒童、家庭、機器人場景交互數據飆升。
傳統交互可能局限在“你說一句、它答一句”的固定回答上面;但現在大模型升級,萬物皆可成為載體,智能交互所承載起的需求遠比以往復雜得多,也豐富得多。
可以說,它集成了工具屬性、娛樂屬性以及情感表達于一體,相當于它不僅有全知全能的智商,還有懂你知你的情商,這就有點像“我要你做什么,但你不能只做什么”。
當然,這就對技術側提出了很高的挑戰,包括但不限于自然多輪對話的理解處理、情緒識別與共鳴、長程記憶、快速響應等等。
那么深耕了十年的訊飛如何應對呢?語音,是他們解決的抓手,也是此次AIUI升級的重點。
AIUI——訊飛的人機交互平臺,早在2015年就已經上線,目前已累計服務超10億設備,在車載、AI硬件、機器人等領域都有落地。
此次升級,正如在會場上所看到的,每一臺AI設備都能擬人自然對話,每個場景都能智能響應——
背后是技術突破、場景深耕到生態開放都全面Level-Up。
技術突破方面,訊飛認為,全雙工交互模式及情緒的感知和表達是擬人交互的基礎要求。
全雙工模式下“有所聞,有所不聞”。AIUI不僅能夠有效識別噪聲和無關人聲,更重要的是,它能夠在用戶有遲疑、等待、附和時主動延長拾音。
以前語音助手可能你還沒說完它就搶答,或者你說完它反應慢半拍。現在它能更聰明地判斷你是在思考停頓、在附和、還是在猶豫,不會亂打斷你,也不會讓你干等著,對話節奏更舒服了。
而且它不光聽懂你說什么詞,還能從你說話的語調、聲音里感覺出你是高興、沮喪還是煩躁。
基于千萬高質量高情商對話數據訓練,背后模型——星火交互大模型“共情能力”升級,成為能回應你喜怒哀樂的智能伙伴。
基礎要求滿足之后,但不懂你怎么行?!此次發布另一個值得說道的就是類人記憶系統。
基于長短時記憶融合架構,模擬人腦記憶方式,對對話記錄進行多層精準提取(上下文對話、用戶畫像、生活事件),慢慢形成專屬的聊天方式和知識庫,像是在陪伴你共同成長。
此外在交互響應上面也卷了一下,音頻端到端響應時間做到了1.6s,在業內量產語音交互系統中處于領先水平。
特別針對需求旺盛的兒童場景,訊飛首發兒童專屬交互方案。前面提到,大模型加持兒童場景的交互頻次飆升,733%的那種。
小孩說話常常天馬行空、表達不清,比如“我要那個會亮的星星”。科大訊飛專門訓練了童言識別模型和童語理解模型,提升對話場景下的識別率和正確理解率。
在內容生態、交互模式、心智健康等方面,訊飛都做了相應的優化。
例如,孩子說 “我想看恐龍”,設備不僅播放科普視頻,還會引導孩子用英語描述恐龍特征。這就是結合AI早教場景化學習提供趣味互動 。
除此之外,其他硬件場景下,在AIUI加持下也正在實現從功能實現到體驗重構。
比如智能眼鏡。即便是在發布會這樣的嘈雜環境中,基于三麥陣列降噪技術,設備能精準區分佩戴者與他人聲音,實現“一對一私密對話”。
當然這些場景的賦能還只是開始,要實現產業的賦能還得需要生態。
對于從來不缺開發者生態的訊飛來說,自然同樣要發揮好原有的優勢。AIUI將聯合30萬+開發者共建AI硬件解決方案,深度打磨軟硬結合的交互效果。
董事長劉慶峰曾說過,語音將成為萬物互聯時代的主要交互方式。
如果說AIUI給硬件提供了豐富的感知和表達能力,那么還需要“大腦”賦予它思考的能力,從而實現從感知-理解到行動的閉環。
科大訊飛給出的答案是機器人超腦平臺。
背上就說話!智能語音背包讓“沉默”機器人開口
其實早在2022年,科大訊飛就發布了訊飛機器人超腦平臺;隨著大模型技術爆發,訊飛迅速將星火大模型與超腦平臺深度融合。
現在的機器人超腦平臺以科大訊飛超腦2030技術底座,基于訊飛星火獨有的兩層1+N認知大模型體系構建交互大腦,大幅提升多輪對話、語義理解、知識應用、共情閑聊和行業知識構建效果。
超腦平臺要求機器人能聽會說、能理解會行動,而多模態交互正是實現“能聽會說”的核心技術模塊。
一方面,平臺在端側提供了視聽融合的感知交互解決方案。
通過整合視聽融合感知(語音+唇形+人臉追蹤)、多模態降噪、多人語音分離等技術,來構建機器人的感官系統。
如多模態降噪方面,訊飛機器人超腦平臺采用麥克風陣列窄波束算法,將限定拾音角度從傳統算法的60°降低到30°,明顯提升機器人設備麥克風陣列兩側噪聲抑制的效果。
即便在嘈雜環境下,機器人的語音識別率也從83%提升至96%。
另一方面,平臺在云端構建以大模型為核心的機器人大腦,同時還在工程化上做了諸多優化。
云端大模型簡化輸出內容,避免傳統機器人應答冗長問題,音頻端到端響應時間1.6s。實現超擬人TTS合成,還把TTS的首響時間控制在200毫秒以內。
目前,訊飛機器人超腦平臺的產品已經在多款機器人產品上集成和應用。
比如在永達4S店迎賓的智元遠征A2人形機器人,就集成了平臺的多模態交互,不僅實現對顧客的主動感知、主動迎賓,還會結合專業汽車知識庫提供車型參數問詢、促銷活動講解。
此外,這樣強大的多模態語音交互,還被北京“天工”、上海“朱雀”、浙江“領航者2號”等多款人形機器人廣泛使用。
值得一提的是,為了解決機器人行業面臨的 “碎片化需求”與“規模化落地”之間的矛盾,訊飛機器人超腦平臺采用模塊化設計。
具體而言,平臺打造了軟硬件一體的套件方案,快速提升交付能力。
發布會上,訊飛機器人超腦平臺還帶來了一個新產品:智能語音背包。
它的存在是為了破解存量機器人缺乏語音交互能力的痛點。
所有機器人無需硬件重構,把智能語音背包在背上一背就能賦予機器人開口對話的能力,即插即用。
合作伙伴宇樹G1背著它的“小背包”就上臺了:
背上智能語音背包,G1秒變段子手。
不僅在現場和科大訊飛產品經理幽默互動,還能為自己剛在深圳學的太極拳來一套程序員喜聞樂見的動作解釋:
- 這招叫Wifi滿格!接著是代碼運行順暢——最后系統永不宕機!
(猜猜下圖這招叫啥?)
目前,就有超500家機器人客戶選擇了訊飛機器人超腦平臺,種類包括人形機器人、四足機器人、輪式機器人等,推動機器人從實驗室走向商場、醫院、4S店等真實場景。
訊飛堅信,隨著機器人服務現實世界的能力進化,在未來,遙控器、屏幕等人機交互的中間介質都會被逐步替代,人機直接互動才是服務過程中的剛需。
AI交互不是終點
圍繞智能交互這一點,發布會現場還揭曉了包含開發者生態、智能硬件(如AI眼鏡)、數字人、大模型Agent在內的不少干貨,不時引得觀眾掌聲雷動。
數字人一直是科大訊飛的拿手好戲,此次發布會上依舊格外出彩。
會上提到,對比前一年,2024年全年科大訊飛的數字人制作量提升了16%,用戶和數字人每天的交互次數增長了6.5倍。
據統計,AI虛擬人交互平臺已成功構建超10萬數字分身,廣泛應用于媒體、教育、政企、文旅等場景,在金融、媒體、教育等領域市場占有率都達到了第一。
現場還展示了科大訊飛面向個人用戶提供的輕量化定制方案——現在,一句話和一張照片就能快速構建一個人的數字人分身。
新產品移動數字人小雨也在發布會現場亮相。
它搭載導航和路線規劃功能,可在展廳、博物館等場景自由移動,提供導覽服務。
一個有意思的事情是,科大訊飛注意到在大模型時代來臨前,人機交互最高頻的使用場景是電視和車載;大模型時代來臨后,兒童領域對話需求非常強烈,交互速度增長了7倍以上,成為交互最高頻的場景。
一個有意思的事情是,發布會場內,科大訊飛在兒童這一高頻場景做了體驗升維:
發布會現場外,5名父親利用科大訊飛兒童專屬的功耗玩具開發套件,在60分鐘時間內,挑戰開發板的“童芯大腦”。
“技術-場景-生態”閉環在這里交織,這其實也是科大訊飛一直以來踐行的技術創新之道。
另外,這次挑戰也是科大訊飛今年開發者大賽的一部分——發布會現場,訊飛iFYTEK AI開發者大賽同場起航。
本屆賽事覆36道應用賽與72道算法賽,特設智能座艙交互評測、多模態虛擬人對話等前沿賽道,以開放的生態與前沿的賽題,推動人工智能新生代的成長。
從2018年起,科大訊飛每年持續發起并舉辦開發者大賽,如今這項賽事已經成為一個全球性的人工智能競賽平臺,來自全球各地的人工智能產業的專業人才積極參與,共同推動人工智能前沿科學的研究和創新成果的實際轉化。
15年前,科大訊飛發布行業首個語音云,至此拉開了語音交互的帷幕。
5年后的2015年,科大訊飛又發布了首個人機交互界面AIUI,讓智能硬件進入了語音交互時代。
2021年有了虛擬數字人,2022年有了機器人超腦平臺,2023年有了訊飛星火大模型……2010年至今,科大訊飛的交互技術不斷突破。
而剛剛結束的這場發布會雖然是一場面向智能交互產品的發布會,但它講述的故事,遠不止功能更強和設備更聰明這么簡單。
最直觀的感受是它讓外界更清晰地看到,在科大訊飛這里,智能交互正實現從單向指令到深度協同的轉變:
它展示出的遠非科大訊飛某一項功能/工具的單一產品升級,而是以AI交互為中樞、貫穿硬件研發到場景落地的全鏈技術方案。
人機關系的重塑不再僅僅是“命令-執行”,而是逐步向共同完成目標過渡。交互體驗提升不再是某個模塊的升級,而是系統智能協作的開始。
你也可以理解為產品與服務在向更便捷、更高效、更智慧的方向演進。
這種變化不僅服務于訊飛自有產品,實現產品體驗的躍升,更以平臺方式賦能合作伙伴,直擊廣電、家庭、醫療、辦公等諸多具體場景的核心痛點,讓產業升級落到實處。
總之,讓技術真正轉化為解決問題的生產力。
人機協作的下一站,不再只是“能溝通”,而是“能共事”,甚至“替你想”。
一個更聰明、更協作、更具生命力的智能世界,正從科大訊飛這場發布會開始,加速走進現實。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.