原創 科技新知 AI新科技組
作者丨茯神 編輯丨九黎
生成式AI席卷全球的浪潮下,國內的“百模大戰”經歷了大力出奇跡的拼性能階段,正在邁入比落地、比應用的場景化之爭。
手機上模仿ChatGPT而誕生的各類問答助手,雖然能做到千人千面卻難免有些審美疲勞。相較之下,以不同形式的載體融入人們工作生活之中的智能硬件,尤其是異軍突起的具身機器人產品,更能彰顯人機共生的未來雛形。
從著名的莫拉維克悖論中可以看出,AI就像是一個高智商的“偏科生”,想要給AI加入一點理性邏輯之外的情商,恰恰是最難的地方。目前,讓AI擔任一個有問必答的助手或許已經合格,那么如何再進一步,使其搖身變成一位共同生活工作的伙伴,就需要在人機智能交互方面更深入地突破傳統。
作為中國人工智能產業的第一批探索者,科大訊飛在6月12日的智能交互產品升級發布會上,一口氣拿出了AIUI、機器人超腦、虛擬數字人和訊飛星辰四大全面升級后的開發平臺,以賦能開發出更強的智能軟硬件產品,聚焦兒童教育、家庭娛樂、辦公、人力和企業數字化等領域,發布了十大標桿場景方案。
科幻感爆棚的展區內,100+黑科技新品仿佛被賦予了靈魂,與參展觀眾互動交流談笑風生。它們在重塑大模型時代的智能交互范式上邁出一大步,讓每一個人距離變身為心中的“賽博浪客”又近了一些。
01
給工具加點“情商”
以語音方式進行人機智能交互的大前提,必須建立在機器聽得清且聽得懂的基礎上。
傳統的語音交互技術在復雜環境下的收音識別、語義理解上,即使實現了極高的成功率,但一次失敗的體驗就會讓用戶望而卻步。科大訊飛在語音技術領域深耕二十余年,更是深諳此道,2015年就發布的AIUI人機交互平臺正是其沉淀了多年的技術結晶,目前在其基礎上開發運行的終端設備數量已達到了22.5億。
沖破瓶頸的契機,來自于AI大模型技術的應用。全新的AIUI平臺以訊飛星火大模型為引擎進行技術升級,發布會上亮相的全雙工擬人交互方案,不僅能夠在嘈雜環境中精準捕捉到有效指令,還賦予了硬件產品情緒識別、創意生成與深度語義理解等類人多模態能力。
比如存在多人的客廳場景中,搭載了AIUI技術方案的智能音箱,就可以一邊屏蔽掉非人聲的環境音影響,一邊識別到包含相關指令的語音內容,并且會在用戶有遲疑、等待、附和時主動延長拾音;而從接收到反饋的端到端響應僅需1.6秒,以此提供更高效、更具溫度的智能體驗。
再放到愈發常見的智能眼鏡產品上,發布會現場科大訊飛演示了最新的“三麥陣列降噪”方案,專門為戶外移動場景設計。在能夠聽得更加清楚后,智能眼鏡在豐富的大模型能力加持下,游刃有余地在實時翻譯、專業導游、健康助理三重角色之間無縫切換,就像是一位同行的真人伙伴。
不過,隨著智能硬件走進兒童陪伴成長的場景之中,語音交互又迎來了“童言童語”的挑戰。想要給玩具們施加一道“活過來”的魔法,需要針對幼兒發音模糊、疊字代替正常詞匯、重復表達信息等常見特征,進行特定方向上的強化訓練。
為此,科大訊飛兒童群體首發推出兒童專屬交互方案。一方面專攻邏輯跳躍、音字不準的識別,另一方面不忘情緒信號與認知邏輯的匹配,在懂孩子的同時還能積極回應、引導孩子的情緒。雙方的對話內容聽起來不再像兒童對玩具的發號施令,而更像是兩個玩伴間的親密互動。
另外,在內置了孫悟空等經典IP和海量嚴選內容生態之余,科大訊飛還推出了適用于多種場景的玩具開發套件,如毛絨玩具、IP潮玩、桌面機器人等。發布會現場由幾位寶爸參加的一個60分鐘極速開發挑戰,足以證明了低門檻低成本的平臺價值。
02
讓機器人“開口”
智能音箱、智能眼鏡和兒童玩具,都屬于消費級的智能語音交互場景,而科大訊飛的情懷少不了對產業側的賦能。最近風頭正勁的具身智能機器人賽道,自然成了不二之選。
今年春晚上,扭秧歌火出圈的宇樹機器人已經家喻戶曉。同樣由其出品的宇樹G1,在登上此次科大訊飛智能交互產品升級發布會的舞臺時,一邊揮舞金屬手臂一邊“開口”歡快地跟觀眾打招呼,再度令人驚艷了一把。其中的奧秘,竟然只藏在了機器人背后一個書包模樣的盒子中。
這款屬于訊飛機器人超腦平臺上的全新技術方案“智能語音背包”,可以即插即用無需改造硬體,就像在U盤里藏了一位“腹語師”,隨時隨地接入即可打通運動控制和業務邏輯。
讓機器人即時“開口”還只是前菜。宇樹G1隨后在現場打起了不屬于秧歌舞的太極拳,做著一板一眼的動作同時,還能插科打諢配合演示人員說上幾句有梗的笑料,對于活動氛圍的調動不可謂不老練。這秒變社交達人的背后,就是訊飛超腦2030技術底座的發力。
2022年就推出的機器人超腦平臺,本質上是為了給機器人打造一個能聽會說、能理解會行動的中樞系統,已經成為500多家機器人客戶的共同選擇。如今在融合了視聽感知交互能力與基于大模型的機器人大腦,構建出“端-云協同”的AI架構。
在端側,超腦平臺可以提供多模態降噪、人臉識別、物體檢測、端側大模型等本地感知與計算能力;在云端,依托語音大模型與具身智能技術,就能實現“察言觀色”的類人化交互與復雜任務理解。
比如在常見的工廠巡檢場景中,工業機器人需要自動巡查設備運行狀態,發現異常及時上報。而在檢測設備故障、識別安全隱患的過程中,就必須依賴語音、人像、物體等多模態的識別、認知和判斷能力。
再看服務機器人領域,智元機器人旗下的遠征A2人形機器人,在訊飛超腦的賦能下搖身一變為4S店迎賓機器人,既做到對顧客主動感知、主動迎賓,又能結合專業汽車知識庫提供車型參數問詢、促銷活動講解,還可以基于大模型進行趣味互動,為顧客提供具有科技感的購車和交付體驗。
人形機器之外,普及更廣的四輪、雙足、輪式機器人等產品形態,訊飛超腦平臺都提供了定制化的交互方案。而當遇到所有機器人都最怕的斷網或弱網環境,訊飛離線交互套件也可以一鍵解決,讓所有交互、識別都在端側完成。
科大訊飛為了加速對機器人產業的賦能進程,“具身智能訓練一體機”也應運而生,將數據采集、訓練推理等一系列復雜過程,集成到一臺機器上全部完成。
03
做最全面的AI
發家于語音合成技術,在“百模大戰”中脫穎而出的科大訊飛,爭的不是流水之先,而是滔滔不絕。被AI大模型浪潮催生出的虛擬人和智能體兩大風口,同樣成為其四大開發平臺中的砥柱。
大會現場,訊飛開放平臺總經理趙艷軍通過照片和語音生成的數字分身,竟絲滑流暢地接管了舞臺演示,讓人感受不到一絲違和。呈現在帶移動底座的55寸OLED透明屏上的數字人“小雨”,可以按照提前制作好的動線自主移動,不管是面對工作人員還是臨時嘉賓,都能隨機應變對答如流,近乎完美地承擔了導覽職責。
與電商平臺上應用頗多的數字人主播不同,科大訊飛的虛擬人交互平臺依托領先的多模態感知與生成技術,正在掀起一場數字人構建的“極簡革命”。
輸入一句錄音、上傳一張圖片,用戶即可生成專屬的數字分身。這種“分鐘級”的創建效率才能填平普通大眾面前的技術鴻溝。也正是得益于此,平臺上已積累超過100萬的聲音復刻用戶,超過10萬的數字分身資產;還深度賦能了媒體、教育、文旅、金融、政務等千行百業,并獲得了信通院L5等級認證。
面向智能體方向的星辰Agent,則是低門檻一站式的大模型精調與智能體構建平臺,在全棧自研的星火大模型之外,還廣泛兼容DeepSeek等業界主流的開源大模型,進一步助力企業高效構建專屬大模型和智能應用。
而針對解決模型貼合場景需求的星辰MaaS,通過一站式精調工具鏈將行業數據轉化為專屬模型。在與Agent的協同下,二者可以打造出“模型精調-智能體開發-場景落地”的閉環生態。
依托于此,一系列聚焦于辦公、人力、企業數字化場景的智能產品服務被開發出來。升級后的訊飛智文從PPT工具拓展為智能文檔平臺;訊飛繪文和訊飛繪鏡則可以幫助新媒體崗位一站式快速完成選題、圖文、視頻等內容創作的范式;星火紀要、星火陪練、星火快答、星火投標、訊飛智聘等針對B端的應用,從多個方面全方位地賦能企業智能化,提升運營效率。
不難發現,科大訊飛幾乎沒有錯過任何一個AI大模型落地場景的可能性。據數據機構Xsignal奇異因子統計,僅在C端方向上,科大訊飛就覆蓋了11個核心賽道,共計有27款AI應用通過APP和Web端全面鋪開;在To B和To G市場上更是領跑同行,數據顯示其累計中標項目已超130個,總金額突破14億元。
從15年前業界首個語音云的發布,到AIUI、機器人超腦等平臺的相繼問世,科大訊飛終于在大模型時代以星火大模型為核心,將各項語音智能技術融會貫通聚沙成塔。一棵代表人機智能交互的生態大樹拔地而起,這一片最全面的AI森林也愈發郁郁蔥蔥。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.