新智元報(bào)道
編輯:編輯部 YZJH
【新智元導(dǎo)讀】科大訊飛又搞了個(gè)大動(dòng)作,智能交互直接燃爆!AIUI全新升級,兒童專屬交互方案,AI眼鏡「三麥陣列」硬核出圈,還有機(jī)器人語音背包、移動(dòng)數(shù)字人「小雨」實(shí)力搶鏡。一場發(fā)布會(huì),讓我們看到下個(gè)時(shí)代人機(jī)交互的全貌。
不知不覺間,硅谷的巨頭都開始搞AI硬件了:蘋果押寶的是Vision Pro的結(jié)合;Meta在緊鑼密鼓地測試AI眼鏡;英偉達(dá)押注機(jī)器人。
不過國內(nèi)有一位玩家,早已布局多年,下好了先手棋——
在智能硬件這條路上,科大訊飛已深耕多年,AI學(xué)習(xí)機(jī)、辦公本都做到了線上品類銷量第一,構(gòu)建起了中國的「智能交互新生態(tài)」。甚至還憑借獨(dú)特的開發(fā)者生態(tài),大大賦能了行業(yè)創(chuàng)新。
而就在剛剛,科大訊飛又在深圳整了個(gè)大活兒!
這次,圍繞智能交互場景,他們直接來了一波全面升級——AIUI、機(jī)器人超腦、虛擬人交互、訊飛星辰4大平臺(tái)。
而且不光是產(chǎn)品,平臺(tái)技術(shù)也開放了,還直接放出企業(yè)級的智能體引擎。可以說,是把智能狠狠砸進(jìn)了各行各業(yè)。
AIUI下一個(gè)時(shí)代
科大訊飛的AIUI人機(jī)交互平臺(tái),已經(jīng)發(fā)布了10年。
它以大模型為引擎,融合了情緒識(shí)別、創(chuàng)意生成、深度語義理解等類人多模態(tài)能力,成為產(chǎn)業(yè)智能化升級的核心支撐。
大模型發(fā)布前,兒童場景的交互最少;而現(xiàn)在兒童場景的交互次數(shù)增長了7倍以上。孩子們樂于與機(jī)器人「聊天」,這正是AI進(jìn)步的結(jié)果。
兒童專屬陪伴,AI承包了
然而這其中就有一個(gè)難點(diǎn):兒童的表達(dá)方式,是一種「童言幼語」,跟成人有很大區(qū)別。
對于每個(gè)孩子來說,吐字不清、語言結(jié)構(gòu)簡單,甚至缺乏邏輯,表達(dá)跳躍等,都是很常見的現(xiàn)象。
為此,科大訊飛基于兒童說話習(xí)慣,專門打造了童言識(shí)別和童語理解的兒童專屬交互方案,幫助我們更好地理解兒童的表達(dá)。
它不光對話起來更有趣、更友好,還能以引導(dǎo)的方式和兒童對話。
這樣,AI就深度適配了兒童的表達(dá)邏輯,做到了更懂孩子。
除了這些專屬方案本身,科大訊飛還打造了許多寓教于樂的兒童內(nèi)容。
在趣味對話上,他們打造了很多經(jīng)典IP,深受孩子們的歡迎。
只要一句話,就能激發(fā)海量的IP人設(shè)。在對話中,它們會(huì)主動(dòng)找話題,引導(dǎo)孩子造詞,還能一起玩故事共創(chuàng)、猜謎語、腦筋急轉(zhuǎn)彎等趣味游戲。
團(tuán)隊(duì)還為兒童打造了許多早教技能,包括語言發(fā)展技能、科學(xué)發(fā)展技能、社會(huì)能力認(rèn)知技能等等,讓孩子在趣味的交互中全面成長。
此外,他們還打造了專門面向兒童的趣味信源,包括兒童故事和兒童音樂。
大家非常關(guān)注的另一個(gè)話題,就是兒童心理健康。訊飛的兒童交互方案,正是以鼓勵(lì)、夸獎(jiǎng)的話術(shù)為主,幫助孩子建立自信心。
同時(shí),對于可能發(fā)生的潛在風(fēng)險(xiǎn),它也能給出及時(shí)、正確的引導(dǎo)。
兒童守護(hù)計(jì)劃同步發(fā)布,讓孩子們在AI的守護(hù)下健康成長
比如孩子在學(xué)校如果發(fā)生什么事情,可能回家不愿意和家長說,但會(huì)和機(jī)器去聊。這種情況下,AI就會(huì)對孩子出現(xiàn)情緒或行為問題進(jìn)行積極正向的引導(dǎo)。
在風(fēng)險(xiǎn)格外嚴(yán)重的情況下,就會(huì)通知家長。
并且,此方案已經(jīng)針對未成年保護(hù)內(nèi)容進(jìn)行了定向調(diào)優(yōu),為兒童打造了一個(gè)絕對純凈健康的交互環(huán)境。
看完下面這個(gè)視頻,你就會(huì)明白,為什么孩子們這么喜歡跟科大訊飛的機(jī)器人聊天了。
更令人驚喜的是,科大訊飛還開發(fā)了玩具開發(fā)套件,接入便捷,配置成本低,適用于多種場景,如帶屏玩具、無屏玩具、桌面機(jī)器人等。
而在大會(huì)現(xiàn)場,幾位寶爸也參加了一個(gè)60分鐘極速挑戰(zhàn),要求在幾小時(shí)內(nèi)開發(fā)出一個(gè)兒童應(yīng)用。
在挑戰(zhàn)中,每位「寶爸」會(huì)被分發(fā)一塊硬件開發(fā)板,依托星辰Agent開發(fā)平臺(tái),在極短時(shí)間內(nèi)構(gòu)建出具備情緒識(shí)別與童趣對話能力的兒童交互Agent,為硬件注入智慧人格。
智能眼鏡,和外國小姐姐絲滑交流
兒童語音交互之外,智能眼鏡也是剛需的場景,是下一個(gè)通向人機(jī)交互的未來。
與頭顯不同的是,它的交互范式只能依賴語音。
為此,訊飛打造了一個(gè)專屬「三麥陣列」方案,針對不同場景,做了定向訓(xùn)練。
三個(gè)麥克風(fēng)的作用在于,識(shí)別語音輸出是否是佩戴者發(fā)出,以及對話人的聲音。
說這么多,不如看看「三麥陣列」智能眼鏡實(shí)際效果如何?
現(xiàn)場演示中,工作人員戴上眼鏡隨口發(fā)問,「減肥期間,可以吃荔枝嗎」?小飛立即給出回復(fù),「荔枝熱量糖分超高,過量易導(dǎo)致熱量超高」,還給出了減肥建議。
這是語音交互的一個(gè)簡單的例子。如果旅游的時(shí)候,遇到不懂的景點(diǎn),直接交給這款智能眼鏡。
工作人員拿起一張三星堆藏品圖,問道「小飛小飛,這是什么」?
令人驚艷的是,從青銅大立人像細(xì)節(jié),到歷史背景,它給出了非常直觀的回復(fù),就如一個(gè)真·導(dǎo)游現(xiàn)場講解。
出國旅游常遇到歪果仁,聽不懂不會(huì)說又是一大難題。而現(xiàn)在,有了面對面翻譯功能,任何人戴上智能眼鏡就能切大號(hào)了。
外國小姐姐和工作人員交流非常絲滑,智能眼鏡實(shí)時(shí)翻譯,完全不卡殼。
有了這些實(shí)用功能,不論是交朋友,還是談合作,賈維斯就不再是科幻。
隨時(shí)隨地,語音交互
今天,科大訊飛不僅實(shí)現(xiàn)了語音識(shí)別的極速響應(yīng),像和真人交流一樣可隨時(shí)「插話」的流暢體驗(yàn),而且還能在嘈雜環(huán)境中保證語音交互的可靠性。
為了做到這一點(diǎn),團(tuán)隊(duì)開發(fā)了從多麥克風(fēng)陣列降噪收音到線性雙麥、四麥、六麥的多模態(tài)降噪技術(shù),還有專為戶外移動(dòng)場景降噪設(shè)計(jì)的3麥降噪方案,讓AI能在各種噪聲的環(huán)境中「耳聰目明」。
在機(jī)器轟鳴中,建筑工地的智能安全帽,清晰接收指令;騎行中的智能眼鏡,過濾風(fēng)聲,準(zhǔn)確識(shí)別「導(dǎo)航到最近咖啡館」的需求;在人聲鼎沸的機(jī)場,值機(jī)柜臺(tái)旁的機(jī)器人客服能理解旅客查詢——
這些曾經(jīng)的技術(shù)難點(diǎn),如今都已被攻克。
當(dāng)AI學(xué)會(huì)「察言觀色」
而語音智能最令人振奮的進(jìn)步,莫過于從「能聽會(huì)說」到「察言觀色」的跨越。
如今的AI不僅能聽懂字面意思,還能感知情緒、記憶偏好,甚至理解兒童獨(dú)特的話語方式——機(jī)器正變得越來越像人。
基于千萬高質(zhì)對話數(shù)據(jù)訓(xùn)練,專為情感交互場景打造的「交互大模型」,讓設(shè)備讀懂氣氛,「高情商」回應(yīng)喜怒哀樂。
類人記憶系統(tǒng)與自定義角色,則賦予設(shè)備獨(dú)特個(gè)性。
科大訊飛的「極速超擬人交互」技術(shù)更是將情感交互推向新高度,支持1300多種人設(shè)和情感語氣自由切換。
系統(tǒng)會(huì)基于對歷史話自動(dòng)生成個(gè)性化知識(shí)庫,實(shí)現(xiàn) 「共同成長的陪伴」。
現(xiàn)代AI交互系統(tǒng)構(gòu)建了三層記憶體系:
· 上下文記憶,保證對話連貫性;
· 用戶畫像記憶,存儲(chǔ)長期偏好;
· 生活事件記憶,關(guān)聯(lián)特定場景知識(shí)。
比如,當(dāng)你在智能辦公軟件中輸入「關(guān)于AI交互技術(shù)」時(shí),系統(tǒng)會(huì)根據(jù)你過去的寫作習(xí)慣,自動(dòng)補(bǔ)全的應(yīng)用前景分析。
這種記憶能力讓AI從「通用助手」進(jìn)化為「個(gè)人專屬管家」。
全新語音背包,機(jī)器人秒變社交達(dá)人
有了AIUI,為什么還需要機(jī)器人超腦呢?
這是因?yàn)椋瑱C(jī)器人本身結(jié)構(gòu)非常復(fù)雜,面對的場景更加復(fù)雜。而現(xiàn)實(shí)任務(wù)中,有些需要「具身智能」才能完成。
2022年,訊飛首次亮相「機(jī)器人超腦平臺(tái)」,目標(biāo)直指讓機(jī)器人能聽會(huì)說、能理解會(huì)行動(dòng)。
時(shí)隔3年,在這個(gè)平臺(tái)下,訊飛機(jī)器人生態(tài)呈現(xiàn)了繁榮景象。
「超腦平臺(tái)」在端側(cè)提供了視聽融合解決方案, 包括多模態(tài)降噪、人類識(shí)別、物體識(shí)別,還有軟硬一體設(shè)計(jì)。
針對不同四輪、雙足、輪式機(jī)器人多種形態(tài),平臺(tái)提供定制化了硬件交互。
而且,機(jī)器人往往會(huì)面對比較嘈雜、多人對話的場景。
為此,訊飛打造了多人多模態(tài)交互技術(shù),語音+唇形+降噪分離結(jié)合,就可以精準(zhǔn)識(shí)別。在三人場景下,語音分離率高達(dá)87%,識(shí)別準(zhǔn)確率超90%。
另外,當(dāng)遇到?jīng)]有網(wǎng)絡(luò)、弱信號(hào)的時(shí),機(jī)器人在現(xiàn)實(shí)世界會(huì)遇到極大的挑戰(zhàn)。
而現(xiàn)在,不用擔(dān)心,訊飛離線交互套件一鍵解決,讓所有交互、識(shí)別,都在端側(cè)完成。
值得一提的是,訊飛大會(huì)上,機(jī)器人超腦平臺(tái)帶來了全新「智能語音背包」,讓語音成為機(jī)器人標(biāo)配。
只要把背包背在機(jī)器人身上,它就具備了張口對話的能力。
現(xiàn)場,產(chǎn)品經(jīng)理一開口——小飛小飛,該你上場了,隨即成功召喚宇樹G1登臺(tái)。
激情澎湃的G1揮著手臂,向臺(tái)下觀眾打招呼,「各位科技大佬、酷炫玩家們,大家下午好,歡迎來到智能產(chǎn)品交互升級party」。
緊接著,它秀出了自己偷學(xué)的賽博朋克太極拳,一邊演示,一邊配著梗解釋,言語之間非常流暢。
「這招叫WiFi信號(hào)滿格,接著是代碼運(yùn)行順暢,再來個(gè)數(shù)據(jù)精準(zhǔn)無誤,最后是系統(tǒng)永不宕機(jī)」。
不得不說,機(jī)器人有了這個(gè)「智能語音背包」的加持,能說會(huì)道,秒變社交達(dá)人。
此外,機(jī)器人超腦平臺(tái)還帶來了「具身智能訓(xùn)練一體機(jī)」。在針對特定任務(wù)訓(xùn)練時(shí),從采集數(shù)據(jù)、訓(xùn)練,到推理是一個(gè)非常復(fù)雜的過程。
一體機(jī)最大優(yōu)勢在于,將這些過程在一臺(tái)機(jī)器完成,能加速產(chǎn)業(yè)推廣和應(yīng)用。
如今,科大訊飛合作500多家機(jī)器人公司,在酒店服務(wù)、展廳展館、汽車銷售、智慧零售等領(lǐng)域,全面鋪開。
移動(dòng)數(shù)字人閃現(xiàn),人類AI伙伴
人機(jī)交互,不僅局限于機(jī)器人實(shí)體,數(shù)字人也是下一個(gè)重要的分支。
這次大會(huì)現(xiàn)場的亮點(diǎn),無疑就是一款全新的移動(dòng)數(shù)字人——「小雨」了。
她的出現(xiàn),可以說讓全場掀起了最高潮。
不同于以前在大模型一體機(jī)或固定屏幕中的的數(shù)字人,它可以出現(xiàn)在導(dǎo)覽場景,提供移動(dòng)式的交互。
之所以能移動(dòng),是因?yàn)樗牡鬃溆兄茍D和路線規(guī)劃的功能。
在現(xiàn)場,數(shù)字人「小雨」按照提前制作好的動(dòng)線移動(dòng)上臺(tái),和主持人進(jìn)行了流暢自然的對話,引得了全場喝彩。
接下來,主持人還隨機(jī)從場上搖上來一位嘉賓,小雨面對他的種種發(fā)問,面不改色,回答流利。
嘉賓對小雨的表現(xiàn)極為贊嘆,表示非常期待在自己公司的展廳中,也能有這樣一個(gè)對話流利絲滑的數(shù)字人。
大會(huì)上,科大訊飛還介紹了AI虛擬人交互平臺(tái)。
憑借業(yè)界領(lǐng)先的多模態(tài)感知和生成技術(shù),這個(gè)平臺(tái)實(shí)現(xiàn)了「極簡革命」,僅需一句話復(fù)刻聲音、一張圖生成數(shù)字分身,即可在82種語言場景中,「分鐘級」創(chuàng)建虛擬形象。
目前,已有累積超100萬聲音復(fù)刻用戶、10萬數(shù)字分身資產(chǎn),真正實(shí)現(xiàn)了「每人皆可擁有數(shù)字分身」的愿景。
訊飛的虛擬人,現(xiàn)在已經(jīng)廣泛應(yīng)用于媒體、教育、政企、文旅等場景,甚至還面向個(gè)人用戶提供輕量化的定制方案。
通過超擬人技術(shù),每個(gè)企業(yè)和個(gè)人,都可以快速構(gòu)建自己的數(shù)字分身了。
只要一句話,大模型就能復(fù)刻聲音;只要一張圖,就能構(gòu)建超擬人數(shù)字人。
在現(xiàn)場,工作人員就用訊飛智作,迅速復(fù)刻了科大訊飛趙總的聲音,制作出了他的數(shù)字分身——小趙總。
厲害的是,它不僅聲音非常還原,還能支持中、日、英、韓、俄等多種語言。
而數(shù)字人的樣貌,也同樣可以定制。一眨眼的時(shí)間,訊飛智作就生成了小趙總的商務(wù)版數(shù)字人。
「他」不僅聲音跟趙總一模一樣,說起外語來也是6到飛起。
在AI虛擬人交互平臺(tái)上,科大訊飛提供了全棧的數(shù)字人應(yīng)用服務(wù),包括豐富的資產(chǎn)構(gòu)建方式、可自由集成的免費(fèi)API、能靈活應(yīng)用的零代碼SaaS、可開箱即用的軟硬件套裝等。
爆火Agent,一鍵定制專屬應(yīng)用
發(fā)布會(huì)另一個(gè)重點(diǎn),便是訊飛大模型平臺(tái)——星辰Agent。
人們都說,2025年是Agent元年。當(dāng)前,Agent已成為開發(fā)應(yīng)用的一個(gè)重要的方式,大幅降低了開發(fā)門檻。
星辰Agent是一個(gè)一站式定制開發(fā)平臺(tái),可以完成從Agent開發(fā)、應(yīng)用測評,到可控發(fā)布、運(yùn)營迭代所有流程,還包含了RAG等專業(yè)工具。
對于開發(fā)者來說,應(yīng)用開發(fā)時(shí)間大幅縮短,效率倍增。
會(huì)上,訊飛正式面向企業(yè),發(fā)布了星辰Agent平臺(tái)專業(yè)版。
它能提供高并發(fā)、高容量的優(yōu)享資源,還支持效果評測、團(tuán)隊(duì)協(xié)作、1V1定制服務(wù)。
多款智能體應(yīng)用已在星辰Agent平臺(tái)上線
訊飛產(chǎn)品經(jīng)理丁瑞演示demo中,針對深圳進(jìn)出口貿(mào)易報(bào)關(guān),一項(xiàng)非常繁雜的任務(wù)——從發(fā)票、運(yùn)單中提取報(bào)關(guān)所需要的信息,開發(fā)了一個(gè)智能體。
由于這個(gè)智能體任務(wù)復(fù)雜,需要從星辰創(chuàng)建一個(gè)高階工作流,選用圖片文字抽取模版。
驚艷的是,平臺(tái)直接給出了一套完整的流程,只需將圖片、提示、定義抽取字段等所需信息填入即完成。
接下來,上傳一個(gè)報(bào)關(guān)單發(fā)票,結(jié)構(gòu)比較復(fù)雜,讓Agent提取信息,從OCR識(shí)別、大模型解析,到抽取信息,非常快速地完成了任務(wù)。
C端B端,全面稱雄
過去15年,正是AI飛速發(fā)展的15年,也是科大訊飛開放平臺(tái),迅速發(fā)展的15年:
2010年,發(fā)布了業(yè)界首個(gè)語音云,正式拉開語音時(shí)代的帷幕。隨后花了3~5年時(shí)間推動(dòng)語音輸入的普及;
2015年,推出首個(gè)AI人機(jī)交互界面——AIUI;
2021年,發(fā)布虛擬人;
2022年,推出機(jī)器人超腦;
2023年,邁入了大模型時(shí)代,發(fā)布「星火大模型」。
大模型的到來,帶來了哪些變化?
如今,大模型浪潮驅(qū)動(dòng)開發(fā)者高質(zhì)增長,訊飛生態(tài)合作伙伴已超1152萬,遍布了日韓、新加坡、中東、歐洲等地,構(gòu)建出全球領(lǐng)先的AI開放生態(tài)。
值得一提的是,機(jī)器人、智能辦公、穿戴領(lǐng)域開發(fā)者翻倍,數(shù)字人創(chuàng)作量激增16倍,人均交互頻次提升6.5倍。
顯而易見的是,大模型時(shí)代下,交互范式正加速變革。
在技術(shù)研發(fā)上,科大訊飛早有多項(xiàng)突破:
· 2008年,首次讓機(jī)器的語音合成超過普通人說話水平;
· 2012年,首次讓機(jī)器的語音評測超過人類專家水平;
· 2015年,首次讓機(jī)器的語音識(shí)別超過人類速記員水平。
之后,科大訊飛創(chuàng)立了國內(nèi)「歷史上的首次」:
· 2017年,「智醫(yī)助理機(jī)器人」首次通過國家執(zhí)業(yè)醫(yī)師資格考試綜合筆試測試,并超過96.3%的人類考生;
· 2018年,首次讓機(jī)器翻譯的中英語音翻譯達(dá)到CATTI全國翻譯專業(yè)資格(水平)考試二級合格標(biāo)準(zhǔn);
· 2022年,在OpenBookQA知識(shí)推理挑戰(zhàn)賽中,首次單模型超過人類平均水平;
在To B/To G領(lǐng)域,早在2024年,科大訊飛就已做到了多個(gè)行業(yè)第一。
根據(jù)Xsignal奇異因子報(bào)告數(shù)據(jù),科大訊飛旗下已有三款應(yīng)用成功突破百萬月活大關(guān),分別是訊飛星火(APP 端)、訊飛AI學(xué)(APP 端)和訊飛曉醫(yī)(APP端)。
其中,訊飛星火APP在中國APP端AI應(yīng)用排行榜中位列第7,躋身通用大模型賽道的Top5。
AI時(shí)代,人機(jī)交互應(yīng)該是什么樣?這場大會(huì),訊飛給出了最好的答案——AIUI。
正如科大訊飛董事長劉慶峰所言:「語音,將成為萬物互聯(lián)時(shí)代的主要交互方式」。
當(dāng)下,智能語音若要走進(jìn)多場景應(yīng)用,機(jī)器人恰是將這些交互,拉進(jìn)現(xiàn)實(shí)最重要的一步。
從兒童專屬交互方案、AI智能眼鏡「三麥陣列」,到機(jī)器人語音背包,再到移動(dòng)虛擬數(shù)字人,我們已經(jīng)看到了下一個(gè)人機(jī)交互的未來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.