速途網(wǎng)10月26日訊 近日,由聲網(wǎng)和RTE開發(fā)者社區(qū)聯(lián)合主辦的RTE2024第十屆實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)在北京正式開幕,本屆大會(huì)主題為“AI愛”,覆蓋AI、出海、社交泛娛樂、IoT、VoiceAI、空間計(jì)算等20+行業(yè)及技術(shù)分論壇。在RTE2024主論壇上,聲網(wǎng)創(chuàng)始人兼CEO趙斌、LeptonAI創(chuàng)始人兼CEO賈揚(yáng)清、聲網(wǎng)首席科學(xué)家、CTO鐘聲分別帶來主題演講。
趙斌分享了聲網(wǎng)十年以來專注實(shí)時(shí)互動(dòng)行業(yè)的深刻洞察,以及他對(duì)RTE在生成式AI時(shí)代下未來發(fā)展的趨勢(shì)判斷,并現(xiàn)場(chǎng)宣布推出RTE+AI能力全景圖。賈揚(yáng)清則站在AI基礎(chǔ)設(shè)施的視角下,分享了他對(duì)AI應(yīng)用、云、和GPU算力云技術(shù)的獨(dú)到觀點(diǎn)。鐘聲的主題演講聚焦在對(duì)實(shí)時(shí)AI基礎(chǔ)設(shè)施的探討上,并分享了AI與RTE結(jié)合的前沿技術(shù)實(shí)踐。
趙斌:生成式AI將驅(qū)動(dòng)IT行業(yè)四大變革
生成式AI正在驅(qū)動(dòng)IT行業(yè)發(fā)生大變革,趙斌認(rèn)為,這一趨勢(shì)主要體現(xiàn)在四個(gè)層面:終端、軟件、云和人機(jī)界面。在終端上,大模型能力將驅(qū)動(dòng)PC和Phone往AIPC和AIPhone的方向進(jìn)化。在軟件上,所有的軟件都可以、也將會(huì)通過大模型重新實(shí)現(xiàn),并從SoftwarewithAI發(fā)展至AINativeSoftware。在云的層面,所有云都需要具備對(duì)大模型訓(xùn)練和推理的能力,AINativeCloud將成為主流。此外,人機(jī)界面的主流交互方式也將從鍵盤、鼠標(biāo)、觸屏變成自然語言對(duì)話界面(LUI)。
隨著生成式AI成為下個(gè)時(shí)代IT行業(yè)進(jìn)化的主題,RTE也成為了多模態(tài)應(yīng)用和基礎(chǔ)設(shè)施中一個(gè)關(guān)鍵的部分。10月初,聲網(wǎng)的兄弟公司Agora作為語音API合作者,出現(xiàn)在了OpenAI發(fā)布的RealtimeAPI公開測(cè)試版中。
在此次大會(huì)中,趙斌表示,聲網(wǎng)與MiniMax正在打磨中國第一個(gè)RealtimeAPI。趙斌也展示了聲網(wǎng)基于MiniMaxRealtimeAPI打造的人工智能體。在演示視頻中,人與智能體輕松流暢的進(jìn)行實(shí)時(shí)語音對(duì)話。當(dāng)人類打斷智能體并提出新的疑問時(shí),智能體也能夠非常靈敏的快速反應(yīng),實(shí)現(xiàn)了與人類自然流暢的對(duì)話。
在生成式AI的大潮下,RTE將會(huì)提供更為廣闊的空間。趙斌也在分享中宣布,聲網(wǎng)正式發(fā)布了RTE+AI能力全景圖。在全景圖中,聲網(wǎng)從實(shí)時(shí)AI基礎(chǔ)設(shè)施、RTE+AI生態(tài)能力、聲網(wǎng)AIAgent、實(shí)時(shí)多模態(tài)對(duì)話式AI解決方案、RTE+AI應(yīng)用場(chǎng)景五個(gè)維度,清晰呈現(xiàn)了當(dāng)下RTE與AI相結(jié)合的技術(shù)能力與應(yīng)用方案。生成式AI與RTE結(jié)合帶來的場(chǎng)景創(chuàng)新,將成為下一個(gè)十年的主題。
過去十年,聲網(wǎng)不僅見證并推動(dòng)了RTE從一個(gè)理念變成一個(gè)行業(yè)的過程,更身體力行的打破了國內(nèi)實(shí)時(shí)音視頻領(lǐng)域的三無狀態(tài)。趙斌稱,10年前行業(yè)內(nèi)沒有行業(yè)會(huì)議、專業(yè)書籍、以及專業(yè)媒體和社區(qū)。如今,RTE大會(huì)邁入第10年,聲網(wǎng)也于今年8月正式出版行業(yè)首本系統(tǒng)介紹實(shí)時(shí)互動(dòng)的技術(shù)型科普?qǐng)D書《讀懂實(shí)時(shí)互動(dòng)》,同時(shí),RTE開發(fā)者社區(qū)也持續(xù)繁榮,加速推動(dòng)。
賈揚(yáng)清:AI是云的第三次浪潮
隨著AI技術(shù)的發(fā)展,AI時(shí)代的大模型應(yīng)用開發(fā)、AI云、以及GPU等基礎(chǔ)設(shè)施建設(shè)逐漸成為熱門話題,也成為了支撐整個(gè)行業(yè)發(fā)展、催生新應(yīng)用誕生、新商業(yè)價(jià)值實(shí)現(xiàn)的基本底座。LeptonAI創(chuàng)始人兼CEO賈揚(yáng)清在RTE2024主論壇上分別從AI應(yīng)用、云、GPU算力云技術(shù)以及企業(yè)大模型自主性等層面帶來了他對(duì)AI基礎(chǔ)設(shè)施進(jìn)化的解讀。
針對(duì)AI應(yīng)用,賈揚(yáng)清指出,今天是最容易建設(shè)AI應(yīng)用的時(shí)代,越是簡(jiǎn)潔的AI模型思路越容易產(chǎn)生優(yōu)秀的效果。AI能力加持后,應(yīng)用本身的開發(fā)范式也在從數(shù)據(jù)、模型、應(yīng)用構(gòu)建三個(gè)維度發(fā)生變化,未來的應(yīng)用開發(fā)將從“以流程為中心”轉(zhuǎn)化為“以模型為中心”。
除了AI應(yīng)用層面,傳統(tǒng)的云架構(gòu)也在大模型、GPU優(yōu)化等需求的催化下發(fā)生了翻天覆地的變化。賈揚(yáng)清認(rèn)為,AI是云的第三次浪潮,繼Web云、數(shù)據(jù)云之后,AI將成為第三朵云。AI云有以下三個(gè)特征:算力會(huì)成為智能的基礎(chǔ)、AI云需要大量計(jì)算與大規(guī)模的異構(gòu)集群,以及少量但高質(zhì)量的通訊。總體而言,云的產(chǎn)品形態(tài),本質(zhì)是計(jì)算和傳輸?shù)钠胶狻?/p>
賈揚(yáng)清指出,在AI云的形態(tài)下,實(shí)時(shí)的交流和智能的結(jié)合在用戶體驗(yàn)環(huán)節(jié)非常重要。毫不夸張的說,實(shí)時(shí)將直接與生產(chǎn)力劃上等號(hào)。
企業(yè)在構(gòu)建自己的大模型自主性上,到底該如何決策?賈揚(yáng)清強(qiáng)調(diào),企業(yè)應(yīng)該將開源和閉源大模型都納入考慮范疇。采用開源模型+定制化的優(yōu)勢(shì)不僅僅是具備更強(qiáng)的可定制性,還有更低的成本以及更高的速度,開源+定制化能夠達(dá)到比閉源模型更好的效果。
鐘聲:分布式端邊云結(jié)合的AI系統(tǒng)將成為現(xiàn)代基礎(chǔ)設(shè)施的基本形態(tài)
在已經(jīng)到來的AI時(shí)代,現(xiàn)代化基礎(chǔ)設(shè)施應(yīng)該是什么樣?聲網(wǎng)首席科學(xué)家、CTO鐘聲提到,大量用戶設(shè)備往往會(huì)先接入邊緣節(jié)點(diǎn)、并在需要的時(shí)候再接入云端,數(shù)據(jù)將在端設(shè)備、邊緣節(jié)點(diǎn)和云之間往返傳遞。AI時(shí)代的數(shù)據(jù)中心會(huì)包含以大量異構(gòu)算力組成的超級(jí)計(jì)算集群(SuperScaler)。
但是,停留在僅依賴超級(jí)計(jì)算集群的系統(tǒng)是遠(yuǎn)遠(yuǎn)不夠的,萬億參數(shù)、多模態(tài)引入所造成的高昂計(jì)算成本、缺乏機(jī)制約束的數(shù)據(jù)隱私保護(hù)、幾秒鐘的延時(shí)都將阻礙大模型的普惠,極大地限制其在很多場(chǎng)景下的應(yīng)用。
鐘聲認(rèn)為,分布式端邊云結(jié)合的AI系統(tǒng)將有效解決這些痛點(diǎn)。這個(gè)系統(tǒng)將把計(jì)算和傳輸在各節(jié)點(diǎn)做合理地配置,系統(tǒng)會(huì)智能地以自適應(yīng)的方式把任務(wù)編排到端與邊上執(zhí)行,非常有效地降低了成本,同時(shí)提供了更低延時(shí)(低于1秒級(jí)的響應(yīng)速度)、更高網(wǎng)絡(luò)抖動(dòng)容忍度、優(yōu)秀的抗噪聲能力,并且完整的用戶數(shù)據(jù)只會(huì)保留在端上。
分享過程中,鐘聲還在大會(huì)現(xiàn)場(chǎng)演示了一個(gè)由STT、LLM、TTS、RTC四個(gè)模塊組成的端邊結(jié)合實(shí)時(shí)對(duì)話AI智能體,這也是全球首次有廠商在比日常實(shí)際場(chǎng)景更具挑戰(zhàn)的環(huán)境下展示實(shí)時(shí)AI對(duì)話能力。大會(huì)現(xiàn)場(chǎng)觀眾規(guī)模超過千人,面臨復(fù)雜的噪聲、回聲、麥克風(fēng)延遲等困難,但智能體與鐘聲的互動(dòng)仍然表現(xiàn)出了優(yōu)秀的對(duì)話能力,在普通5G網(wǎng)絡(luò)環(huán)境下實(shí)現(xiàn)了流暢、自然、有趣的雙向?qū)崟r(shí)對(duì)話,對(duì)話模型的極快響應(yīng)速度、及時(shí)打斷與被打斷的自然程度、對(duì)抗噪聲能力、遵循語音指令做等待能力都非常突出。
正如鐘聲在最后分享的,隨著端設(shè)備的多樣化以及能力的提升,AI基礎(chǔ)設(shè)施會(huì)變得更優(yōu)化合理,使得AI無處不在,AI助理、AI分身幫助我們有效緩解時(shí)間稀缺性,改善工作效率和生活體驗(yàn)。
圓桌:AI的6000億難題,從基礎(chǔ)設(shè)施到商業(yè)化落地
AI的6000億美元難題,一直都是整個(gè)行業(yè)非常關(guān)心的話題,在圓桌討論環(huán)節(jié)中,LeptonAI創(chuàng)始人兼CEO賈揚(yáng)清、MiniMax合伙人魏偉、面壁智能聯(lián)合創(chuàng)始人&CTO曾國洋、HuggingFace工程師王鐵震、Agora聯(lián)合創(chuàng)始人TonyWang五位嘉賓一起探討了從AI基礎(chǔ)設(shè)施到AI商業(yè)化落地的機(jī)會(huì)與挑戰(zhàn)。
針對(duì)商用大模型和開源大模型未來的發(fā)展趨勢(shì),賈揚(yáng)清分享了兩個(gè)核心觀點(diǎn):其一,同等質(zhì)量模型的Size會(huì)變得越來越小,計(jì)算效率會(huì)越來越高,模型架構(gòu)也會(huì)變得更加開放和標(biāo)準(zhǔn)。其二,除了極少數(shù)頭部公司之外,越來越多的企業(yè)會(huì)采用開源架構(gòu)來做下一代模型。因此,開源架構(gòu)的應(yīng)用會(huì)變的越來越普遍,通過開源架構(gòu)訓(xùn)練出來的模型也都會(huì)有各自不同的風(fēng)格。
王鐵震則表示,我們將在未來看到越來越多Infra和Realtime的工作,大家不僅需要關(guān)注開源模型本身,還需要重視開源模型的基礎(chǔ)設(shè)施和數(shù)據(jù)閉環(huán),才能把開源模型跑得更好、更快。Realtime需要TTS、也需要大模型,如果能夠通過一些方式放在一起,放在邊緣側(cè)、離用戶更近的地方,才能產(chǎn)生非常好的效果。
關(guān)于如何看待音視頻多模態(tài)模型的實(shí)際應(yīng)用潛力,魏偉表示,隨著多模態(tài)的出現(xiàn),生成式人工智能的邊界一定會(huì)被繼續(xù)拓展,并加速這一產(chǎn)業(yè)的變革。從產(chǎn)品和用戶服務(wù)過程中魏偉發(fā)現(xiàn),文本、語音、音樂、視頻這些模型可以很好的幫助藝術(shù)、影視、音樂等領(lǐng)域的創(chuàng)作者極大地提高效率,并為他們提供新的思路和方法。
針對(duì)大模型技術(shù)巨大的成本使用問題,曾國洋分享到,隨著技術(shù)的前進(jìn),算力一定會(huì)變得越來越便宜,相同能力的模型規(guī)模也會(huì)變得越來越小,但算力成本優(yōu)化會(huì)最終轉(zhuǎn)化為訓(xùn)練更強(qiáng)大的模型。真正達(dá)到AGI水平之前,我們只能感受到模型在變得越來越強(qiáng),很難感受到成本的變化。他還提到,由于面壁智能是做端側(cè)模型的,所以很關(guān)注如何讓模型在端上跑得更快,在實(shí)際部署過程中,他們會(huì)用各種量化壓縮甚至是稀疏化方法去優(yōu)化實(shí)際部署的開銷。
總結(jié)來說,TonyWang認(rèn)為想要推動(dòng)AIInfra到模型、再到商業(yè)化落地,技術(shù)驅(qū)動(dòng)和成本是最核心的兩個(gè)點(diǎn)。此外,在產(chǎn)品真正走向市場(chǎng)的過程中,流量和口碑也是關(guān)鍵。
過去十年,聲網(wǎng)不僅見證并推動(dòng)了RTE從一個(gè)理念變成一個(gè)行業(yè)的過程,更身體力行的打破了國內(nèi)實(shí)時(shí)音視頻領(lǐng)域無行業(yè)會(huì)議、無專業(yè)書籍、無專業(yè)媒體及社區(qū)的三無狀態(tài)。自此,RTE大會(huì)邁入第10年,行業(yè)首本系統(tǒng)介紹實(shí)時(shí)互動(dòng)的技術(shù)型科普?qǐng)D書《讀懂實(shí)時(shí)互動(dòng)》于今年8月正式出版,RTE開發(fā)者社區(qū)也正在秉持著“開放、連接、共創(chuàng)”的理念加速實(shí)時(shí)互動(dòng)和AI的共生。
未來,聲網(wǎng)將繼續(xù)和大家一起,站在全新的起點(diǎn)、擁抱繁榮且充滿挑戰(zhàn)的AI+RTE新時(shí)代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.