網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

文小言官宣：支持多模型調(diào)度，升級(jí)全新語音大模型、圖片問答能力

2025-03-31 18:33:02　來源: 未來圖靈

北京舉報(bào)

分享至

3月31日，在新一期百度AIDAY上，百度旗下的文小言正式宣布完成品牌煥新與功能升級(jí)，以嶄新的姿態(tài)進(jìn)軍AI應(yīng)用市場(chǎng)，為用戶帶來更為智能、高效的使用感受。此次升級(jí)不僅體現(xiàn)在品牌視覺形象的煥然一新，更聚焦于模型開放與功能創(chuàng)新，通過支持多模型融合調(diào)度，升級(jí)全新語音大模型、圖片問答、AI生圖生視頻等多項(xiàng)核心能力，為用戶構(gòu)建了一個(gè)全方位、多層次的AI交互體系。

圖片來源：未來圖靈拍攝

百度AI產(chǎn)品創(chuàng)新業(yè)務(wù)負(fù)責(zé)人薛蘇強(qiáng)調(diào)：“AI的未來不再是單純的技術(shù)參數(shù)比拼，而是如何通過多模型協(xié)同，真正為用戶創(chuàng)造價(jià)值。文小言希望通過開放生態(tài)，整合頂尖模型能力，打造出更強(qiáng)大、更易用的AI產(chǎn)品?！?br/>

多模型融合，鑄就AI“超級(jí)大腦”

據(jù)介紹，文小言此次升級(jí)的核心亮點(diǎn)在于“多模型融合調(diào)度”。它整合了百度自研的文心X1、文心4.5等頂尖模型，并接入DeepSeek-R1、可靈等第三方優(yōu)質(zhì)模型，實(shí)現(xiàn)了多模型間的智能協(xié)同。用戶只需選擇“自動(dòng)模式”，文小言就能依據(jù)用戶的需求和問題特性，智能匹配并一鍵調(diào)用最優(yōu)模型組合；用戶也可根據(jù)自身對(duì)模型的了解及特定任務(wù)需求，靈活選擇單一模型執(zhí)行任務(wù)，大幅提升響應(yīng)速度與任務(wù)處理能力。

在實(shí)際應(yīng)用中，文小言的多模型融合調(diào)度展現(xiàn)出強(qiáng)大的優(yōu)勢(shì)。當(dāng)用戶提出“設(shè)計(jì)三種風(fēng)格的南偏東客廳效果圖”的需求時(shí)，文小言能夠迅速精準(zhǔn)解析裝修風(fēng)格差異，調(diào)用文心X1完成深度推理，從空間布局、色彩搭配到家具選擇等多個(gè)維度進(jìn)行構(gòu)思，最終生成三幅風(fēng)格迥異但視角一致的裝修效果圖，滿足用戶對(duì)多樣化設(shè)計(jì)的需求。而當(dāng)用戶隨手拍攝一張茅臺(tái)鎮(zhèn)的照片并詢問相關(guān)信息時(shí)，文小言可調(diào)用文心4.5的多模態(tài)分析能力，精準(zhǔn)識(shí)別出照片中的地理位置、當(dāng)?shù)禺a(chǎn)業(yè)、建筑風(fēng)格等詳細(xì)信息，為用戶提供全面且深入的解讀。

功能升級(jí)，解鎖AI應(yīng)用新場(chǎng)景

除了多模型融合調(diào)度這一核心升級(jí)外，文小言在功能層面也實(shí)現(xiàn)了全面突破，進(jìn)一步提升了全新語音大模型、圖片問答、AI生圖生視頻等能力，全方位優(yōu)化用戶體驗(yàn)。

全新語音大模型為用戶帶來了前所未有的交互體驗(yàn)。該模型支持方言對(duì)話，無論是重慶話的火辣熱情、廣西話的獨(dú)特韻味，還是河南話、廣東話、山東話等各具特色的方言，文小言都能流暢識(shí)別并進(jìn)行回應(yīng)，讓用戶在與AI交流時(shí)感受到濃厚的地域親切感。

同時(shí)，它還能應(yīng)對(duì)復(fù)雜知識(shí)問答，無論是科學(xué)難題、歷史典故還是文化藝術(shù)等方面的問題，文小言都能憑借強(qiáng)大的知識(shí)儲(chǔ)備和智能分析能力給出準(zhǔn)確解答。此外，用戶在交流過程中可以隨時(shí)打斷，進(jìn)行趣味角色扮演，如模擬與名人對(duì)話、進(jìn)行故事接龍等。

百度語音首席架構(gòu)師賈磊透露，該模型是百度在業(yè)界首個(gè)推出、基于全新互相關(guān)注意力（Cross-Attention）的端到端語音語言大模型。

在語音場(chǎng)景滿足一定交互指標(biāo)下，大模型調(diào)用成本比行業(yè)平均降低50%-90%，推理響應(yīng)速度極快，將語音交互等待時(shí)間壓縮至1秒左右，極大提升了交互流暢性。同時(shí)，在大模型加持下，實(shí)現(xiàn)了流式逐字的LLM驅(qū)動(dòng)的多情感語音合成，情感飽滿、逼真、擬人，交互聽感也得到極大提升。

圖片問答功能同樣是此次升級(jí)的一大亮點(diǎn)。用戶可以通過拍攝或上傳圖片，以文字或語音提問的方式直接獲取深度解析。

在教育領(lǐng)域，學(xué)生拍攝一道數(shù)學(xué)題，文小言可實(shí)時(shí)生成解題思路與視頻解析，幫助學(xué)生理解題目背后的知識(shí)點(diǎn)和解題方法，就像擁有一位隨時(shí)在線的專屬輔導(dǎo)老師。在購物場(chǎng)景中，用戶上傳多款商品圖，文小言能快速對(duì)比參數(shù)、價(jià)格，輔助購物決策，幫助用戶挑選到性價(jià)比最高的商品。對(duì)于設(shè)計(jì)師而言，拍攝杯子設(shè)計(jì)圖后，AI可自動(dòng)解析風(fēng)格并生成同款手機(jī)殼、支架等周邊產(chǎn)品，為設(shè)計(jì)靈感的拓展和產(chǎn)品衍生提供了便捷途徑。

值得一提的是，新增的“圖個(gè)冷知識(shí)”功能更富趣味性。用戶可預(yù)設(shè)“歷史學(xué)者”“科技達(dá)人”等人設(shè)視角，為同一圖片賦予多維解讀。當(dāng)用戶詢問“貓窗探秘，為何貓愛窗邊的科學(xué)真相？”時(shí)，文小言能從狩獵本能、能量獲取、領(lǐng)地意識(shí)等多個(gè)角度給出獨(dú)特解讀。

薛蘇在現(xiàn)場(chǎng)表示，模型競(jìng)爭(zhēng)之上是產(chǎn)品競(jìng)爭(zhēng)，再之上是營(yíng)銷競(jìng)爭(zhēng)。就當(dāng)前大模型領(lǐng)域來看，模型競(jìng)爭(zhēng)最為激烈，其次是產(chǎn)品競(jìng)爭(zhēng)，最上層是營(yíng)銷競(jìng)爭(zhēng)。由于模型和產(chǎn)品發(fā)展迅猛，其實(shí)最好的營(yíng)銷就是模型本身的技術(shù)實(shí)力，傳統(tǒng)營(yíng)銷手段雖有作用，但會(huì)被模型與技術(shù)發(fā)展弱化。所以，文小言格外關(guān)注模型側(cè)和產(chǎn)品側(cè)進(jìn)展。

他認(rèn)為，模型側(cè)呈現(xiàn)幾個(gè)趨勢(shì)，一是模型愈發(fā)強(qiáng)大，像傳統(tǒng)推理模型、知覺模型的通用大模型都在變強(qiáng)，多模態(tài)模型也越來越多且性能提升。而在應(yīng)用層、產(chǎn)品層，還有很多可做的事。如何利用好新模型，真正解決用戶實(shí)際問題，是產(chǎn)品層當(dāng)下重要之事。

“百度在模型層和產(chǎn)品層都在發(fā)力。一方面，我們有更好的自研模型，也在合理調(diào)度外部模型。作為AI創(chuàng)新產(chǎn)品負(fù)責(zé)人，我們團(tuán)隊(duì)核心精力聚焦于產(chǎn)品創(chuàng)新，要把綜合模型更好地應(yīng)用起來，在模型基礎(chǔ)上構(gòu)建最好的應(yīng)用是我們接下來的重點(diǎn)。今天談到的應(yīng)用只是開端，未來我們會(huì)致力于做好應(yīng)用，為大家提供真正好用的產(chǎn)品，也請(qǐng)大家期待我們未來更多更好的產(chǎn)品?！毖μK說道。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.