5月17日,由搜狐主辦的2025搜狐科技年度論壇在北京盛大開幕。多位院士、科學(xué)家與產(chǎn)業(yè)界人士齊聚一堂,激發(fā)智慧的深度碰撞,奔赴科技的星辰大海。
本屆論壇線上線下結(jié)合,開啟全天的思想盛宴。在上午的線上直播中,MiniMax副總裁薛子釗在演講中分享了多模態(tài)大模型的技術(shù)突破與應(yīng)用。
他提到,作為亞洲范圍內(nèi)成立最早的專注AGI的公司,MiniMax堅持在文本、視覺和聲音三個模態(tài)上做基座模型的研發(fā),并在架構(gòu)創(chuàng)新和產(chǎn)品層面取得了不少突破。
如在語言模型領(lǐng)域,MiniMax是全球第二個在OpenAI之后自主研發(fā)推出商用化MoE(混合專家)模型的創(chuàng)業(yè)公司;今年初又開源了獨(dú)創(chuàng)的線性注意力技術(shù),可處理400萬字上下文,滿足智能體發(fā)展的需求。此外,海螺AI也成為全球文生視頻、圖生視頻領(lǐng)域的領(lǐng)先產(chǎn)品。
“我們認(rèn)為未來的技術(shù)發(fā)展路線,一定是各個模態(tài)會互相融合、互相借鑒,各個模態(tài)之間的技術(shù)路線會發(fā)生交叉。”薛子釗表示,只有在各個模態(tài)都有一線技術(shù)積累的公司,才能在多模態(tài)的下一個競爭階段取得勝利。
他還分享了MiniMax最新的B端應(yīng)用情況,已和5萬家企業(yè)客戶和開發(fā)者達(dá)成合作,業(yè)務(wù)在30多個國家實(shí)現(xiàn)落地,涵蓋辦公、智能硬件、教育、醫(yī)療、文旅等多個場景。
以下是演講全文:
大家好,我是來自MiniMax稀宇科技的薛子釗,今天很榮幸有機(jī)會和大家來分享 Mini Max 在各個模態(tài)、模型技術(shù)和行業(yè)B端合作案例的分享。
我們公司其實(shí)是在 21 年底就成立了,在這個行業(yè)里邊算是有一定歷史的公司。在成立的第一天,公司就專注在做三個模態(tài)的 AGI 基座大模型。回過頭來看,我們也是在亞洲范圍內(nèi)成立最早的專注 AGI 的公司。
我們公司的理念和愿景是與每一個人實(shí)現(xiàn)智能, Intelligence with Everyone。那從第一天我們就堅持在三個模態(tài)上做基座模型的研發(fā),因?yàn)?strong>我們認(rèn)為內(nèi)容交互在未來多個模態(tài)的技術(shù)一定會融合,我們也是現(xiàn)在在全球范圍內(nèi)為數(shù)不多的在各個模態(tài)模型都領(lǐng)先的公司。
第一個模態(tài)是大家最熟悉的語言模型。在過去的三年歷史發(fā)展過程中,我們一直堅定在底層架構(gòu)上做創(chuàng)新和突破。第一次比較大的技術(shù)突破是在 23 年中,我們自主研發(fā)混合專家模型,也就是 MOE(Mixture ofExperts)。
在23年中的時候,我們就投入了公司 80% 的算力和人力來進(jìn)行新一代架構(gòu)的研發(fā),這一代架構(gòu)也使得我們的模型在處理速度上大大提升,大大降低了推理成本,我們也是全球第二個在 OpenAI之后來推出商用化 MoE 模型的創(chuàng)業(yè)公司。
第二次大的突破是在 25 年1月,我們發(fā)布了我們獨(dú)創(chuàng)的線性注意力LinearAttention的技術(shù),這個技術(shù)我們在 25 年初實(shí)現(xiàn)了開源,是全球首個來解決超長上下文的線性注意力機(jī)制的大模型,主要來解決在長上下文時候的計算爆炸問題,也是目前全球能一次處理最長上下文的模型,處理長度達(dá)到 400 萬字。這個概念就是我們可以把一本一門新的語言的一本字典全部放到提示詞里邊,這個模型在推理的時候能瞬間學(xué)會這門新的語言。
這個需求其實(shí)是我們瞄準(zhǔn)了在今年開始會蓬勃發(fā)展的智能體 Agent 的趨勢,因?yàn)?Agent 需要解決超長輸入,超長輸出,同時它的指令遵循也非常復(fù)雜。那為了適配 Agent 時代的發(fā)展的技術(shù)需求,我們堅定的投入到線性注意力機(jī)制這個底層的架構(gòu)創(chuàng)新中,也是為了更快的能賦能各個領(lǐng)域的智能體,解決各個行業(yè)專業(yè)人士的專業(yè)任務(wù)。
第二個模態(tài)是視覺相關(guān)的模型,包含圖片和視頻,相信大家都聽說過海螺。我們的海螺AI視頻創(chuàng)作平臺于 24 年8月推出,效果超越了OpenAI的Sora,在美學(xué)和主體一致性、運(yùn)鏡控制上都全球領(lǐng)先,現(xiàn)在已經(jīng)是這個賽道文生視頻、圖生視頻領(lǐng)域全球領(lǐng)先的產(chǎn)品。
我們第三個模態(tài)是聲音模型,包含了語音和音樂。我們也是從 22 年開始,在國內(nèi)首個以大語言模型基座的架構(gòu)來重做語音模型的公司。我們的語音模型可以實(shí)現(xiàn)任意語言、任意口音和任意音色的無限組合,最新一代語音模型Speech-02拿下了國際兩項(xiàng)權(quán)威榜單,Artificial Analysis和Hugging Face TTS Arena的榜首。
我們認(rèn)為在未來的技術(shù)發(fā)展路線上,一定是各個模態(tài)會互相融合、互相借鑒,在效果上我們會越來越多的看到多模態(tài)相互的交互進(jìn)行融合。在技術(shù)路線上,我們也相信各個模態(tài)之間的技術(shù)路線會發(fā)生交叉,比如說視覺開始借助語言模型的技術(shù)架構(gòu)。我們也堅信只有在各個模態(tài)都有一線的技術(shù)積累的公司,才能在多模態(tài)的下一個競爭階段取得勝利。
我們從 23 年5月開始推出了開放平臺的 B端服務(wù),目前已經(jīng)和千行百業(yè),包括5萬家企業(yè)客戶和個人開發(fā)者進(jìn)行合作,業(yè)務(wù)在 30 多個國家實(shí)現(xiàn)了落地,有很多案例我相信都是大家已經(jīng)在日常生活中用起來的有大模型賦能的場景。
首先比如說我們?nèi)粘^k公的場景,在23 年5月,金山辦公推出了 Copilot 的功能,也是第一次在辦公軟件中實(shí)現(xiàn)了由大模型來賦能,在各個軟件中實(shí)現(xiàn)幫助用戶操作的功能。比如通過MiniMax大模型可以把自然語言轉(zhuǎn)換成 Excel 公式,減去了用戶繁瑣的查找 Excel 公式使用的麻煩;在 Word 中可以幫用戶來潤色內(nèi)容;還可以和非常長的 PDF 文件進(jìn)行互動問答,我們從第一天就開始支持金山辦公 WPS AI 來實(shí)現(xiàn)大模型賦能的各個場景。
第二個場景在今年開始也越來越多的出現(xiàn)在我們的生活中,就是智能硬件,比如智能眼鏡、智能 AI 玩具等,我們也和鴻合科技、惟一智能、弋途科技等幾十家智能硬件企業(yè)一起成立了智能硬件產(chǎn)業(yè)創(chuàng)新聯(lián)盟。在新一波的智能硬件創(chuàng)新浪潮中,智能硬件通過大模型的能力,可以識別周邊環(huán)境的變化,理解周邊環(huán)境用戶想和它交互的內(nèi)容,同時個性化的和用戶進(jìn)行互動。
常見的還有教育領(lǐng)域,我們和高途等多家在線教育公司合作,來實(shí)現(xiàn)大模型在教育場景里邊的賦能。比如說參考名師的聲音,快速幫助老師制作課程內(nèi)容,生成教學(xué)知識點(diǎn)。從模型的能力上出發(fā),我們會發(fā)現(xiàn)這個模型具有在教育行業(yè)里邊非常出色的幾個特點(diǎn)。
首先它知識庫豐富,因?yàn)楸澈笠劳杏诖笳Z言模型;第二會說多種語言,可以任何一種口音、豐富多樣的情緒和用戶互動,因此能和用戶進(jìn)行個性化的交互。那把這些特點(diǎn)結(jié)合在一起,其實(shí)它就是一個可以和你個性化交互的頂尖的老師,而且觸手可得。
在醫(yī)療場景上,MiniMax在 23 年開始和全國最大規(guī)模的藥房之一,高濟(jì)健康合作了AI藥師助手。在這個場景里邊,我們的模型為每一個藥房的線下藥劑師來提供用藥的 AI藥師助手,這可以大大的提升藥師選藥、用藥和病患溝通的準(zhǔn)確率,同時也可以提升工作效率。
文旅和每個人的生活息息相關(guān)。比如說MiniMax和多家博物館合作,讓博物館里面的展品動起來,當(dāng)用戶走到這個博物館的展品旁邊時,可以實(shí)時互動,這個展品就會用通過我們的語音模型介紹藏品背后的故事,也可以解答用戶定制化的問題。
其實(shí)還有很多案例希望和大家分享,也請大家關(guān)注我們公司最新的進(jìn)展,我們將會在近期向全球用戶發(fā)布各個模態(tài)模型的基座更新和新的產(chǎn)品功能,期待大家的關(guān)注。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.