騰訊亮相首屆國際通用人工智能大會混元3D模型下載量超160萬

2025-05-25 16:39:18　來源: 單行科技

北京舉報(bào)

分享至

2025年5月24-25日，由北京通用人工智能學(xué)會主辦的首屆國際通用人工智能大會（TongAI）在北京召開。作為我國首個(gè)聚焦通用人工智能（AGI）的國際學(xué)術(shù)盛會，大會匯聚來自哈佛大學(xué)、新加坡管理大學(xué)、北京大學(xué)、清華大學(xué)等國內(nèi)外一流高校專家學(xué)者以及騰訊等領(lǐng)軍企業(yè)技術(shù)領(lǐng)袖共襄盛舉，通過深度思想碰撞與交流構(gòu)建原創(chuàng)性技術(shù)路線，推動國際學(xué)術(shù)界攜手突破認(rèn)知邊界、共塑技術(shù)范式。

騰訊首席科學(xué)家、Robotics X實(shí)驗(yàn)室主任張正友在大會主論壇作主題報(bào)告。騰訊杰出科學(xué)家胡瀚在“多模態(tài)交互學(xué)習(xí)”專題會議中對騰訊混元多模態(tài)大模型進(jìn)行了詳細(xì)介紹。

胡瀚提到，騰訊在大模型上的技術(shù)迭代正不斷提速。

騰訊混元模型矩陣全面升級，旗艦快思考模型混元TurboS、深度思考模型混元T1雙雙迭代。基于TurboS基座，騰訊新推出視覺深度推理模型T1-Vision和端到端語音通話模型混元Voice。混元圖像2.0、混元3D v2.5及混元游戲視覺生成等一系列多模態(tài)模型也同步“上新”。

語言模型躋身全球前八，技術(shù)能力持續(xù)提升

在瘋狂卷技術(shù)的全球大模型角逐中，騰訊混元正小步快跑、快速迭代，技術(shù)能力持續(xù)提升。

在全球公認(rèn)的權(quán)威大語言模型評測平臺Chatbot Arena上，混元TurboS排名已攀升至全球前八，國內(nèi)僅次于DeepSeek。其中，代碼、數(shù)學(xué)等理科能力，混元TurboS也進(jìn)入全球前十。

年初，混元TurboS正式發(fā)布，作為業(yè)界首款大規(guī)模混合Mamba-MoE模型，其在效果與性能上已展現(xiàn)出顯著優(yōu)勢。而這一最新突破，則得益于預(yù)訓(xùn)練階段的tokens增訓(xùn)，以及后訓(xùn)練階段引入長短思維鏈融合技術(shù)，使得TurboS理科推理提升超10%，代碼能力提升24%，競賽數(shù)學(xué)成績大幅提升了39%。

早在去年下半年，騰訊就大力投入了深度思考模型的路線攻關(guān)。深度思考模型混元T1自年初上線元寶App后，持續(xù)快速迭代。近期，混元T1也迎來新升級，在多項(xiàng)核心能力上均實(shí)現(xiàn)了提升：其中，在競賽數(shù)學(xué)上效果提升8%；在常識問答上提升8%；在復(fù)雜任務(wù)的Agent能力提升了13%。

多模態(tài)模型快速迭代，首秀3D場景生成

基于TurboS的基座模型，混元進(jìn)一步拓展了圖片和音頻的多模態(tài)理解能力。新發(fā)布的混元視覺深度推理模型T1-Vision，支持多圖輸入，具備原生長思維鏈，輕松實(shí)現(xiàn)“邊看圖邊思考”，整體效果相比此前級聯(lián)方案提升 5.3%，整體理解速度提升50%。

端到端語音通話模型混元Voice，實(shí)現(xiàn)低延遲語音通話，相比級聯(lián)方案，響應(yīng)速度提升超過30%，降至1.6秒，擬人性和情緒應(yīng)用能力也有明顯提升，目前已在騰訊元寶App灰度上線。實(shí)時(shí)視頻通話AI體驗(yàn)，近期將推出。

今年以來，混元的迭代速度明顯加快。在多模態(tài)生成領(lǐng)域，混元圖像2.0率先實(shí)現(xiàn)“毫秒級”生圖，GenEval基準(zhǔn)測試準(zhǔn)確率超95%。這背后得益于超高壓縮倍率的圖像編解碼器以及全新擴(kuò)散架構(gòu)，模型參數(shù)量提升了一個(gè)數(shù)量級，帶來交互體驗(yàn)的革新。在主觀畫面質(zhì)量和美學(xué)層面的人工測評中，混元圖像2.0也被認(rèn)為是“AI味”最少的模型之一。

混元3D v2.5憑借業(yè)界首創(chuàng)的稀疏3D原生架構(gòu)，實(shí)現(xiàn)了可控性與超高清生成能力的代際飛躍，幾何模型精度提升10倍，紋理貼圖達(dá)4K。在端到端評測中，混元文生3D在17個(gè)生成類目中占據(jù)15個(gè)第一，圖生3D在17個(gè)類目中全部取得第一。

在游戲領(lǐng)域，混元推出精通游戲美術(shù)與術(shù)語的混元游戲視覺生成模型，涵蓋游戲技能特效生成、角色動態(tài)立繪、實(shí)時(shí)交互游戲世界模型、角色多視圖等五大子模型。混元游戲視覺生成平臺也正式上線，面向工業(yè)級游戲資產(chǎn)生成，讓游戲美術(shù)設(shè)計(jì)效率提升數(shù)十倍。

近期，混元還將推出首個(gè)大規(guī)模、可漫游3D場景生成模型，支持沉浸式交互、多樣風(fēng)格場景生成及360°全景漫游體驗(yàn)，助力游戲、具身智能等行業(yè)創(chuàng)新。

混元3D模型下載量超160萬，多尺寸模型全面開源

混元正加速向智能化的深度與廣度邁進(jìn)，為AI普惠與產(chǎn)業(yè)升級提供堅(jiān)實(shí)支撐。混元堅(jiān)定擁抱開源，持續(xù)推進(jìn)多尺寸、多場景的全系模型開源。

目前，混元已實(shí)現(xiàn)圖像、視頻、3D、文本等在內(nèi)的全模態(tài)開源，其中，混元3D模型Hugging Face下載量超過160萬。未來，混元計(jì)劃推出多尺寸混合推理模型，從0.5B到32B的dense模型，以及激活13B的MoE模型，適配企業(yè)與端側(cè)不同需求。混元圖像、視頻、3D等多模態(tài)基礎(chǔ)模型及配套插件模型也將持續(xù)開源。

除模型開源外，混元面向行業(yè)推出混元訓(xùn)練營，提供免費(fèi)模型資源及技術(shù)支持，目前已有超過200家合作伙伴報(bào)名參與。

今年以來，騰訊在大模型領(lǐng)域的戰(zhàn)略和部署持續(xù)進(jìn)化，步伐日益加快。近期，騰訊混元大模型研發(fā)體系全面重構(gòu)，刷新團(tuán)隊(duì)部署，加碼研發(fā)投入。伴隨投入加碼，騰訊AI戰(zhàn)略也正在加速落地。

目前，混元已深度融入騰訊各業(yè)務(wù)線，廣泛應(yīng)用于微信、QQ、騰訊元寶、騰訊會議、騰訊文檔等核心產(chǎn)品，提升騰訊內(nèi)部產(chǎn)品的智能化水平，并通過騰訊云向外輸出模型能力，幫助企業(yè)和開發(fā)者創(chuàng)新提效。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.