網易首頁 > 網易號 > 正文申請入駐

騰訊首個全模態模型混元O將發布，正面硬剛DeepSeek和字節豆包｜AGI獨家

2025-05-25 11:53:11　來源: 鈦媒體APP

北京舉報

分享至

騰訊不止“關愛”DeepSeek，其自研大模型“混元”似乎也要發力，不僅瞄準豆包，而且要發力“全模態”，利用更多資源投向通用人工智能（AGI）。

5月25日消息，筆者獨家獲悉，基于騰訊自研大模型混元的首個端到端語音通話模型Hunyuan-Voice，最快今年6月上線騰訊元寶App，從而與豆包AI視頻通話功能對抗。而且，騰訊已規劃多模態和全模態路線，最快今年將推出全球首個“全模態模型”，代號為混元-O，瞄向“世界模型”。

隸屬于騰訊TEG（技術工程）事業群的騰訊混元科研人員透露，面向AGI，混元將以語言模型為核心，探索多種模態融合，并將向深度、廣度兩方面持續推進探索。一方面，混元從大語言模型向多模態模型發展，理解和模擬物理世界；同時，混元還將瞄準更智能的推理、規劃、智能體，以及探索知識邊界，自我啟發、自我迭代、自我發現，最終與具身智能等技術結合，向環境中自主行動和學習的世界模型方向進行探索。

這是首個披露騰訊混元最新規劃的消息，在此之前，騰訊沒有對外披露過混元-O全模態模型技術。

后發混元大模型，馬化騰直夸DeepSeek

隨著2022年底ChatGPT風靡全球，2023年2月，騰訊混元大模型項目正式啟動，并部署AI大模型技術研發工作，以語言模型為基礎，逐步打造涵蓋各種模態的模型矩陣。

2023年9月，騰訊在全球數字生態大會上正式發布混元大模型，并宣布通過騰訊云對外開放。該模型是騰訊全鏈路自研的通用大語言模型，擁有超千億參數規模，預訓練語料超2萬億tokens；9月中旬，混元大模型首批通過《生成式人工智能服務管理暫行辦法》備案。

2024年，騰訊混元大模型加速迭代，1月發布高性能MoE模型，5月開源業界首個中文DIT文生圖模型，隨后發布混元多模態理解模型；9月，混元Turbo發布；11月，騰訊混元開源大語言模型Hunyuan-large。

事實上，騰訊很早就布局AI技術，2021年騰訊就推出千億和萬億參數的NLP稀疏大模型，但是在混元問題上，截至2024年底，騰訊混元一直落后于OpenAI，并且未與豆包、阿里通義、DeepSeek等模型拉開差距，騰訊AI應用元寶也未與kimi等產品形成頭部效應。

2023年股東大會上，騰訊集團董事長兼CEO馬化騰表示，AI是全行業甚至全世界的重點，騰訊總算能跟上第一陣列，不能算最領先，但是至少沒有太落后。

“我們最開始以為這是互聯網十年不遇的機會，但是越想越覺得這是幾百年不遇的、類似發明電的工業革命一樣的機遇。互聯網企業都有很多的積累，都在做，我們也一樣在埋頭研發，但是并不急于早早做完，把半成品拿出來展示。”馬化騰稱。

馬化騰強調，后面還要結合場景發展，把AI混元大模型應用到各個場景中，“短期內一兩年內我感覺不會有一個純原生AI大的應用，應該還是要結合到我們的所有產品里面效率提升等，我覺得這個是一個很大的機會。”

到了2025年，中國開源AI模型DeepSeek風靡全球，騰訊突然加速AI應用落地部署，旗下元寶、瀏覽器、微信、ima、騰訊文檔、QQ瀏覽器、QQ音樂等多款騰訊產品，在接入混元大模型的同時，接入DeepSeek-R1模型。在外界看來，這讓混元AI大模型處境略顯尷尬，似乎成為“備胎”。

DeepSeek-R1雖彌補了混元大模型在推理速度和響應效率上的不足，卻使得用戶更傾向于使用有DeepSeek加持的功能。

今年3月騰訊年報溝通會中，馬化騰談及DeepSeek時表示，深度思考模型出來后，AI智能化比以前有大幅提升，而且DeepSeek出現后，開源和中國工程師在關注成本和效率方面的優勢較為明顯。AI的智能化程度相比往年有大幅度提升，對于騰訊來說經過慎重思考，云業務和元寶都在擁抱AI。未來應用大發展的機會已經到來，各家都在采用AI落地，也看到AI Agent（智能體）的發展，背后有很多AI相關工具的想象空間。目前AI生態還在早期，各行各業都會受益于AI普及，相信每個行業都會擁抱這個機會。

“我們業界和梁文鋒都有交流，很敬佩市場上出現獨立、開源的產品，我們非常尊重。”馬化騰表示。

與此同時，騰訊集團CSIG旗下騰訊云針對DeepSeek開源的DeepEP通信框架進行深度優化，使其在多種網絡環境下均實現顯著性能提升。相關技術方案也獲得了DeepSeek公開致謝，稱這是一次“huge speedup”代碼貢獻。

“使用GPU進行大語言模型訓練。去年有一段時間，人們認為每一代大型語言模型都需要數量級更大的GPU，但 DeepSeek 的突破性進展結束了這一時期。現在，業界以及我們業內人士都能夠利用現有GPU大幅提高大型語言模型訓練的生產力，而無需像之前預期的那樣額外添加GPU。”騰訊此前在財報會上表示。

據界面，一位負責互聯網大廠投流的營銷供應商表示，騰訊在元寶上的投流打法復制了去年字節跳動豆包“大力出奇跡”的推廣模式，通過自家產品生態自帶的流量中心優勢（字節主要依賴抖音、今日頭條，騰訊依賴微信），再加上大規模廣告投放引流。唯一的區別是，字節跳動投流的宣傳對象主要是自家的“豆包”AI模型，騰訊則幾乎為每一條元寶廣告都貼上了“DeepSeek”標簽，自家混元模型反而沒有太多曝光。

不過，騰訊似乎依然不想放棄自研大模型產品。隨著全球AI產業全面形成“重資源”投入趨勢，騰訊希望利用“自研+開源”多模型策略，加速全域產品AI滲透。

目前混元是由騰訊TEG（技術工程）進行主導研發，隨著姚星、蔣杰等人陸續離職，目前騰訊混元負責人是騰訊首席科學家、騰訊機器人X實驗室主任、視覺計算機領域專家張正友，他向騰訊集團高級執行副總裁、技術工程事業群總裁盧山匯報；而元寶、騰訊云等隸屬于CSIG事業群，由騰訊集團高級執行副總裁、云與智慧產業事業群總裁湯道生領導。

這兩大事業群主導騰訊AI業務研發和落地。

2025年2月，混元深度思考推理模型T1預覽版上線騰訊元寶；3月，混元 Turbos通用模型發布；4月，新一代旗艦混元多模態模型發布；5月，多模態慢思考深度推理模型混元T1-Vision發布，端到端語音通話模型也在5月底發布，并將上線騰訊元寶。

目前，混元 TurboS 在權威評測平臺Chatbot Arena中已躋身全球前八，低于OpenAI O3、Gemini、DeepSeek-R1等模型，在代碼與數學等理科能力上躋身全球前十。最新一輪升級中，TurboS 在理科推理、代碼能力和競賽數學三項指標上分別提升了超10%、24%與39%。

筆者了解到，混元團隊正在規劃多模態和全模態模型。

“多模態認知系統應該怎么去構建？一個核心觀點，應該以語言模型為核心。語言的邊界可能也是世界的邊界，這個意思就是說語言跟認知可能是等價的，所以這個是從任務角度來說是這樣的。因此，我們就基于它去做了視覺模型、語音模型，同時我們也在規劃全模態模型，它都是以語言模型為核心，再進行知識推理鏈，這樣的話我們能夠利用好語言模型強大能力，同時它也是一個混合彈性的結構。”混元團隊稱。

下一步，面向通用AI，騰訊混元嘗試用深度、廣度兩個方面推進，最后目標是希望創造一個類似于賈維斯這樣的一個機器人，它能夠自主去在比較復雜的世界里面探索。

談到具身智能，5月24日首屆國際通用人工智能大會上，張正友表示，目前機器人本體能力、機械能力和身體部分能力距離人類還差很遠，具身智能的機器人大腦和身體是不協調的，所以真正的具身智能，是要能夠身體和智能融合，并且能夠自主學習處理問題，環境變化不確定下能夠自動調整和規劃系統。因此，復雜的感知能力、執行能力、學習能力、規劃模型的集中智能等能力都需不斷提升。

張正友強調，要探索一個最佳機器人本體形態，人形機器人當然是其中一個，但雙足、人形機器人不一定是最佳的形態。

“具身智能現在正在往上發展，但到一定程度以后，不一定是寒冬，至少資本上面會有一個縮減的過程，最后會繼續往前發展。所以從我們角度來講，我們要繼續提升具身智能的能力，寒冬過后能夠有更好的發展。”張正友稱。

7年投入超3900億，騰訊要與阿里、字節激戰AI

“這些‘大模型六虎’正在以三倍速，走當年我們‘AI四小龍’（依圖、曠視、云從、商湯）2017-2019年的老路。”依圖科技聯合創始人林晨曦曾對筆者表示，如果 AI 創業公司想在國內 C 端產品中獲得商業化，能力和最終結果遠不及字節等互聯網大廠，后者有大量的投入、人力資源、流量與用戶規模，這是創業公司無法做到的。

如今，騰訊決定向 AI 技術領域加大研發投入。

2024年，騰訊研發投入達706.86億元，過去7年累計投入達3912億元；年度資本開支更突破767億元，同比增長221%，創歷史新高。其中，AI項目發展所涉及的資本開支就達390億元。

劉熾平表示，騰訊計劃2025年進一步加大資本開支，預計會占2025年總收入的“低兩位數百分比”。這意味著，2025年騰訊的資本開支可能接近1000億元的水平。

除了騰訊，阿里、字節都在加大AI研發投入力度。阿里巴巴集團CEO吳泳銘已經宣布，未來三年，阿里將投入超過3800億元，用于建設云和AI硬件基礎設施，總額超過去十年總和。這也創下中國民營企業在云和AI硬件基礎設施建設領域有史以來最大規模投資紀錄。

落地層面，騰訊主要在B端、C端兩部分落地。

其中，C端方面，騰訊元寶接入“滿血版”DeepSeek- R1模型，并能讀懂圖片后，今年2月、3月曾多次登上蘋果AppStore中國區免費榜前列，3月3日晚成為下載排行榜第一名。

B端層面，截至目前，騰訊內部超過700個業務場景獲得混元大模型底座支持，大概每個月接入超百個場景，已有來自零售、教育、金融、醫療、傳媒、交通、政務等多個行業的客戶通過騰訊云調用騰訊混元大模型API。

騰訊總裁劉熾平在此前財報會上表示，“微信搜索的查詢量和收入持續快速增長。我們整合了騰訊混元和DeepSeek大型語言模型能力，提升了微信搜索結果的相關性和質量。目前，騰訊自有模型支持的搜索結果已覆蓋超過90%的問答式搜索。”

最新財報顯示，2025財年第一財季，騰訊實現總收入1800億元，同比增長13%。其中，To B業務（金融科技及企業服務）實現營收549億元。

展望未來，AI 是一個資本型、學術交叉型復雜技術，需要超強的算力、優秀的人才、高超的技術研發實力等，因此，新的 AI 大模型的“下半場”一定是巨頭之間的較量，而作為BAT三大中國互聯網頭部公司之一，騰訊混元將與阿里通義、字節豆包激戰AI智能體和商業化落地，尤其在“AI+云”平臺層面。

清華大學計算機系副教授劉知遠表示，“AGI新技術還在加速演進，未來發展路徑尚不明確。我們仍處于追趕階段，已經不是望塵莫及，但也只能說是望其項背。在別人已經探索出來的路上跟隨快跑是相對容易的，接下來我們要面對一團未來迷霧。”

湯道生最近表示，AI行業還處于早期階段。大家都在跑馬圈地，嘗試著不同的商業模式。有的在追Scaling Law，有的在打造To C市場新入口，有的在做產業落地，非常熱鬧。

“AI正在跨過產業化落地的門檻，站在普及應用的全新節點上。行業由之前的模型訓練主導，發展到今天更多是應用與Agent驅動；我們看到，云上DeepSeek API調用量激增，語音交互的需求也帶動了ASR（自動語音識別）與TTS（文本轉語音）模型的API調用；模型推理的算力消耗正在高速增長，規模化推理的成本優化，成為云廠商的核心競爭力。”湯道生說。

湯道生5月21日強調，模型深度思考的突破，推動生成式AI的可用性從“量變”發展到“質變”，騰訊持續加大AI投入力度，各項業務全面擁抱AI。同時也以大模型、智能體、知識庫和基礎設施“四個加速”，打造“好用的AI”。

（本文首發于鈦媒體App，作者｜林志佳）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.