網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

中國的大模型怎么突然間就領(lǐng)先了？

2025-02-25 08:59:23　來源: 碼農(nóng)翻身

河南舉報(bào)

分享至

2025年開年，國產(chǎn)的大模型頻頻“刷屏”。

DeepSeek用低成本和高性能震撼了世界，MiniMax一出手就是“王炸”，MiniMax-01憑借超長的長文本理解能力，被海外媒體、投資人和研究員認(rèn)為是可以和OpenAI“掰手腕”的頂尖開源模型。

之前還有人說中國頂尖企業(yè)的大型語言模型大約落后美國同行6到9個(gè)月，這怎么突然間就領(lǐng)先了呢？

其實(shí)，如果我們仔細(xì)看看這些優(yōu)秀大模型的特點(diǎn)和最近的發(fā)展策略，就能從中找到答案。

底層技術(shù)創(chuàng)新是根本

MiniMax針對大模型最底層、最核心的Transformer架構(gòu)進(jìn)行了重構(gòu)，它第一次在一個(gè)超大規(guī)模商用模型上，引入了有別于傳統(tǒng)Transformer架構(gòu)的線性注意力機(jī)制，以極低的算力成本，為困擾著整個(gè)大模型行業(yè)的難題提供一個(gè)新的解題思路。

這種底層技術(shù)創(chuàng)新讓MiniMax-01大模型能夠高效處理高達(dá)400萬token的輸入，可輸入長度是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。

特別值得一提的是，最近包括DeepSeek在內(nèi)的多家公司的最新研究論文均聚焦于通過改進(jìn)傳統(tǒng)稀疏注意力機(jī)制的架構(gòu)來提升大語言模型的長文本處理能力，而MiniMax早在1月中旬就把具備超長文本處理能力的模型發(fā)布并且開源了！

同樣，DeepSeek也是在大模型中采用了創(chuàng)新的架構(gòu)，從而實(shí)現(xiàn)了極低的訓(xùn)練成本和很好的推理能力。

由于MiniMax-01大模型在底層技術(shù)層面做出了創(chuàng)新，所以一經(jīng)發(fā)布，立刻在海外引起了熱議浪潮。

除了開源模型，在文生視頻領(lǐng)域，MiniMax也做了重要更新。

基于MiniMax S2V-01視頻模型的“主體參考”功能，僅需上傳一張圖片即可識別并鎖定主體角色。文本框內(nèi)輸入Prompt提示詞，無需漫長等待，即可生成富有創(chuàng)意且主體保持一致的高質(zhì)量視頻。

主體參考+Prompt：A close-up of a young boy in a dimly lit room, his eyes fixed on the glowing screen of a gaming console. The camera is positioned slightly above eye level, focusing on his concentrated expression as his fingers nimbly manipulate the controller. A game character appears, breaking free from the screen's confines.

2024年12月，基于MiniMax大模型的海螺AI海外訪問量超2700萬，突破歷史新高并榮登12月全球AI視頻產(chǎn)品榜首位。

所以，對于一家大模型公司來說，堅(jiān)持技術(shù)驅(qū)動(dòng)，堅(jiān)持底層架構(gòu)創(chuàng)新，不在產(chǎn)品上繡花，才是AI時(shí)代的正確打法。

DeepSeek、MiniMax等公司就是這么做的，所以它們可以在眾多大模型中脫穎而出。

前瞻性的戰(zhàn)略布局

MiniMax的CEO閆俊杰在接受采訪時(shí)說道：“中國大部分公司，不管創(chuàng)業(yè)公司還是大廠，都還在用做推薦系統(tǒng)的方法來做大模型產(chǎn)品。”

“推薦” 的邏輯是：用戶越多，反饋越多，推薦引擎越聰明。

而閆俊杰認(rèn)為，AI 大模型和產(chǎn)品的真實(shí)關(guān)系是：“更好的模型可以導(dǎo)向更好的應(yīng)用，但更好的應(yīng)用和更多用戶并不會(huì)導(dǎo)向更好的模型。”

換句話說，一個(gè)大模型智能的提升，并不是靠上層的應(yīng)用和更多的用戶,而是靠模型自己的迭代創(chuàng)新。

用戶數(shù)并不是AI競爭的核心，所以MiniMax很早就轉(zhuǎn)換了自己的目標(biāo)：加速模型的技術(shù)迭代。

MiniMax-01模型就是這種前瞻性戰(zhàn)略決策的成果之一，它首次在 4000 億以上參數(shù)的大模型中，使用了線性注意力機(jī)制新架構(gòu)，能高效處理全球最長的 400 萬 token 上下文。

DeepSeek的爆火也證明了這一點(diǎn)，它不宣傳用戶數(shù)、API調(diào)用量這些數(shù)據(jù)，就靠強(qiáng)悍的模型能力，便宜的價(jià)格，在7天內(nèi)狂攬1億用戶，增長速度非常夸張。

除此之外，MiniMax和DeepSeek一樣，都走上了和OpenAI相反的道路：開源。

這種策略立刻點(diǎn)燃了全球用戶的熱情，掀起了討論、部署、使用的狂潮，這種盛況是前所未有的，在封閉的ChatGPT時(shí)代是絕對不可能看到的。

當(dāng)全世界的用戶都能接觸到最前沿的技術(shù)，并且進(jìn)行持續(xù)改進(jìn)時(shí)，閉源是無論如何都打不過開源的。

全世界的開發(fā)者完全可以站在開源的MiniMax-01的肩膀上，構(gòu)建無數(shù)的應(yīng)用生態(tài)，推動(dòng)大模型加速向AGI方向發(fā)展。

開源形成巨大的影響力，占領(lǐng)了用戶的心智，無形中極大地提升了MiniMax和DeepSeek的全球技術(shù)品牌。

這就給閉源的大模型公司形成了巨大的壓力，最近，就連OpenAI CEO 山姆?阿爾特曼也承認(rèn)：“我們過去在開源方面一直站在歷史錯(cuò)誤的一邊...... OpenAI需要‘弄清楚另一種開源戰(zhàn)略’”

中國大模型很有希望

從DeepSeek、MiniMax等公司的成長軌跡和戰(zhàn)略布局中，我們可以清晰地看到，國產(chǎn)大模型不僅有能力迅速追趕國際領(lǐng)先水平，更具備超越的潛力。

它們選擇了一條艱難但正確的道路：深耕底層技術(shù)，以創(chuàng)新為核心驅(qū)動(dòng)力，同時(shí)通過開源大模型吸引全球開發(fā)者，構(gòu)建開放生態(tài)。

這種“技術(shù)深耕+生態(tài)開放”的雙輪驅(qū)動(dòng)模式，釋放出了強(qiáng)大的創(chuàng)新勢能。在通往AGI（通用人工智能）的道路上，“顛覆”將成為常態(tài)，而只有那些持續(xù)突破底層技術(shù)、并成功構(gòu)建繁榮生態(tài)的企業(yè)，才能在激烈的競爭中脫穎而出，成為最后的贏家。

隨著更多類似MiniMax企業(yè)的涌現(xiàn)，中國大模型的發(fā)展前景將不可限量，有望在全球AI舞臺上占據(jù)領(lǐng)先地位。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.