網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從 0 到 1 打造 Labubu ，MiniMax Agent 讓我看到了智能體未來的樣子

2025-06-17 22:30:35　來源: 愛范兒

廣東舉報

分享至

今年上半年，最吊足胃口和期待的，莫過于 Agent 工具，餅畫得都很大：日常中那些燒腦、重復(fù)、耗時間的任務(wù)，現(xiàn)在似乎只需要動動手指、敲幾行 prompt 就能搞定。

大餅真的很誘人，但仔細(xì)想想：想要真的做到那么有用，需要的，是某種與你我類似的思考、規(guī)劃，甚至還有能自己跟自己較勁、主動反思的能力。

帶著這個想法，我們測試了最新的 MiniMax Agent 進(jìn)行了一輪深度測試——不再滿足于入門級的考察，而是把它丟進(jìn)了一些充滿趣味和挑戰(zhàn)、又不失真實的工作場景，想看看它到底能聰明到什么程度。

對 MiniMax Agent 的期待，千言萬語只有一點：玩著玩著，就把活兒干了。

創(chuàng)意內(nèi)容：超越想象的視覺敘事

MiniMax 本身就在多模態(tài)模型上積累深厚，這樣的優(yōu)勢，對于想要出產(chǎn)創(chuàng)意型作品，可謂是信手拈來。

最近的 Labubu 簡直火出天際，剛好就來給 Labubu 搞個宣傳計劃——聽起來很復(fù)雜，這個 Agent 絲毫不慌，先制定一套完整的宣傳策略計劃，確定交付物清單，再有序生成海報，再按部就班地準(zhǔn)備宣傳海報。

全程看下來，MiniMax Agent 一邊動腦思考，一邊調(diào)用合適的工具，主打一個行云流水，有條不紊。

就交付的結(jié)果來說，還真是不小的驚喜：不僅視覺審美在線，介紹文案也講得清清楚楚，主題海報畫廊一套接一套，別說，MiniMax Agent 不只能做事，居然還有點「品味」。

類似的，還可以繼續(xù)用 Labubu 做主角，讓 MiniMax Agent 整一本 20 頁圖畫書。

短短十幾分鐘，MiniMax Agent 就實現(xiàn)了畫圖 + 編故事 + 網(wǎng)頁排版，三步走。

效果出人意料地出色，角色形象一致性比較好，每頁圖配文也不敷衍，讀起來有內(nèi)容，看起來不枯燥，還支持網(wǎng)頁端部署，排版合理，細(xì)節(jié)講究。

當(dāng)然，我更喜歡它將 Labubu 改成了小兔帽熊熊的昵稱，聽起來軟萌，看起來也確實養(yǎng)眼，圖文兼?zhèn)涞那闆r下，適合小朋友，也適合大朋友。

PPT 制作：不止美觀，更會「雕花」

這次更新中，一大亮點是能做漂亮的 PPT——職場打工人的剛需。

對于 MiniMax Agent 來說，PPT 也是多模態(tài)的一種。看上去只是圖片和文字，但無論是排版、內(nèi)容規(guī)劃和組織，都得有主題、有思路、有邏輯，并且還要能自主補(bǔ)全內(nèi)容。

比如面向初中生設(shè)計一份物理講解的 PPT：

或者面向投資者，制作的商業(yè)報告：

簡單來說，要做好 PPT，不僅是簡單的信息查找，更是對信息的篩選、去噪和跨領(lǐng)域關(guān)聯(lián)的能力測試。

成品的效果都很好看，不禁讓人好奇：在制作的過程中，MiniMax Agent 都做了些什么？

我們用市場調(diào)研類別的 PPT 做了一個測試，這類 PPT 通常數(shù)據(jù)量大、信息密集，正好可以看看它在理解數(shù)據(jù)、選擇合適圖表以及呈現(xiàn)效果方面的能力到底怎么樣。

首先它能準(zhǔn)確地拆分任務(wù)，按照「頁面布局 + 圖表類型 + 數(shù)據(jù)樣式」三層結(jié)構(gòu)來梳理內(nèi)容，頁面規(guī)劃很有一套。

可視化的呈現(xiàn)，不僅完整無遺漏地展示了關(guān)鍵數(shù)據(jù)點，還根據(jù)不同的數(shù)據(jù)特點，選用合適的可視化方式來展示。整個 PPT 的動畫過渡也做得非常流暢，把重點自然地突出出來，連微調(diào)動畫的工夫都省了。

最后交付時，除了要求的 PPT 文稿外，還額外提供了 Web 和 PDF 文件，以及 Markdown 文件。

總體來看，Minimax agent 在「理解-整合-推理-生成-表達(dá)」這一完整鏈條上的能力都很不錯，尤其是在非代碼、偏文案和商業(yè)分析方面，完全稱得上「專業(yè)」兩個字。

音頻到網(wǎng)站：一站式智能內(nèi)容工作流

如果說圖文都還不算進(jìn)階，那更考驗 agent 實力的場景出現(xiàn)了：這個任務(wù)要求把上傳過去的音頻文件轉(zhuǎn)換一遍格式，然后轉(zhuǎn)成逐字稿，并且?guī)r間戳。最后還要根據(jù)內(nèi)容生成一個思維導(dǎo)圖。

拆開來看，這些任務(wù)都沒什么難度，但合在一起完成才是難點所在。

過去，要么熟練掌握轉(zhuǎn)格式工具，或耗費時間尋找并嘗試各種在線轉(zhuǎn)換工具。而 MiniMax Agent 直接在內(nèi)部完成了這一操作，大大節(jié)省了我們尋找、安裝和操作外部工具的精力。

MiniMax Agent 在整個流程中展現(xiàn)出的高效與便捷非常值得一贊。最直觀的感受便是格式轉(zhuǎn)換的無縫銜接。從進(jìn)程視窗里可以看到，MiniMax Agent 在生成逐字稿方面的快速、準(zhǔn)確。

除了能把將音頻內(nèi)容轉(zhuǎn)換為文本，還能對音頻內(nèi)容有深層理解，這些都體現(xiàn)在給出的思維導(dǎo)圖里。

思維導(dǎo)圖不僅能清晰地梳理出音頻的核心觀點和邏輯脈絡(luò)，還能準(zhǔn)確捕捉到內(nèi)容的層次結(jié)構(gòu)和關(guān)鍵信息點。

這遠(yuǎn)超簡單的關(guān)鍵詞提取，展現(xiàn)了 MiniMax Agent 將零散信息結(jié)構(gòu)化、可視化的強(qiáng)大能力。

雖然是我給下的需求，但具體該怎么實現(xiàn)，其實我心里也沒數(shù)。倒是它自己，主動給自己安排好了工作：從安裝依賴包到啟動服務(wù)器，自行完成了該做的工作，一點不需要操心。

UI 設(shè)計：邊學(xué)邊用，高效產(chǎn)出

真正回到日常工作中，一定會涉及的環(huán)節(jié)是：調(diào)研了解-學(xué)習(xí)領(lǐng)悟-上手實踐。這是人類最最基本的作業(yè)流程。畢竟，沒有調(diào)研，就沒有想法。

那么，想要成為一個優(yōu)秀的 agent，這個流程也必不可少——很復(fù)雜，但是很必要。

下面的案例中就是考察整個流程的實現(xiàn)：研究 Apple iOS 26 的液態(tài)玻璃的設(shè)計風(fēng)格，制作一個類似的 UI。

顯然，MiniMax Agent 也知道這是個相當(dāng)復(fù)雜的任務(wù)，給自己制定了一整個作業(yè)計劃。

接下來則是一步步的設(shè)計、部署和寫代碼。步驟很雜很多，但它自己有條不紊地執(zhí)行，完全不需要人來操心——甚至還能想到要找「視覺沖擊力強(qiáng)」的素材。

最終交付出來的，不僅有代碼包，還有一個網(wǎng)站，來展示整個過程中調(diào)研獲得的成果，視覺化地展示不同維度的成果。

甚至還專門留出了個交互體驗的專區(qū)，可以簡單體驗效果——完全超出了原有 prompt 本身的設(shè)定，超額完成任務(wù)。

原有的 prompt 其實非常簡單，對比最后交付的成果可以看到，MiniMax Agent 不僅僅是有調(diào)研、深入的能力，用代碼完成任務(wù)的能力，更加是對任務(wù)有「自己的理解」。

深度研究：不止是搜索，更需要推理

資料調(diào)研是基本功了，難度不高，但是個細(xì)致活——尤其是根據(jù)最新的新聞做調(diào)研，信息獲取要盡量延伸。

從思維鏈的過程，以及交付成果上來看，Agent 在完成這份研究報告的表現(xiàn)，遠(yuǎn)超預(yù)期：不僅完成了結(jié)構(gòu)化的信息整合，還展示了自己的推理本領(lǐng)。

在報告中，MiniMax Agent 并不只是簡單羅列數(shù)據(jù)，而是能識別了市場規(guī)模「自上而下」與「自下而下」的巨大差異，并將其作為「重要的市場洞察」提出。

顯然，簡單的信息羅列，稱不上是真正的「深度研究」。Agent 需要識別數(shù)據(jù)背后的模式、趨勢、因果關(guān)系，并在這些基礎(chǔ)上，形成有價值的「洞察」和「核心觀點」 ——這需要的，是超越文本匹配的推理能力。

總結(jié)：左手模型，右手 Agent， MIniMax 讓我看到了智能體未來的樣子

Agent 是今年 AI 最火的賽道之一，大家都在談?wù)?Agent 的未來，但真正讓 Agent 從炫技演示和「五分鐘熱度」的玩具走向能改變生產(chǎn)力的工具，其實寥寥無幾。

擁有自研模型的 MiniMax 推出了自己的 Agent 產(chǎn)品，給我們展現(xiàn)出了不一樣的打法。在測試后我們也對 Agent 有了新的理解：決定 Agent 體驗的，不只是模型本身，還更多體現(xiàn)在那些看不見的基礎(chǔ)設(shè)施上。

這里有個特別值得一提的細(xì)節(jié)——作為獨立公司，MiniMax 幾乎是唯一一家能夠提供完整全模態(tài)能力的廠商。

▲ MiniMax 語音模型 Speech-02-HD 位列 Artificial Analysis Speech Arena 榜單第一

MiniMax 視頻模型 Hailuo 02 位列 Artificial Analysis Video Arena 榜單第二

Agent 大部分的能力都依賴于模型這個引擎，「模型即 Agent」的趨勢也越來越明顯。

在這一點上，模型公司做 AI 應(yīng)用的優(yōu)勢就體現(xiàn)得淋漓盡致了。由于直接掌控模型底層，他們能更有效地優(yōu)化調(diào)度邏輯、降低運行成本，并構(gòu)建數(shù)據(jù)飛輪來自主迭代。

MiniMax 就是這樣的典型代表——隨著其自有模型能力的提升，Agent 的運行成本不斷優(yōu)化，性能也顯著增強(qiáng)。

今天 MiniMax 開源全球首個大規(guī)模混合架構(gòu)的推理模型 MiniMax-M1，原生支持 100 萬 token 的輸入長度和 8 萬輸出 token 的行業(yè)最長輸出，推理算力生成 10 萬 token 只需要 DeepSeek R1 的 25%，將推理模型的價格又打了下來。

當(dāng)其他創(chuàng)業(yè)公司還在為高昂的 token 成本發(fā)愁時，MiniMax 已經(jīng)能夠通過提升自有模型比例來系統(tǒng)性地降低 Agent 運營成本，這對用戶能持續(xù)穩(wěn)定地體驗十分重要。

這正是「Minimize Efforts，Maximize Intelligence」的極致詮釋，簡單來說，就是用最小的努力換取最大的智能。

MiniMax 這種「左手模型，右手 Agent」的布局，讓他們能夠在技術(shù)能力和用戶價值之間找到最佳平衡點，確實具備了在這場智能體競賽中脫穎而出的條件。

我們正身處一個前所未有的轉(zhuǎn)折點：AI 正從工具進(jìn)化為擁有「大腦、感官、手腳」的復(fù)合智能體，它為未來工作與生活，開啟了更新、更酷的想象空間。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.