今年上半年,最吊足胃口和期待的,莫過于 Agent 工具,餅畫得都很大:日常中那些燒腦、重復(fù)、耗時(shí)間的任務(wù),現(xiàn)在似乎只需要?jiǎng)觿?dòng)手指、敲幾行 prompt 就能搞定。
大餅真的很誘人,但仔細(xì)想想:想要真的做到那么有用,需要的,是某種與你我類似的思考、規(guī)劃,甚至還有能自己跟自己較勁、主動(dòng)反思的能力。
帶著這個(gè)想法,我們測(cè)試了最新的 MiniMax Agent 進(jìn)行了一輪深度測(cè)試——不再滿足于入門級(jí)的考察,而是把它丟進(jìn)了一些充滿趣味和挑戰(zhàn)、又不失真實(shí)的工作場(chǎng)景,想看看它到底能聰明到什么程度。
對(duì) MiniMax Agent 的期待,千言萬(wàn)語(yǔ)只有一點(diǎn):玩著玩著,就把活兒干了。
創(chuàng)意內(nèi)容:超越想象的視覺敘事
MiniMax 本身就在多模態(tài)模型上積累深厚,這樣的優(yōu)勢(shì),對(duì)于想要出產(chǎn)創(chuàng)意型作品,可謂是信手拈來(lái)。
最近的 Labubu 簡(jiǎn)直火出天際,剛好就來(lái)給 Labubu 搞個(gè)宣傳計(jì)劃——聽起來(lái)很復(fù)雜,這個(gè) Agent 絲毫不慌,先制定一套完整的宣傳策略計(jì)劃,確定交付物清單,再有序生成海報(bào),再按部就班地準(zhǔn)備宣傳海報(bào)。
全程看下來(lái),MiniMax Agent 一邊動(dòng)腦思考,一邊調(diào)用合適的工具,主打一個(gè)行云流水,有條不紊。
就交付的結(jié)果來(lái)說(shuō),還真是不小的驚喜:不僅視覺審美在線,介紹文案也講得清清楚楚,主題海報(bào)畫廊一套接一套,別說(shuō),MiniMax Agent 不只能做事,居然還有點(diǎn)「品味」。
類似的,還可以繼續(xù)用 Labubu 做主角,讓 MiniMax Agent 整一本 20 頁(yè)圖畫書。
短短十幾分鐘,MiniMax Agent 就實(shí)現(xiàn)了畫圖 + 編故事 + 網(wǎng)頁(yè)排版,三步走。
效果出人意料地出色,角色形象一致性比較好,每頁(yè)圖配文也不敷衍,讀起來(lái)有內(nèi)容,看起來(lái)不枯燥,還支持網(wǎng)頁(yè)端部署,排版合理,細(xì)節(jié)講究。
當(dāng)然,我更喜歡它將 Labubu 改成了小兔帽熊熊的昵稱,聽起來(lái)軟萌,看起來(lái)也確實(shí)養(yǎng)眼,圖文兼?zhèn)涞那闆r下,適合小朋友,也適合大朋友。
PPT 制作:不止美觀,更會(huì)「雕花」
這次更新中,一大亮點(diǎn)是能做漂亮的 PPT——職場(chǎng)打工人的剛需。
對(duì)于 MiniMax Agent 來(lái)說(shuō),PPT 也是多模態(tài)的一種。看上去只是圖片和文字,但無(wú)論是排版、內(nèi)容規(guī)劃和組織,都得有主題、有思路、有邏輯,并且還要能自主補(bǔ)全內(nèi)容。
比如面向初中生設(shè)計(jì)一份物理講解的 PPT:
或者面向投資者,制作的商業(yè)報(bào)告:
簡(jiǎn)單來(lái)說(shuō),要做好 PPT,不僅是簡(jiǎn)單的信息查找,更是對(duì)信息的篩選、去噪和跨領(lǐng)域關(guān)聯(lián)的能力測(cè)試。
成品的效果都很好看,不禁讓人好奇:在制作的過程中,MiniMax Agent 都做了些什么?
我們用市場(chǎng)調(diào)研類別的 PPT 做了一個(gè)測(cè)試,這類 PPT 通常數(shù)據(jù)量大、信息密集,正好可以看看它在理解數(shù)據(jù)、選擇合適圖表以及呈現(xiàn)效果方面的能力到底怎么樣。
首先它能準(zhǔn)確地拆分任務(wù),按照「頁(yè)面布局 + 圖表類型 + 數(shù)據(jù)樣式」三層結(jié)構(gòu)來(lái)梳理內(nèi)容,頁(yè)面規(guī)劃很有一套。
可視化的呈現(xiàn),不僅完整無(wú)遺漏地展示了關(guān)鍵數(shù)據(jù)點(diǎn),還根據(jù)不同的數(shù)據(jù)特點(diǎn),選用合適的可視化方式來(lái)展示。整個(gè) PPT 的動(dòng)畫過渡也做得非常流暢,把重點(diǎn)自然地突出出來(lái),連微調(diào)動(dòng)畫的工夫都省了。
最后交付時(shí),除了要求的 PPT 文稿外,還額外提供了 Web 和 PDF 文件,以及 Markdown 文件。
總體來(lái)看,Minimax agent 在「理解-整合-推理-生成-表達(dá)」這一完整鏈條上的能力都很不錯(cuò),尤其是在非代碼、偏文案和商業(yè)分析方面,完全稱得上「專業(yè)」兩個(gè)字。
音頻到網(wǎng)站:一站式智能內(nèi)容工作流
如果說(shuō)圖文都還不算進(jìn)階,那更考驗(yàn) agent 實(shí)力的場(chǎng)景出現(xiàn)了:這個(gè)任務(wù)要求把上傳過去的音頻文件轉(zhuǎn)換一遍格式,然后轉(zhuǎn)成逐字稿,并且?guī)r(shí)間戳。最后還要根據(jù)內(nèi)容生成一個(gè)思維導(dǎo)圖。
拆開來(lái)看,這些任務(wù)都沒什么難度,但合在一起完成才是難點(diǎn)所在。
過去,要么熟練掌握轉(zhuǎn)格式工具,或耗費(fèi)時(shí)間尋找并嘗試各種在線轉(zhuǎn)換工具。而 MiniMax Agent 直接在內(nèi)部完成了這一操作,大大節(jié)省了我們尋找、安裝和操作外部工具的精力。
MiniMax Agent 在整個(gè)流程中展現(xiàn)出的高效與便捷非常值得一贊。最直觀的感受便是格式轉(zhuǎn)換的無(wú)縫銜接。從進(jìn)程視窗里可以看到,MiniMax Agent 在生成逐字稿方面的快速、準(zhǔn)確。
除了能把將音頻內(nèi)容轉(zhuǎn)換為文本,還能對(duì)音頻內(nèi)容有深層理解,這些都體現(xiàn)在給出的思維導(dǎo)圖里。
思維導(dǎo)圖不僅能清晰地梳理出音頻的核心觀點(diǎn)和邏輯脈絡(luò),還能準(zhǔn)確捕捉到內(nèi)容的層次結(jié)構(gòu)和關(guān)鍵信息點(diǎn)。
這遠(yuǎn)超簡(jiǎn)單的關(guān)鍵詞提取,展現(xiàn)了 MiniMax Agent 將零散信息結(jié)構(gòu)化、可視化的強(qiáng)大能力。
雖然是我給下的需求,但具體該怎么實(shí)現(xiàn),其實(shí)我心里也沒數(shù)。倒是它自己,主動(dòng)給自己安排好了工作:從安裝依賴包到啟動(dòng)服務(wù)器,自行完成了該做的工作,一點(diǎn)不需要操心。
UI 設(shè)計(jì):邊學(xué)邊用,高效產(chǎn)出
真正回到日常工作中,一定會(huì)涉及的環(huán)節(jié)是:調(diào)研了解-學(xué)習(xí)領(lǐng)悟-上手實(shí)踐。這是人類最最基本的作業(yè)流程。畢竟,沒有調(diào)研,就沒有想法。
那么,想要成為一個(gè)優(yōu)秀的 agent,這個(gè)流程也必不可少——很復(fù)雜,但是很必要。
下面的案例中就是考察整個(gè)流程的實(shí)現(xiàn):研究 Apple iOS 26 的液態(tài)玻璃的設(shè)計(jì)風(fēng)格,制作一個(gè)類似的 UI。
顯然,MiniMax Agent 也知道這是個(gè)相當(dāng)復(fù)雜的任務(wù),給自己制定了一整個(gè)作業(yè)計(jì)劃。
接下來(lái)則是一步步的設(shè)計(jì)、部署和寫代碼。步驟很雜很多,但它自己有條不紊地執(zhí)行,完全不需要人來(lái)操心——甚至還能想到要找「視覺沖擊力強(qiáng)」的素材。
最終交付出來(lái)的,不僅有代碼包,還有一個(gè)網(wǎng)站,來(lái)展示整個(gè)過程中調(diào)研獲得的成果,視覺化地展示不同維度的成果。
甚至還專門留出了個(gè)交互體驗(yàn)的專區(qū),可以簡(jiǎn)單體驗(yàn)效果——完全超出了原有 prompt 本身的設(shè)定,超額完成任務(wù)。
原有的 prompt 其實(shí)非常簡(jiǎn)單,對(duì)比最后交付的成果可以看到,MiniMax Agent 不僅僅是有調(diào)研、深入的能力,用代碼完成任務(wù)的能力,更加是對(duì)任務(wù)有「自己的理解」。
深度研究:不止是搜索,更需要推理
資料調(diào)研是基本功了,難度不高,但是個(gè)細(xì)致活——尤其是根據(jù)最新的新聞做調(diào)研,信息獲取要盡量延伸。
從思維鏈的過程,以及交付成果上來(lái)看,Agent 在完成這份研究報(bào)告的表現(xiàn),遠(yuǎn)超預(yù)期:不僅完成了結(jié)構(gòu)化的信息整合,還展示了自己的推理本領(lǐng)。
在報(bào)告中,MiniMax Agent 并不只是簡(jiǎn)單羅列數(shù)據(jù),而是能識(shí)別了市場(chǎng)規(guī)模「自上而下」與「自下而下」的巨大差異 ,并將其作為「重要的市場(chǎng)洞察」提出。
顯然,簡(jiǎn)單的信息羅列,稱不上是真正的「深度研究」。Agent 需要識(shí)別數(shù)據(jù)背后的模式、趨勢(shì)、因果關(guān)系,并在這些基礎(chǔ)上,形成有價(jià)值的「洞察」和「核心觀點(diǎn)」 ——這需要的,是超越文本匹配的推理能力。
總結(jié):左手模型,右手 Agent, MIniMax 讓我看到了智能體未來(lái)的樣子
Agent 是今年 AI 最火的賽道之一,大家都在談?wù)?Agent 的未來(lái),但真正讓 Agent 從炫技演示和「五分鐘熱度」的玩具走向能改變生產(chǎn)力的工具,其實(shí)寥寥無(wú)幾。
擁有自研模型的 MiniMax 推出了自己的 Agent 產(chǎn)品,給我們展現(xiàn)出了不一樣的打法。在測(cè)試后我們也對(duì) Agent 有了新的理解:決定 Agent 體驗(yàn)的,不只是模型本身,還更多體現(xiàn)在那些看不見的基礎(chǔ)設(shè)施上。
這里有個(gè)特別值得一提的細(xì)節(jié)——作為獨(dú)立公司,MiniMax 幾乎是唯一一家能夠提供完整全模態(tài)能力的廠商。
MiniMax 語(yǔ)音模型 Speech-02-HD 位列 Artificial Analysis Speech Arena 榜單第一
MiniMax 視頻模型 Hailuo 02 位列 Artificial Analysis Video Arena 榜單第二
Agent 大部分的能力都依賴于模型這個(gè)引擎,「模型即 Agent」的趨勢(shì)也越來(lái)越明顯。
在這一點(diǎn)上,模型公司做 AI 應(yīng)用的優(yōu)勢(shì)就體現(xiàn)得淋漓盡致了。由于直接掌控模型底層,他們能更有效地優(yōu)化調(diào)度邏輯、降低運(yùn)行成本,并構(gòu)建數(shù)據(jù)飛輪來(lái)自主迭代。
MiniMax 就是這樣的典型代表——隨著其自有模型能力的提升,Agent 的運(yùn)行成本不斷優(yōu)化,性能也顯著增強(qiáng)。
今天 MiniMax 開源全球首個(gè)大規(guī)模混合架構(gòu)的推理模型 MiniMax-M1,原生支持 100 萬(wàn) token 的輸入長(zhǎng)度和 8 萬(wàn)輸出 token 的行業(yè)最長(zhǎng)輸出,推理算力生成 10 萬(wàn) token 只需要 DeepSeek R1 的 25%,將推理模型的價(jià)格又打了下來(lái)。
當(dāng)其他創(chuàng)業(yè)公司還在為高昂的 token 成 本發(fā)愁時(shí),MiniMax 已經(jīng)能夠通過提升自有模型比例來(lái)系統(tǒng)性地 降低 Agent 運(yùn)營(yíng)成本,這對(duì)用戶能持續(xù)穩(wěn)定地體驗(yàn)十分重要。
這正是「Minimize Efforts,Maximize Intelligence」的極致詮釋,簡(jiǎn)單來(lái)說(shuō),就是用最小的努力換取最大的智能。
MiniMax 這種「左手模型,右手 Agent」的布局,讓他們能夠在技術(shù)能力和用戶價(jià)值之間找到最佳平衡點(diǎn),確實(shí)具備了在這場(chǎng)智能體競(jìng)賽中脫穎而出的條件。
我們正身處一個(gè)前所未有的轉(zhuǎn)折點(diǎn):AI 正從工具進(jìn)化為擁有「大腦、感官、手腳」的復(fù)合智能體,它為未來(lái)工作與生活,開啟了更新、更酷的想象空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.