今年上半年,最吊足胃口和期待的,莫過于 Agent 工具,餅畫得都很大:日常中那些燒腦、重復(fù)、耗時間的任務(wù),現(xiàn)在似乎只需要動動手指、敲幾行 prompt 就能搞定。
大餅真的很誘人,但仔細(xì)想想:想要真的做到那么有用,需要的,是某種與你我類似的思考、規(guī)劃,甚至還有能自己跟自己較勁、主動反思的能力。
帶著這個想法,我們測試了最新的 MiniMax Agent 進(jìn)行了一輪深度測試——不再滿足于入門級的考察,而是把它丟進(jìn)了一些充滿趣味和挑戰(zhàn)、又不失真實的工作場景,想看看它到底能聰明到什么程度。
對 MiniMax Agent 的期待,千言萬語只有一點:玩著玩著,就把活兒干了。
創(chuàng)意內(nèi)容:超越想象的視覺敘事
MiniMax 本身就在多模態(tài)模型上積累深厚,這樣的優(yōu)勢,對于想要出產(chǎn)創(chuàng)意型作品,可謂是信手拈來。
最近的 Labubu 簡直火出天際,剛好就來給 Labubu 搞個宣傳計劃——聽起來很復(fù)雜,這個 Agent 絲毫不慌,先制定一套完整的宣傳策略計劃,確定交付物清單,再有序生成海報,再按部就班地準(zhǔn)備宣傳海報。
全程看下來,MiniMax Agent 一邊動腦思考,一邊調(diào)用合適的工具,主打一個行云流水,有條不紊。
就交付的結(jié)果來說,還真是不小的驚喜:不僅視覺審美在線,介紹文案也講得清清楚楚,主題海報畫廊一套接一套,別說,MiniMax Agent 不只能做事,居然還有點「品味」。
類似的,還可以繼續(xù)用 Labubu 做主角,讓 MiniMax Agent 整一本 20 頁圖畫書。
短短十幾分鐘,MiniMax Agent 就實現(xiàn)了畫圖 + 編故事 + 網(wǎng)頁排版,三步走。
效果出人意料地出色,角色形象一致性比較好,每頁圖配文也不敷衍,讀起來有內(nèi)容,看起來不枯燥,還支持網(wǎng)頁端部署,排版合理,細(xì)節(jié)講究。
當(dāng)然,我更喜歡它將 Labubu 改成了小兔帽熊熊的昵稱,聽起來軟萌,看起來也確實養(yǎng)眼,圖文兼?zhèn)涞那闆r下,適合小朋友,也適合大朋友。
PPT 制作:不止美觀,更會「雕花」
這次更新中,一大亮點是能做漂亮的 PPT——職場打工人的剛需。
對于 MiniMax Agent 來說,PPT 也是多模態(tài)的一種。看上去只是圖片和文字,但無論是排版、內(nèi)容規(guī)劃和組織,都得有主題、有思路、有邏輯,并且還要能自主補(bǔ)全內(nèi)容。
比如面向初中生設(shè)計一份物理講解的 PPT:
或者面向投資者,制作的商業(yè)報告:
簡單來說,要做好 PPT,不僅是簡單的信息查找,更是對信息的篩選、去噪和跨領(lǐng)域關(guān)聯(lián)的能力測試。
成品的效果都很好看,不禁讓人好奇:在制作的過程中,MiniMax Agent 都做了些什么?
我們用市場調(diào)研類別的 PPT 做了一個測試,這類 PPT 通常數(shù)據(jù)量大、信息密集,正好可以看看它在理解數(shù)據(jù)、選擇合適圖表以及呈現(xiàn)效果方面的能力到底怎么樣。
首先它能準(zhǔn)確地拆分任務(wù),按照「頁面布局 + 圖表類型 + 數(shù)據(jù)樣式」三層結(jié)構(gòu)來梳理內(nèi)容,頁面規(guī)劃很有一套。
可視化的呈現(xiàn),不僅完整無遺漏地展示了關(guān)鍵數(shù)據(jù)點,還根據(jù)不同的數(shù)據(jù)特點,選用合適的可視化方式來展示。整個 PPT 的動畫過渡也做得非常流暢,把重點自然地突出出來,連微調(diào)動畫的工夫都省了。
最后交付時,除了要求的 PPT 文稿外,還額外提供了 Web 和 PDF 文件,以及 Markdown 文件。
總體來看,Minimax agent 在「理解-整合-推理-生成-表達(dá)」這一完整鏈條上的能力都很不錯,尤其是在非代碼、偏文案和商業(yè)分析方面,完全稱得上「專業(yè)」兩個字。
音頻到網(wǎng)站:一站式智能內(nèi)容工作流
如果說圖文都還不算進(jìn)階,那更考驗 agent 實力的場景出現(xiàn)了:這個任務(wù)要求把上傳過去的音頻文件轉(zhuǎn)換一遍格式,然后轉(zhuǎn)成逐字稿,并且?guī)r間戳。最后還要根據(jù)內(nèi)容生成一個思維導(dǎo)圖。
拆開來看,這些任務(wù)都沒什么難度,但合在一起完成才是難點所在。
過去,要么熟練掌握轉(zhuǎn)格式工具,或耗費時間尋找并嘗試各種在線轉(zhuǎn)換工具。而 MiniMax Agent 直接在內(nèi)部完成了這一操作,大大節(jié)省了我們尋找、安裝和操作外部工具的精力。
MiniMax Agent 在整個流程中展現(xiàn)出的高效與便捷非常值得一贊。最直觀的感受便是格式轉(zhuǎn)換的無縫銜接。從進(jìn)程視窗里可以看到,MiniMax Agent 在生成逐字稿方面的快速、準(zhǔn)確。
除了能把將音頻內(nèi)容轉(zhuǎn)換為文本,還能對音頻內(nèi)容有深層理解,這些都體現(xiàn)在給出的思維導(dǎo)圖里。
思維導(dǎo)圖不僅能清晰地梳理出音頻的核心觀點和邏輯脈絡(luò),還能準(zhǔn)確捕捉到內(nèi)容的層次結(jié)構(gòu)和關(guān)鍵信息點。
這遠(yuǎn)超簡單的關(guān)鍵詞提取,展現(xiàn)了 MiniMax Agent 將零散信息結(jié)構(gòu)化、可視化的強(qiáng)大能力。
雖然是我給下的需求,但具體該怎么實現(xiàn),其實我心里也沒數(shù)。倒是它自己,主動給自己安排好了工作:從安裝依賴包到啟動服務(wù)器,自行完成了該做的工作,一點不需要操心。
UI 設(shè)計:邊學(xué)邊用,高效產(chǎn)出
真正回到日常工作中,一定會涉及的環(huán)節(jié)是:調(diào)研了解-學(xué)習(xí)領(lǐng)悟-上手實踐。這是人類最最基本的作業(yè)流程。畢竟,沒有調(diào)研,就沒有想法。
那么,想要成為一個優(yōu)秀的 agent,這個流程也必不可少——很復(fù)雜,但是很必要。
下面的案例中就是考察整個流程的實現(xiàn):研究 Apple iOS 26 的液態(tài)玻璃的設(shè)計風(fēng)格,制作一個類似的 UI。
顯然,MiniMax Agent 也知道這是個相當(dāng)復(fù)雜的任務(wù),給自己制定了一整個作業(yè)計劃。
接下來則是一步步的設(shè)計、部署和寫代碼。步驟很雜很多,但它自己有條不紊地執(zhí)行,完全不需要人來操心——甚至還能想到要找「視覺沖擊力強(qiáng)」的素材。
最終交付出來的,不僅有代碼包,還有一個網(wǎng)站,來展示整個過程中調(diào)研獲得的成果,視覺化地展示不同維度的成果。
甚至還專門留出了個交互體驗的專區(qū),可以簡單體驗效果——完全超出了原有 prompt 本身的設(shè)定,超額完成任務(wù)。
原有的 prompt 其實非常簡單,對比最后交付的成果可以看到,MiniMax Agent 不僅僅是有調(diào)研、深入的能力,用代碼完成任務(wù)的能力,更加是對任務(wù)有「自己的理解」。
深度研究:不止是搜索,更需要推理
資料調(diào)研是基本功了,難度不高,但是個細(xì)致活——尤其是根據(jù)最新的新聞做調(diào)研,信息獲取要盡量延伸。
從思維鏈的過程,以及交付成果上來看,Agent 在完成這份研究報告的表現(xiàn),遠(yuǎn)超預(yù)期:不僅完成了結(jié)構(gòu)化的信息整合,還展示了自己的推理本領(lǐng)。
在報告中,MiniMax Agent 并不只是簡單羅列數(shù)據(jù),而是能識別了市場規(guī)模「自上而下」與「自下而下」的巨大差異 ,并將其作為「重要的市場洞察」提出。
顯然,簡單的信息羅列,稱不上是真正的「深度研究」。Agent 需要識別數(shù)據(jù)背后的模式、趨勢、因果關(guān)系,并在這些基礎(chǔ)上,形成有價值的「洞察」和「核心觀點」 ——這需要的,是超越文本匹配的推理能力。
總結(jié):左手模型,右手 Agent, MIniMax 讓我看到了智能體未來的樣子
Agent 是今年 AI 最火的賽道之一,大家都在談?wù)?Agent 的未來,但真正讓 Agent 從炫技演示和「五分鐘熱度」的玩具走向能改變生產(chǎn)力的工具,其實寥寥無幾。
擁有自研模型的 MiniMax 推出了自己的 Agent 產(chǎn)品,給我們展現(xiàn)出了不一樣的打法。在測試后我們也對 Agent 有了新的理解:決定 Agent 體驗的,不只是模型本身,還更多體現(xiàn)在那些看不見的基礎(chǔ)設(shè)施上。
這里有個特別值得一提的細(xì)節(jié)——作為獨立公司,MiniMax 幾乎是唯一一家能夠提供完整全模態(tài)能力的廠商。
▲ MiniMax 語音模型 Speech-02-HD 位列 Artificial Analysis Speech Arena 榜單第一
MiniMax 視頻模型 Hailuo 02 位列 Artificial Analysis Video Arena 榜單第二
Agent 大部分的能力都依賴于模型這個引擎,「模型即 Agent」的趨勢也越來越明顯。
在這一點上,模型公司做 AI 應(yīng)用的優(yōu)勢就體現(xiàn)得淋漓盡致了。由于直接掌控模型底層,他們能更有效地優(yōu)化調(diào)度邏輯、降低運行成本,并構(gòu)建數(shù)據(jù)飛輪來自主迭代。
MiniMax 就是這樣的典型代表——隨著其自有模型能力的提升,Agent 的運行成本不斷優(yōu)化,性能也顯著增強(qiáng)。
今天 MiniMax 開源全球首個大規(guī)模混合架構(gòu)的推理模型 MiniMax-M1,原生支持 100 萬 token 的輸入長度和 8 萬輸出 token 的行業(yè)最長輸出,推理算力生成 10 萬 token 只需要 DeepSeek R1 的 25%,將推理模型的價格又打了下來。
當(dāng)其他創(chuàng)業(yè)公司還在為高昂的 token 成本發(fā)愁時,MiniMax 已經(jīng)能夠通過提升自有模型比例來系統(tǒng)性地降低 Agent 運營成本,這對用戶能持續(xù)穩(wěn)定地體驗十分重要。
這正是「Minimize Efforts,Maximize Intelligence」的極致詮釋,簡單來說,就是用最小的努力換取最大的智能。
MiniMax 這種「左手模型,右手 Agent」的布局,讓他們能夠在技術(shù)能力和用戶價值之間找到最佳平衡點,確實具備了在這場智能體競賽中脫穎而出的條件。
我們正身處一個前所未有的轉(zhuǎn)折點:AI 正從工具進(jìn)化為擁有「大腦、感官、手腳」的復(fù)合智能體,它為未來工作與生活,開啟了更新、更酷的想象空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.