昨天夜里,深夜驚雷。
一個新團隊突然發了一個首款通用行的項目:Manus。演示在此,我人直接看麻了。
看完我的第一感覺,人類又要一敗涂地了。
這就是OpenAI的DeepResearch和Claude的Computer Use的究極集合體,甚至,他還能自己寫代碼,直接Coding Agent。
這是什么怪物啊。。。
我預想到這一天會來,只是沒想到,來的如此之早。
Manus在GAIA的評分上,也非常的離譜。
已經超越OpenAI的DeepResearch的了,成為GAIA評分第一。
可能很多人不知道GAIA是個啥,我簡單說一下。
GAIA(General AI Assistants)是一個面向 通用AI助手 能力的基準評測體系,由 Meta AI(FAIR)、Hugging Face 等研究團隊于 2023 年提出。
有一篇非常著名的論文:
里面有466個精心設計的問題。
傳統的測試一般都是數學(AIME)或者一些專業知識問答、編程等等,但是GAIA測試,里面很多都是概念簡單,但是需要多步驟解決的實際問題。
其中分為三個級別,Lv.1、Lv.2、Lv.3,難度依次遞增。
想通過GAIA的測試,一般需要網絡檢索能力、工具調用能力、編程能力、文件處理能力等等。
在23年的時候,人類一般能達到90%的成功率,而那時候的最強AI GPT4,在第一級才勉強達到15%。
再看這張圖,你就知道,有多強了。。。
說實話,我目前還愿意為ChatGPT每個月都氪200刀,主要就是o1 Pro和
DeepResearch,這兩玩意有一說一,在我做一些研究和需要強推理任務的時候,還是非常好用的。
而Manus這波,把DeepResearch干碎了,要知道,它之前已經是最強了。。。
Manus網址在此:https://manus.im
現在有個很難頂的問題是封測中,所以只有邀請碼的用戶才能體驗到。
所以,我也動用了我的人脈,花了十分鐘的時間,聯系到了Manus團隊的人,非常幸運的獲得了邀請碼。
不過,即使是沒有拿到邀請碼的用戶,也可以去他們官網,大概看一下他們的Use Case,每一個,都非常的有意思。
而如果你有了邀請碼,正常登錄進去以后,就是一個大大的界面:
雖然都是一個對話框,但是Manus的能力還不太一樣,他不是那個你提出個問題,AI一會就會直接給你回答Chatbot。
而是當你提出問題之后,他會根據你的問題和要求,來拆解任務,進行極度復雜的任務規劃和執行。
并且會在云端自動運行,你可以直接退出出去,等運行完了,會通知你。
比如之前的那篇GAIA的論文,我想把PDF變成一個能拿出去講的PPT,我把這個要求提給Manus的時候。
他會先把我的需求拆解。
我是這么說的:
1. 我希望你寫一段Python程序,用OCR把這篇論文的PDF信息提取出來。
2. 將PDF里面的信息總結成PPT大綱。
3. 按照小米發布會的風格,做一份給普通人科普用的PPT。
4. 給我PPT的下載文件。
他會開始花一點時間來理解。
然后,在右邊的窗口上,運行一個虛擬機,準備開始執行操作。
在虛擬機開啟之后,會第一時間,列一份To Do List。
然后,就會開始執行第一個任務,安裝python庫。
完成的項目,會全部在右邊的預覽窗口打x。
他們用了一個非常有趣的交互形式,就是實時加進度同步。
右邊的界面就像PPT一樣,不斷的下一頁下一頁,讓你實時的看到,當前這個Manus正在做什么,你能看到它的每一點想法,每一個動作,這個掌控感真的太強了。
即使要等很久,你看著他在一點一點執行,這個感覺也真的很爽。
而右下角的任務步驟也可以展開,非常直觀的告訴你,大步驟進行到哪一個階段了。
交互做的極棒。
我這個case,只需要等大概幾分鐘以后,一個PPT就出來了。
看看PPT。
信息是沒問題的,就是這美感= =還是欠缺了一點,但是在信息的排版和內容質量上,真的高到爆炸。
這個其實并不是特別能展示它的能力,我再展示另一個,我曾經試圖讓所有Agent嘗試的例子,幫我整理發票。
我經常要出差,所以有一堆亂七八糟的發票需要讓公司報銷的,但是公司的大總管呢,制定了一個SOP,就是發票你不能直接打包給她,這樣太亂,所以需要做成一個excel的模板,這樣她好對賬。
就是這樣的,但是你知道,我要每個月把我的十幾張發票,都處理成表格,真的很麻煩。
所以,當我抱著試試看的態度,把這個任務交給Manus的時候,我震驚了。
因為,它成功了。。。
我當時就渾身發麻了,實在太牛逼了。你們懂那種,渾身觸電的感覺嗎。
我給大家過一下流程。
最開始,我的Prompt超級簡單。
就這么簡簡單單的一句話。
他在思考完以后,處理成了8步任務。
然后,解壓壓縮包,安裝OCR依賴,提取發票,整理成表格等等等等。
我什么也沒干,他就自己這么跑著。
9分鐘以后,提示我任務完成了。
我一回來,就看到了了這個畫面。
只有一個小地方沒填上,其他都是對的。
太離譜了,這還需要人干嗎?
我還用它,分析了一下阿里巴巴股票。
同樣的case,我們先看看OpenAI的DeepResearch的結果。
質量是不錯,很高,但是對比一下Manus,那可讀性實在是有點不堪重負了。。。
Manus直接把任務拆解成了8步。
最重要的是,當他們完成的時候,所輸出的內容。
當我看到所謂的報告,給出的是一個鏈接的時候,我就猜到,這個事情有點不簡單了。
點進去以后,果然。。。
不僅圖文并茂,這尼瑪,這些圖標圖表居然是可以交互的。。。
我真的給跪了,我想給Manus磕一個。
然后今天QwQ不是開源了32B的推理模型嗎,我又讓Manus隨手做了一個千問開源的時間線。
在經歷了30多分鐘后,一張時間線的地圖就出來了。大家可以驗證一下看看準不準。。。
我無話可說,人已跪地。
短短的幾個小時的體驗時間
人類真的即將,一敗涂地。
在Manus的prompt技巧上,我自己試了下,你的點,一定要足夠的清晰,描述越清晰具體,Manus 就能執行得越精準。
明確說明你的期望、格式要求和質量標準,可以大幅提升最終交付物的匹配度。
這一點,非常重要。
2025年3月6日,我覺得,即使在AI圈,也是一個值得銘記的日子。
阿里開源QwQ-32B,以如此尺寸在性能上追平DeepSeek R1滿血版,另一邊,Manus一夜崛起,把Agent工程帶上了一個新的高度。
而這兩個團隊,都屬于我們中國。
沒錯,都是中國團隊。
為之自豪吧。
今夜的這一片星空,屬于China。
宇宙,正在為我們而閃爍。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.