今年是 AI 的 Agent 之年,也是……邀請碼之年
花叔表示:我不理解,難道 "先進智能" 的第一步是“把人擋在門外”?
從 Manus 開始,國內 AI 圈發布新品似乎都要以下三件套:
邀請碼——越難求,越顯高級;
“全球首款 ××× Agent”——句式千篇一律,槽點年年翻新;
全英文炫酷發布視頻——受眾 90% 是國人,BGM 卻像在硅谷。
第一個這么玩確實有創意,但人人都跟風就顯得……無聊。
現在我的原則:需要排隊的 AI 產品 = 直接忽略。畢竟你想要的,可能只是“我有,別人沒有”的優越感——而不是真正的生產力。
Skywork:SOTA 級 Agent,不玩邀請碼套路
終于,等來了一個敢讓所有人立刻免費上手的深度研究型 Agent —— 天工超級智能體(Skywork Super Agents,方便起見下文簡稱Skywork).
來,先看成績單:
他們在GAIA Bechmark評測指標上都超越了前任最佳,達到了SOTA級別。
上面這幾個名詞你可能比較陌生,我來簡單解釋下:
GAIA Benchmark:General Agent Intelligence Assessment——翻譯成大白話就是“看你家 Agent 究竟是學霸還是學渣”的統考。Skywork 在這張卷子上直接把前任第一擠到了旁邊。
SOTA:State Of The Art,行業里最高水準。拿到這標簽=行業“天花板”。
OK,專業解釋結束,下面進入正題。
從通用Agent到 “Office 三件套”Agent
現在AI行業對Agent,或者說智能體有兩套不同的想法和邏輯。
一類是走工作流的方式,比如Coze、Dify這樣的產品讓用戶自己搭建工作流,去完成一個特定任務的執行;這個邏輯的優勢是生成的結果非常可控且個性化,但是對使用者的要求比較高,無論是操作上還是對于完成一個工作所需要經歷的流程的認知上;
第二類是走通用Agent,比如Manus、Genspark等,給底層模型足夠開放的空間,不做限制,再提供一些工具去實現通用性人物的解決,這類agent的主要優勢是能完成的工作范圍廣,你想要完成的任何工作都可以讓agent試試,但是劣勢是未對任何場景做優化,產生的結果質量相對不可控,對底層模型能力的依賴性太強。
現在我覺得以模型的發展水平來說,更合理的方式是走中間形態,簡化用戶的操作,讓模型能更自主的完成盡可能大量的工作,但是又最好能對高頻場景做優化,用人類的認知去彌補特定場景下模型能力暫時不足的地方。前段時間出圈的設計Agent產品Lovart就是基于這個邏輯,對設計場景做了大量的優化,所以他們在設計VI、海報等方面的表現是明顯優于常規的對話式AI和通用Agent的。
那,對打工人來說,日常最需要干的是什么?
寫文檔、做表格、做PPT。
不管你平時是開會、復盤,還是工作總結、匯報,這“Office三件套“幾乎是人人都避不開的。
AI是時候把這些人類不愿意干,覺得枯燥乏味的活給干一干了,令我比較驚喜的是Skywork在產品界面的設計上都強調了他們主打的是這三類高頻場景,而且我試了試,效果還真不錯。
Skywork 的使用示例
1?? 訪問
Skywork有海外版和國內版,海外用戶可以馬上上 skywork.ai ;國內用戶直達 tiangong.cn,無需邀請碼。
2?? 模式選擇
打開之后,可以先選個模式:文檔模式、PPT模式、表格模式、網頁模式、播客模式、通用模式,我個人覺得現在他們在前三個office三件套的模式上優化得比較好,也是他們相比其他agent產品的優勢所在。
3?? 需求表達
然后,直接表達你的需求就好了,比如我最近要去大理一個社區做分享,本來還頭疼做PPT的事,我打算偷個懶,讓Skywork給我試試,我輸入的要求是:
我是「小貓補光燈」app的開發者,最近我要去給一個社區分享使用AI編程和需求洞察的經驗,請幫我設計一個分享的ppt,我希望這份PPT里先包含我的個人介紹、小貓補光燈和小貓補光燈pro這兩個app所獲得的成績,以及與之相關的切實可行的ai編程以及需求洞察相關的經驗,你可以多找找我的一些對外分享
4?? 需求確認
和OpenAI的DeepResearch類似,其實很多復雜需求你在表達時總會有一些遺漏,你會希望當你把這件事交給AI,或者交給實習生的時候,對方都能思考下你的要求,再跟你做些確認,以免方式一頓亂猜,最后做出來的東西不符合你需求的情況。
DeepResearch的方式是會用一大堆問題詢問你的需求,Skywork在這部分做了些創新,讓用戶做“選擇題”而不是更困難的“問答題”。
5?? Todo規劃與執行
接下來的過程就是Agent的常規邏輯了,規劃完成這項任務所需的步驟,然后逐步執行完成這個步驟。Skywork執行的方式主要是調用MCP去完成網頁搜索、瀏覽、圖片下載等任務。
6?? 交付
在收集完信息后,Skywork會形成內容大綱,然后填充內容實現最終的交付。
這個交付的結果我給打個75分吧,有三個方面我還挺驚喜的:
1)視覺效果還不錯,而且不是AI PPT產品那種千篇一律的物料模板;
2)居然找到了我的照片,并且放在了PPT里,這點還挺超出預期的;
3)可以直接編輯或者下載PPT,畢竟AI生成的東西不是你可以100%全用的,方便的編輯操作還挺重要。
我覺得還有待提升的地方是有些信息錯誤,比如這類提到我2024年3月裸辭,但實際是2023年3月,我估計可能是部分信源的不準確或者表達不精準導致的錯誤。另外,怎么沒把我app logo放進來,以及我的個人介紹里沒放上我的自媒體昵稱和鏈接還是不那么好。但是作為一個實習生的話,這事我能接受。
Skywork 的優勢總結
除了上面的PPT生成任務,我把做文檔和做表格的任務也都試了試。感受上是Skywork在信息搜集的深度上做的還不錯,畢竟你不管是要做PPT、doc還是excel,前提其實都是你該有足夠的信息,MCP模式現在能獲取的信息量還挺豐富的,可以看出這個產品的信息搜集是對標OpenAI DeepResearch來的。
但...我也發現了和之前用別的Agent產品類似的問題,國內網頁信息源的墻還是障礙重重,AI還沒法完全越過,比如多次出現要爬知乎的頁面,但是無法訪問的情況 這倒是不怪AI了。
不過呢,瑕不掩瑜,Skywork在信息溯源上算是下了相當大的功夫,就算是做出來的PPT,但你只要把下面的“溯源”打開,PPT里每段文字都能看到信息來源是哪里,這對打工人來說,是相當放心了,能讓你減少一些被AI幻覺支配的恐懼。
而在寫Doc文檔方面,Skywork能生成相當好的圖文并茂的文檔,拿這個功能去做公眾號文章的寫作,寫PRD,或者制定旅行計劃等等估計是再合適不過了。我這次讓Skywork生成AI Agent發展報告的任務里,TA甚至還幫我生成了一個圖表插入到文檔里。
Excel任務比較有趣的是,我最開始只是讓Skywork幫我收集下最近20年奧斯卡最佳影片獲獎影片的一些基礎信息,但是我沒想到,它幫我把各種信息整理完之后,還做了不少我沒有提到的分析。
比如這個評分與票房之間的關系,雖然不是我直接要求的,但還真是我感興趣的方面,而且在一次任務中能做這種類似的分析,所以確實融入不少數據處理的策略。
Agent的中點
Skywork既不是AI Agent的起點,也不是終點,但我會覺得是個有趣的中點。Agent的發展還需要一個又一個這種中間點的發展歷程的出現。
如果你正在為“做 PPT 做到半夜”“Excel 函數寫到懷疑人生”“查資料跳轉五十個標簽頁”而頭大,不如馬上試試這位“AI 打工人”。它真干活,而且是幫你干那些臟活累活。
看完這篇文章,你記住這句話就行了:
Skywork = 深度研究 × AI Office 三件套 × 可精準溯源 × 在線可改。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.