最近一周,大家拿大模型玩得最多的估計(jì)就是評(píng)測(cè)不同模型寫作文和做數(shù)學(xué)題了,不過作文的優(yōu)劣評(píng)價(jià)太過主觀,很容易引起很多爭(zhēng)議;數(shù)學(xué)題有確定性可評(píng)估的指標(biāo),所以挺值得拿來讓國內(nèi)外各大模型競(jìng)技下的。
在所有這些評(píng)測(cè)里,我覺得卡茲克是評(píng)測(cè)得最充分的,讓我沒想到的是前三居然都是國產(chǎn)模型,尤其是第一名是豆包1.5-thinking-pro,可能字節(jié)在產(chǎn)品上做得太好了,讓人忘了他們大模型的能力本身也夠強(qiáng)的。
然后這幾天,我又看到火山Force大會(huì),發(fā)現(xiàn)他們還推出了豆包大模型1.6,這個(gè)模型有三個(gè)值得一說的特性:
1、推理能力更強(qiáng)了,在基準(zhǔn)測(cè)試上相比前一代有不少提升,在GPQA Diamond評(píng)測(cè)中拿下81.5分,AIME25中拿下86.3,都是SOTA級(jí)別的表現(xiàn)。
2、自適應(yīng)思考,模型調(diào)用時(shí)可以選擇思考(thinking)、不思考(non-thinking)、自適應(yīng)思考(auto)這三種模式,和Claude選擇的策略類似,因?yàn)榫拖袢祟愐粯樱诤?jiǎn)單的任務(wù)上通過系統(tǒng)一進(jìn)行直覺式思考,在復(fù)雜任務(wù)上選擇深思熟慮的系統(tǒng)二思考模式,我覺得這會(huì)是大多數(shù)模型后續(xù)的發(fā)展方向,思考與不思考不應(yīng)該是人為選擇,而是模型自動(dòng)根據(jù)任務(wù)復(fù)雜度去考慮的策略。
3、計(jì)價(jià)模式有創(chuàng)新,根據(jù)輸入和輸出的token長度分段計(jì)較,在輸入token在32k以內(nèi)的情況下,價(jià)格比DeepSeek還便宜不少,這對(duì)做AI產(chǎn)品的開發(fā)者來說是個(gè)好消息。
模型的思考和推理能力算是AI Coding、Agent模型所必需的核心,所以我這次特意想測(cè)測(cè)看,拿豆包1.6試試看他執(zhí)行真正有難度,不能一步完成的Agent任務(wù),看看他到底怎么樣的。
實(shí)操目標(biāo):構(gòu)建一個(gè)聰明的旅行策劃Agent
我這次想拿豆包1.6構(gòu)建個(gè)搞定一切的旅行Agent,試試看他能做到什么程度。
之所以選這個(gè)任務(wù),是我前兩個(gè)月在即刻發(fā)了條動(dòng)態(tài)說用AI制定旅行計(jì)劃可能是個(gè)偽需求,但沒想到遭遇了大量的不同看法,看起來對(duì)這個(gè)場(chǎng)景有需要的用戶數(shù)還不少,所以我覺得針對(duì)這個(gè)場(chǎng)景做個(gè)agent應(yīng)該挺好玩的。
這次我希望構(gòu)建的旅行Agent需要至少滿足我四個(gè)要求:
1、我希望他能根據(jù)我的出發(fā)時(shí)間和回程時(shí)間要求,提供合理的航班選擇
2、他的旅行計(jì)劃應(yīng)該是結(jié)合真實(shí)天氣推薦的,不然要是大雨天推薦我去爬山或徒步不是扯淡么
3、他構(gòu)建的旅行路程應(yīng)該是合理的,比如去北京別給我整出上午頤和園,中午長城,下午故宮的離譜規(guī)劃
4、我希望獲得一個(gè)圖文并茂的形成規(guī)劃,不只是干巴巴的文字計(jì)劃
為了達(dá)成這個(gè)目標(biāo),大家應(yīng)該能理解但靠大模型是實(shí)現(xiàn)不了的,就像你雇傭一個(gè)很聰明,但是沒去過巴厘島的清北畢業(yè)生給你做巴厘島旅行規(guī)劃,如果你把他關(guān)在斷網(wǎng)的小黑屋里,任他想破腦袋,他也沒法思考出行程。你需要給他「工具」,給他「電腦」,讓他能聯(lián)網(wǎng)搜索需要的信息。
而對(duì)大模型來說,MCP便是他們的工具,豆包1.6模型支持MCP的調(diào)用,或者說,一個(gè)支持MCP調(diào)用的模型,一堆MCP算是現(xiàn)在構(gòu)建任何Agent的標(biāo)配了。
火山引擎提供了一個(gè)MCP Market,上面已經(jīng)接入了200多個(gè)主流MCP,即允許你直接在火山上調(diào)用,也可以一鍵安裝到Trae、Cursor等AI Coding工具。
對(duì)于我這項(xiàng)旅行Agent開發(fā)需求來說,我打算拿Trae做開發(fā)(他們已經(jīng)接入豆包大模型1.6),然后選擇這四個(gè)和我任務(wù)有關(guān)的MCP:
1、飛常準(zhǔn) MCP:用來查詢和選擇航班
2、氣象 MCP:用來查未來的目的地天氣輔助景點(diǎn)選擇
3、高德地圖 MCP:用來選擇景點(diǎn)和餐廳、規(guī)劃合理的路線
4、veFaaS MCP:用戶一鍵部署上線Agent制定的旅行計(jì)劃
現(xiàn)在MCP的部署過程也算是夠簡(jiǎn)單的,你只需要在火山的MCP Market找到對(duì)應(yīng)的MCP,比如高德地圖這個(gè):
1)點(diǎn)擊生成
2)前往高德地圖開放平臺(tái)獲取APIkey
3)你將獲取到一串Json代碼,點(diǎn)擊「去Trae配置」(如果你還沒安裝Trae,可以先裝一個(gè),這是字節(jié)的AI IDE工具)
4)在Trae完成最后一步「確認(rèn)」,你的MCP就裝好了
不同MCP的安裝過程大同小異,有更簡(jiǎn)單的你甚至不需要獲取任何key的,也有需要你自己去復(fù)制Json代碼,然后主動(dòng)在Trae添加的,但都很容易理解,這些MCP一個(gè)個(gè)安裝完成后的狀態(tài)如下:
Prompt提示詞
接下來就是魔法發(fā)生的時(shí)刻,你只需要在Trae中選擇豆包大模型1.6,發(fā)出你的提示詞,然后等待這個(gè)Agent的表現(xiàn)就好了。我這次根據(jù)我自己的需求,給Trae的提示詞如下:
請(qǐng)幫我用HTML生成一個(gè)從北京到大理游玩的旅行計(jì)劃,我的需求如下:
1、我想在6月15號(hào)早上11點(diǎn)左右從北京飛大理(我不想起太早),6月18號(hào)晚上21點(diǎn)前回到北京。
2、請(qǐng)為我提供出發(fā)航班和回程航班的選擇推薦
3、請(qǐng)用氣象MCP為我提供6.15-6.18期間大理當(dāng)?shù)氐奶鞖庑畔ⅲ⒃诰W(wǎng)頁中展示
4、請(qǐng)結(jié)合天氣狀態(tài)制定旅行計(jì)劃,我希望每天最多只訪問2個(gè)景點(diǎn),2個(gè)景點(diǎn)之間的開車時(shí)間應(yīng)該在30分鐘以內(nèi)
5、請(qǐng)使用高德地圖MCP為我根據(jù)景點(diǎn)情況選擇當(dāng)?shù)赜刑厣u(píng)分高的餐廳、咖啡館,要距離當(dāng)天要訪問的景點(diǎn)開車20分
6、為我生成旅行計(jì)劃的路線圖,包括去的景點(diǎn)和餐廳的照片,我希望能圖文并茂地展示在HTML網(wǎng)頁上
這段prompt是我手打的,我還挺喜歡自己寫Prompt,并且經(jīng)常嘗試不同的prompt對(duì)模型表現(xiàn)的影響的,不過我估計(jì)很多人會(huì)對(duì)寫prompt感到困擾,尤其是當(dāng)你接觸自己不熟悉的領(lǐng)域知識(shí)時(shí),火山提供了個(gè)promptpilot的功能,可以幫你把簡(jiǎn)單的需求(左側(cè)),優(yōu)化調(diào)校到更豐富帶有領(lǐng)域知識(shí)的豐富prompt提示詞。
Agent體驗(yàn)
Trae上接入的豆包1.6看起來是auto模式的,會(huì)根據(jù)用戶提供的任務(wù)復(fù)雜度自主確定是否思考,顯然我這個(gè)需求是需要多步驟才能完成的復(fù)雜任務(wù),所以我看ta是先思考了一段任務(wù)的todo list之后再開始執(zhí)行的。這里多說一句,未來會(huì)有越來越多的用戶任務(wù)是無法一次性完成的,所以模型是否有自主規(guī)劃,通過多步驟實(shí)現(xiàn)一個(gè)目標(biāo)的能力會(huì)是很影響模型實(shí)際任務(wù)表現(xiàn)的指標(biāo)。
接下來,Trae為了完成我的目標(biāo),一次性幫我完成了10多次的MCP調(diào)用,而且從這部分的語言表達(dá),你可以明確看出ta好像真的知道自己在做什么,每次只完成一個(gè)小任務(wù),再不斷把收集到的信息進(jìn)行拼接。
最后完成的網(wǎng)頁設(shè)計(jì)效果如下,你可以感受下:
說實(shí)話,這個(gè)頁面還有不少不足,比如:1)圖片的選擇不太準(zhǔn)確,文字和圖片不是太匹配;2)還未提供實(shí)際的旅行地圖,目前用了個(gè)圖片替代。
不過這兩個(gè)問題還可以通過進(jìn)一步的對(duì)話和提要求去解決,一次對(duì)話能完成到這個(gè)程度還挺超出我預(yù)期的,包括:
1)真的圖文并茂,生成的網(wǎng)頁中有圖這一點(diǎn)很難得;
2)在我只要求html網(wǎng)頁,對(duì)網(wǎng)頁設(shè)計(jì)沒做明確要求的情況下,網(wǎng)頁設(shè)計(jì)相當(dāng)不錯(cuò),UI品味我覺得和Claude4,以及新的DeepSeek R1相近;
3)在一次任務(wù)里完成這么多MCP工具的調(diào)用,推薦的航班信息和景點(diǎn)、餐廳信息都挺準(zhǔn)確的,這很難得。
在完成網(wǎng)頁設(shè)計(jì)后,你可以通過自然語言讓Trae調(diào)用veFaaS去自動(dòng)構(gòu)建后端,幫你把本地的html文件打包部署為可訪問的頁面,分享給你同行的朋友,Trae會(huì)自動(dòng)調(diào)用veFaaS MCP幫你完成對(duì)應(yīng)過程:
最后,我還通過自己的方式把這個(gè)網(wǎng)頁部署到我自己的域名下,你可以嘗試下看看最終的交互效果:https://doubao.bookai.top/dali_travel_plan.html
綜合測(cè)試下來,我覺得現(xiàn)在國內(nèi)進(jìn)行Agent開發(fā)的生態(tài)真的已經(jīng)到了成熟,準(zhǔn)備起飛的階段了。以豆包1.6來說,ta的推理能力、編程能力、視覺審美,以及多模態(tài)的圖片理解能力,以及很適合企業(yè)、開發(fā)者用來做Agent的快速開發(fā)和測(cè)試了,大模型是所有Agent的基石。
而在基石之上,則可認(rèn)為是生態(tài),尤其是以MCP為代表的大模型工具市場(chǎng),火山方舟提供的MCP,串聯(lián)起了Agent的“思考—執(zhí)行—展示”全流程,讓Agent落地路徑標(biāo)準(zhǔn)化了不少。
我這兩天還看了Cursor CEO Michael Truell接受硅谷孵化器YC CEO的訪談節(jié)目,他提到在AI時(shí)代,真正區(qū)分人與人之間差別的是「Taste品味」,因?yàn)楝F(xiàn)在AI 已經(jīng)能生成幾乎任何代碼,但它永遠(yuǎn)不能替你決定:“我們應(yīng)該做一個(gè)什么樣的產(chǎn)品?”
說到底,從大模型思考,到MCP執(zhí)行任務(wù),到網(wǎng)頁最終上線,整個(gè)開發(fā)鏈路我?guī)缀鯖]有碰傳統(tǒng)后端,也沒有寫一行部署代碼,全流程就是:豆包1.6 ? MCP調(diào)度 ? Trae開發(fā) ? veFaaS部署。
這種“AI云原生”的Agent開發(fā)范式,正在慢慢取代傳統(tǒng)開發(fā)邏輯:你不再需要自己拼數(shù)據(jù)源、搭部署環(huán)境,只需要組合已有組件、發(fā)出準(zhǔn)確指令。如果說大模型是大腦,MCP是手腳,veFaaS就是它的居所。而Trae把這一切都織成了完整的生產(chǎn)鏈。
如果你也想上手做點(diǎn)什么,不妨把“AI云原生”當(dāng)作你新項(xiàng)目的起點(diǎn)。
所以,有了這些生態(tài)和工具后,你想好要去創(chuàng)造點(diǎn)什么了嘛?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.