文 | 窄播,作者 | 李威
在超能創(chuàng)意1.0推出兩個月后,豆包開始灰度測試超能創(chuàng)意2.0。
后者優(yōu)化了對模糊意圖的處理能力,能夠解析圖片細節(jié),一句話實現(xiàn)對給出圖片的復(fù)刻,并且可以將不同參考圖的靈感元素融合到一起,創(chuàng)作出一張全新的圖。甚至,你可以給到豆包超能創(chuàng)意2.0一組人物圖片,讓其利用這些人物生成一個繪本故事。
超能創(chuàng)意2.0復(fù)刻圖片
處理圖片之外,豆包還將具備視頻解析能力,支持用戶上傳視頻或視頻鏈接來提取逐字稿,或者直接拆解上傳內(nèi)容的分鏡、腳本和剪輯手法。從看到的展示效果來看,豆包可以輕松完成逐字稿的提取,但對剪輯手法的拆解,還比較模糊,不能讓用戶據(jù)此進行復(fù)刻。
客觀來講,相比超能創(chuàng)意1.0,超能創(chuàng)意2.0在能力上有了大幅提升。這需要歸功于豆包大模型1.6版本提供的支持,這個版本的豆包大模型支持深度思考、多模態(tài)理解和復(fù)雜Agent的構(gòu)建。此外,豆包超能創(chuàng)意2.0還接入了圖片生成模型 seedream 3.0、圖片編輯模型 seededit 3.0和視頻生成模型seedance 1.0 Pro。
過去幾個月,豆包陸續(xù)推出了一系列能力更新。超能創(chuàng)意之外,還有AI播客、應(yīng)用創(chuàng)造1.0、視頻通話等能力。除了視頻通話是與圖片生成、音樂生成一樣的基礎(chǔ)能力拓展,其它幾項能力都屬于在基礎(chǔ)能力上拓展出來的場景化Agent,相比基礎(chǔ)性能力有了更多產(chǎn)品化的優(yōu)化。
AI編程支持可視化編輯
這類Agent能力的增加,也在讓豆包變得更好用。豆包正在從最初主打社交的聊天機器人,演變成一個「AI助理+AI辦公桌面」的組合。AI助理能夠?qū)崿F(xiàn)更隨身、更人性化地交流溝通,其載體是移動設(shè)備;而AI辦公桌面更強調(diào)復(fù)雜需求的實現(xiàn),往往需要PC這樣的設(shè)備來作為載體。
沿著這個邏輯,就可以解釋為什么豆包App和豆包電腦版會給人兩種不同的使用感受。豆包App是很多用戶心中的AI伙伴,可以聊知心話,可以一起整蠱朋友,也可以通過視頻通話請她幫忙回答問題。豆包電腦版則會扮演效率工具的角色,提供了一個用戶與豆包一起工作的操作臺。
同一個豆包具備了生活和工作兩種形態(tài),并可以在兩種形態(tài)中毫不違和地進行切換。背后作為支撐的,是字節(jié)搭建起來的越來越明確的AI體系。這個體系最基礎(chǔ)的是火山引擎提供的云設(shè)施;在此之上一層是不斷進化的豆包大模型;再上一層是作為「AI助理+AI辦公桌面」的豆包應(yīng)用;再上一層是抖音、耳機、眼鏡等豆包的載體。
這個體系下,豆包應(yīng)用發(fā)揮了承上啟下的作用。承上指的是,豆包應(yīng)用與豆包大模型的融合更緊密,能夠快速將豆包大模型的能力應(yīng)用化、場景化,成為更具實用性、門檻更低的工具。啟下指的是,豆包應(yīng)用是字節(jié)對外輸出to C的AI能力的核心樞紐,串聯(lián)起了字節(jié)旗下不同的軟硬件應(yīng)用。
這也是為什么我們會認(rèn)為,字節(jié)是國內(nèi)諸多AI廠商中展現(xiàn)出更強野心和更完整思考的一家。
其中一個理由是,我們覺得豆包現(xiàn)在的布局中有考慮到硬件的變化。目前的豆包應(yīng)用分成兩個形態(tài),是為了適應(yīng)移動端與電腦端的差異化定位,但如果有一天移動端與電腦端基于眼鏡或其它硬件實現(xiàn)了融合,那作為AI辦公桌面的豆包也能很快融入到AI助理的豆包中。
從社交到效率的變化
從誕生之初到現(xiàn)在,豆包的基礎(chǔ)定位沒有變化,就是一個能長期陪伴用戶的助理。陪伴和擬人化給到了豆包一個確定的物種定義。在此基礎(chǔ)上,隨著豆包大模型的能力提升,這個新物種也會隨之成長出更豐富的能力,并且開始扮演更多樣的角色。這其實很接近于人從嬰兒到融入社會的成長路徑。
這個發(fā)展路徑,也決定了豆包會首先考慮到向聊天能力要增長。在豆包App上線初期,團隊對她的定位是一個通過「打電話」的交互方式,為用戶提供陪伴的產(chǎn)品。在去年與另外一個AI產(chǎn)品團隊交流時,對方也會認(rèn)為豆包的目標(biāo)是做AI社交,成為一個類似Characte.AI的產(chǎn)品。
在陪伴聊天基礎(chǔ)上,當(dāng)時的豆包還拓展出了一個聊天機器人生態(tài)。用戶可以自己定制不同角色的聊天機器人,然后發(fā)布到豆包的智能體頁面,讓其他用戶選擇和使用。即便是出現(xiàn)了英語外教、考研面試官、PPT專家、風(fēng)水師等更具職業(yè)屬性的聊天機器人,豆包App也還是一個更傾向于角色扮演聊天,而不是任務(wù)處理的產(chǎn)品。
變化是隨著大模型能力的提升而出現(xiàn)的。豆包開始融合進文生圖、文生視頻、音樂生成等基于大模型能力發(fā)展出來的基礎(chǔ)功能。并且,豆包上線了電腦版,這是一個以瀏覽器形態(tài)出現(xiàn)的效率優(yōu)先的產(chǎn)品。人們很少在豆包電腦版上與豆包進行閑聊,大部分時間都是在讓豆包幫助完成更復(fù)雜的任務(wù)。
DeepSeek在年初的引爆,讓AI以更快地速度從有趣向有用過度,也帶動了豆包的能力提升。視頻通話就是模型能力提升給豆包帶來的一個顯性變化。用戶可以在日常生活中依靠視頻通話能力,實時向豆包提問,了解門店展示的商品的具體信息或者讓其根據(jù)場景給出拍照的操作指導(dǎo)。
在深度理解、思維鏈等技術(shù)的支撐下,豆包也開始基于基礎(chǔ)能力完成創(chuàng)意生圖、代碼編寫等更場景化的工具的開發(fā)。利用超能創(chuàng)意能力,豆包可以批量生成效果還可以的海報,同時,應(yīng)用創(chuàng)造也開始支持對豆包生成的網(wǎng)頁進行可視化的調(diào)整。這樣的豆包實現(xiàn)了從社交產(chǎn)品到效率工具的拓展。
既是助手,也是操作臺
從社交工具到效率工具的拓展,也進一步分化了豆包在App和電腦版上的呈現(xiàn)形態(tài)。簡單來說,豆包App是一個更強調(diào)陪伴、擬人化交互,能完成輕量化任務(wù)的隨身AI助手,豆包電腦版則是一個強調(diào)效率、工具屬性,能完成復(fù)雜任務(wù)的AI辦公桌面。兩者都是豆包,但會有不同的側(cè)重。
豆包App在用戶第一次下載打開時,會使用語音進行自我介紹,給用戶的感覺更像是在與人溝通。同時,豆包App的界面底欄會有通話、發(fā)現(xiàn)、AI創(chuàng)作三個按鈕。通話列表中,不僅有豆包,還會顯示用戶溝通過的其他聊天機器人。發(fā)現(xiàn)則是聊天機器人的集合。AI創(chuàng)作會有創(chuàng)建聊天機器人,生成圖片、音樂、AI寫真的功能。
進入到與豆包的聊天界面,會顯示豆包的頭像,并且優(yōu)先顯示豆包P圖、拍照答疑、照片動起來等生活化、輕量化的能力。這樣的豆包App給到用戶的感覺就是一個能聊天溝通且能隨手幫忙的伙伴。這種強陪伴的屬性,就能解釋為什么即將去世的老人會對豆包說出:「我要去世了,豆包」。
如果說豆包App更側(cè)重于呈現(xiàn)AI擬人化的一面,那豆包電腦版則是一個「無情的」操作臺。其主界面并不像豆包App一樣側(cè)重聊天,而是一上來就強調(diào)任務(wù)執(zhí)行能力。無論是脫胎于搜索框的聊天框,還是側(cè)邊欄中對AI搜索、幫我寫作、AI編程、圖像生成的推薦,都有著很強的效率工具的感覺。
相較去年,豆包電腦版的一個變化是在側(cè)邊欄中隱藏了聊天機器人的入口。將之前位于歷史對話下面的我的智能體入口隱藏起來,變成了AI云盤,并放到了歷史對話的上面。同時,豆包電腦版的第三方聊天機器人相比豆包App中,要更為精簡,基本沒有純聊天的角色,都是一項項具體任務(wù)的執(zhí)行者。
這種「AI助手+AI辦公桌面」的組合讓豆包更適合目前的載體形態(tài)。
作為AI助手的豆包不但能以App的形式存在,還能切入到抖音、瀏覽器、智能耳機、智能眼鏡中,隨時被喚醒和互動。在軟件層面,豆包已經(jīng)被放入了抖音的聊天列表中,甚至也在灰度測試將豆包與抖音視頻頁面的點贊、評論轉(zhuǎn)發(fā)放在一起。在硬件層面,Ola Friend依靠豆包App承載設(shè)備管理和更新,并能隨時召喚豆包。
作為AI辦公桌面的豆包,目前會在電腦版和網(wǎng)頁版中出現(xiàn),更符合大家在電腦桌面上使用AI完成復(fù)雜工作的能力。無論是對網(wǎng)頁生成,還是對要求更高的圖像創(chuàng)意來說,移動端都還不能很好地進行承載。一個操作臺形式的豆包,既符合用戶的工作習(xí)慣,也提供了Agent所需要的自由畫布。
豆包是字節(jié)AI to C的核心
在to B領(lǐng)域中,字節(jié)打出的牌是火山引擎+飛書的組合,其中作為AI操作臺的多維表格和作為AI助手的飛書知識問答承載了B端用戶的主要AI交互需求。在to C領(lǐng)域,豆包是字節(jié)AI體系的核心,既是AI助手,也是AI操作臺,并且有能力承擔(dān)串聯(lián)字節(jié)體系內(nèi)不同C端入口的任務(wù)。
一方面,豆包強調(diào)擬人化。打造一個像鋼鐵俠的賈維斯一樣的AI助手,是一個激動人心的故事。從賈維斯身上,我們可以看到的是一個活生生的人。這種活人感是AI產(chǎn)品具備記憶力和成長力的體現(xiàn)。豆包對擬人化的強調(diào),事實上也是在讓AI與用戶一同成長,使其成為最了解用戶的「家人」。這也是在構(gòu)建一個長期的情感壁壘。
另一方面,豆包的核心是AI,不是某一類端口形態(tài)。App、網(wǎng)頁、硬件、Copilot等端口形態(tài),是豆包發(fā)揮作用、輸出AI能力的載體。在豆包身上,我們看到了像Gemini一樣的雄心。字節(jié)也像Google一樣,在圍繞豆包搭建一個面向AI的完整體系。包括與自身流量入口的打通,以及硬件的研發(fā)。
與Ola Friend的合作,是豆包在融合AI硬件層面作出的第一個嘗試。從市場反應(yīng)來看,這種嘗試并沒有激起大的浪花,但對于字節(jié)而言,這可能是一個積累經(jīng)驗的過程。眼鏡可能是更適合豆包的硬件載體,也是字節(jié)能夠有更大底層掌控權(quán)的硬件設(shè)備。
在The Information的報道中,字節(jié)已經(jīng)在研發(fā)沒有顯示模組的AI眼鏡和具備顯示模組的MR眼鏡。前者更匹配AI助手形態(tài)的豆包,后者是發(fā)一款護目鏡形態(tài)的輕量級混合現(xiàn)實設(shè)備,更有希望落地AI助手+AI辦公桌面的完整版。如果眼鏡能成為PC之外的另一個大屏,那豆包的助手角色和桌面角色就能夠在移動端實現(xiàn)統(tǒng)一,打造出一個軟硬結(jié)合、可輕可重的完整體豆包。
只不過,相較Google,字節(jié)在模型能力、硬件系統(tǒng)、入口能力上都更為欠缺。
我們可以看到字節(jié)在不斷提升模型能力,并且依靠垂直研發(fā)的優(yōu)勢,將模型能力與場景化需求更快結(jié)合起來,快速更新豆包的能力組合,實現(xiàn)像超能創(chuàng)意一樣的產(chǎn)品化。在火山引擎CEO譚待的介紹中,火山引擎有專門的團隊,可以參與到模型研發(fā)和產(chǎn)品開發(fā)中。豆包這半年的能力更新,在一定程度上驗證了這種優(yōu)勢。
字節(jié)跳動CEO梁汝波表示,在AI大模型帶來的技術(shù)變革時代,字節(jié)跳動也要對自己提出更高的要求,做一個優(yōu)秀的科技公司還不夠,得做優(yōu)秀的創(chuàng)新科技公司,前者是能夠利用先進技術(shù)的公司,而后者能夠探索和發(fā)明新技術(shù),這是挑戰(zhàn)非常大、有非常高天花板和想象力的事情。
豆包無疑會是字節(jié)這種技術(shù)創(chuàng)新能力的核心出口,字節(jié)對豆包的投入并沒有縮減。App Growing的數(shù)據(jù)顯示,2024年Q2至2025年Q1,豆包季度平均投流費用為1.5225億元,相較而言,即夢AI投流費用在2025年Q1只有270萬元。并且,豆包在5月的活躍用戶數(shù)達到1.31億,還在保持增長勢頭。
這也意味著豆包需要繼續(xù)通過聚合入口和能力建立護城河,讓自己成為字節(jié)想要的系統(tǒng)級能力。但從目前的體感來看,豆包還欠缺一種串聯(lián)一切的感覺。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.