文:王智遠 | ID:Z201440
去年10月份,字節舉辦一場豆包大模型相關的活動。
活動中,他們不僅把大模型價格降下來了,還展示了豆包視覺大模型的解析能力;當時,我看到后表示驚訝:以后跟AI打電話,通過共享屏幕,它就能幫我理解一切,太快了。
不過,當時展示的似乎更像一個炫技的demo,一直沒開放出來;三個月過去了,期間看他們不斷內測,今天終于拿到體驗資格。
這個能力到底是什么?
簡單講,在與豆包進行語音通話時,界面會多出一個“共享屏幕”的按鈕;點擊后,它能實時看到桌面內容,并對場景進行解析,提供建議和幫助解決實質性問題。
我習慣使用快捷鍵,所以,直接按了Option + S來呼出功能。當然,你也可以點擊界面上的按鈕來使用,這主要取決于個人習慣。
首先,我問它:你能看到我屏幕不?
它說:我看不到。我心想,怎么回事?搗鼓了一分鐘,我掛斷電話又重新打開,這回可以了。估計是系統延遲導致的bug。
接下來,決定試試它的本事。當時,屏幕上開著三個頁面:第一個和Kimi聊天的窗口,第二個我的微信群聊,第三個是正在寫的文檔。
我問它:你能看到我屏幕上都有啥不?
豆包回答:你所在的微信群里有個朋友叫宋敬緯,看他的名字像是來自分眾傳媒。他在群里說,60歲是該拼的時候,其他朋友也在討論這個事兒。
我有點驚呆,豆包居然能看這么細。
我又接著問:那你能看到我跟Kimi在聊啥不?它說:你這Kimi窗口開著,看著好像有問題想問。要不我幫你想想,告訴它?的確,我開著Kimi的聊天窗口,但還沒輸入任何內容。這,難道要控制Kimi?
然后,我瞅一眼屏幕右邊的文檔,又問:你能看到我的文檔不?他說:能看到,你正在寫對豆包的體驗......,的確,我正在寫這篇體驗文檔。
最后,我打開Safari瀏覽器,上了百度搜索;它說:我看到你在搜索東西,需要幫忙不?我可以幫你想想。
這系統交互能力是很快,像有個眼睛盯著電腦屏幕;我覺得光看圖片、讀聊天記錄、閱讀文字實在有些基礎。于是,又測試了一下它的數學能力。
讓我手寫一個復雜公式,現在腦子明顯不夠用。于是,把這個問題交給了Kimi。Kimi寫完問題后,我把它復制到備忘錄里,然后,通過共享屏幕讓豆包幫我解答。
豆包大概只用了3秒鐘,給出了答案:18元。除了答案,他還詳細地解釋了他的計算過程,整體非常絲滑。
體驗到這,我突然想到一個問題:
既然豆包能夠識別屏幕上的平面內容,那它能否處理立體或動態內容呢?比如:看短視頻。
于是,我打開了一段前幾天拍攝的短視頻,時長約一分鐘,問豆包能不能幫我“觀看”這段視頻。不出所料,豆包回答說無法直接觀看。這也在情理之中,畢竟視頻是動態的,對它來說可能難以實時解析。
不過,我沒有放棄。
打開一個視頻號,等視頻內容播放完,再問它,視頻講了什么?豆包說,你在看一個視頻號的內容,內容主要是兩人相親的場面。
這個過程中也有一些痛點。如果視頻太長,豆包可能只聽了一分鐘左右,就會自動中斷并開始總結,而此時視頻可能還沒有播放完。
所以,我測試了四點:看社群聊天記錄、操作Kimi、看圖片、看視頻。
像屏幕共享軟件、操作電腦桌面、解析內容和視覺的產品,有很多。比如:Highlight AI。
非常強大的桌面 AI 工具,我很早在用;它能直接操作微信、Notion 等應用,交互非常絲滑,直接用語音和自定義快捷鍵就能操作;我還能讓它幫我提取公眾號的內容,或者翻譯屏幕上的文字。
谷歌的 ScreenAI,它主要能解析屏幕上的圖標、圖片和地圖,并生成摘要。我還能用它分享一個網頁的設計布局,或解答圖標里的問題,非常適合處理視覺信息。
還有 OmniParser、ChatGPT,這些工具雖然側重點不同,但都圍繞著屏幕內容共享、操作、解析這三點展開的。
對于一個國內用戶來說,我認為唯一劣勢是:網絡問題,體驗不夠好;有時候,使用過程中會頻繁卡頓,甚至中斷;豆包AI助理共享屏幕語音出現,恰巧解決了該問題。
我一直在想豆包這個能力,到底適合什么場景下使用?
后來覺得,AI助理不能直接用場景來定義它的用途,因為本質更像是一個全能的代理人。代理人要具備更廣泛的能力,不應該被局限在某個特定場景下。
另外,我認為,AI助理的挑戰已經從“能力”轉向了“交互”。這種新的交互模式,可以看作圖形用戶界面(Graphical User Interface,簡稱GUI)的一次重大升級。
為什么這么說呢?
過去使用電腦時,主要依賴點擊圖標、按按鈕、查找菜單等。雖然這種方式看似直觀,但當功能越來越多時,屏幕會變得雜亂無章,學習成本也隨之增加,使用起來也顯得繁瑣。
此外,每次想要完成一個任務,都要手動操作——點這兒點那兒,既被動又耗時。比如,同時處理多個任務時,我們需要在寫文檔、查資料、看文件之間來回切換,效率很低,體驗也不夠流暢。
而AI助理的出現改變了這一切。
它能夠聽懂我們的語言指令,想讓它做什么,直接開口就行,完全不要記住復雜的操作步驟。我想記錄一個想法,只需說“幫我記下來”;遇到問題時,可以說“幫我解決”,整個過程簡單高效。
更重要的是,AI助理還能在后臺自動完成任務,無需我們時刻盯著屏幕。它能夠理解我的意圖,將復雜任務分解成多個步驟,并逐步完成。
我有一個深刻的體會:以前問問題時,需要逐字輸入,有時還沒打完,思路就中斷了。
現在,通過語音輸入,可以一口氣把問題說完,即使表達得不夠完整,AI助理也能理解我的意思,并分段幫我解決問題。
在我看來,AI TOC產品經理應該深入思考一個命題:如何進一步優化交互方式,讓用戶和人的關系,從傳統按鈕變成更自然的對話。也許,唯有這樣,才能真正做到從「工具」到「智能伙伴」。
你覺得呢?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.