文:王智遠 | ID:Z201440
前幾天,阿里Qwen chat上線了Deep Research”(深入研究),號稱能把幾個小時的復雜任務壓縮到幾十分鐘完成,免費開放給所有用戶。
對我這種經常要搜集領域信息的人來說,很有吸引力,所以,第一時間體驗了兩天。
打開QwenChat界面,在功能選項里就能找到深度研究入口;官方說,一個智能助理系統,綜合大量在線信息來源,能規劃復雜的任務。
01
第一次使用時,我輸入一個比較寬泛的研究主題:“請幫我分析當前AI搜索產品的競爭格局和未來趨勢”。提交后,它沒有馬上開始搜索,而是先確認我的需求。
整個過程分三步:
一,系統馬上給出3個大問題,里面又包括幾個小問題。看起來它在規劃報告結構,懂得先把一個大需求拆成小任務。
第二步,Deep Research開始在互聯網上自動查找、篩選和整合相關信息。全程自動化,會理解內在邏輯。
最后一步,它根據階段性產出的成果,又進行調整,仿佛更像一個兼具「學習」和「適應」能力的智能體。
大概10分鐘,一份關于「當前AI搜索產品的競爭格局和未來趨勢」的研究報告就生成;整體報告結構清晰、分點闡述、內容全面,還附帶引用鏈接;雖然是AI生成,但可讀性還蠻高。
不過,有優勢,也有劣勢。劣勢是什么呢?
和其他深度研究類產品一樣,現在大家都喜歡卷誰研究的報告比較長;就好像給它個主題,它能一直寫,感覺在挑戰系統最大化輸入能力。
報告雖然長,但質量跟不上,因為字數多了,真正有用的內容反而沒多少。
比如,一個一萬字的報告,我看了下,可圈可點部分也就那么3000字。剩下了要么很純理論,要么是枯燥無味的書面語,讀起來費勁。
還有第三個問題,它給人一種“看似正確又不準確”的幻覺。它寫的東西看起來有道理,但不知道到底準不準;能把諸多文字放在一起,讀著還挺順,但讀著讀著,又覺得哪里不對勁。
再提一點的話,宏觀敘事,它會把很多內容寫的寬泛,但又沒辦法深入具體細節,像在講一個很大的故事,只是簡單地勾勒了一個輪廓,但沒有把情節展開講清楚。
這兩天,我一直在想,Qwen的Deep Research功能,到底適合誰用?大概適合三種人:
第一是,普通人做生活決策。
你想給孩子報個夏令營,但網上信息太多,挑花眼;Deep Research能幫你一下子找到所有機構的信息:哪家口碑好、價格怎么樣、課程內容是啥,省得你自己一個個翻了。
然后是,寫東西的人,尤其偏文學、哲學方向的。
這類內容不像研報,不要那么多數據支撐;Deep Research就很有用,你可以讓它幫你查資料、找靈感、整理思路,寫起來輕松不少。
第三類是,學生和研究者。你要做一個課題,查文獻、列提綱、寫綜述,很費時間;可以讓它幫你快速收集資料、分類整理,輔助你搭框架,整個過程快不少。
02
那么,到底是怎么做到的?它的底層邏輯是什么?
可能是這樣:
先在網上搜資料,挑一挑、排個序,把真正有用信息留下來。這一步跟我們去網上查東西差不多,但它做得更快、更準。
然后,它會調用很多外部知識庫,比如:維基百科、學術論文、甚至一些企業內部的數據系統,這些知識庫像它背后的大腦。
而且,它也不是一次就把所有內容都搞定,會在過程中不斷調整。某個方向的信息不夠完整,就會再去查一遍,或者換一種思路繼續分析。這個過程背后應該用到了強化學習的技術。
最后,它把復雜的分析結果整理成普通人也能看懂的語言,生成一份條理分明的報告。
要我一句話總結是:Qwen的Deep Research,是把搜索、推理、執行、反饋和表達這幾件事,都串聯到一起,像通用agent。
深度深度體驗兩天之后,我覺得它目前還不能完全替代Manus。
Manus每次新建一個任務后,執行過程中,有新的靈感,直接打斷它輸入進去,它就能立刻調整方向,重新搜索和檢索相關信息,這種“邊做邊改”的能力,挺像跟人合作的感覺。
另外一點感受是,以前用Manus時,它輸出內容雖然很全面,但很多時候信息量太大,反而重點不突出。
最近好像在長度控制上做了優化,也提升了內容的精準度。也就是說,它不再一味追求“寫得多”,而是更注重“寫得準”。
我昨天在它執行任務中,臨時插了一句:
夸克Deep Research和Grok 3的Deep Research有什么區別?它立刻開始查資料,整理出兩者核心差異,整個文本并不長,觀點明確、結構清晰,信息也很到位,冗余很少。
從這些細節來看,國內大廠,如果能在「任務進行中靈活調整」這個方向上多下功夫,那最終生成的報告可能更貼近真實需求,也更有實用價值。
這也暴露出來一個問題:大家對深度檢索 (deep research)理解不太一樣,最核心的區別在于:它到底是「任務助手型」,還是「信息檢索型」?
什么是任務助手型?
Manus更像能動腦的研究員,我讓你怎么拆、怎么干、怎么微調、怎么改方向、怎么加問題,它都能接得住。
Qwen現在的Deep Research也有一定的任務理解和調整能力,但整體上還更像一個“能規劃+整理信息”的工具。
它可以幫你查資料、列提綱、整理思路,但在任務拆解的精細度和互動深度上,沒達到那種「人一樣的研究流程」。
所以,有的產品說它有Deep Research功能,其實說它能搜得更深、整合得更好;而有些產品的Deep Research,真的能跟你一起“做研究”,邊做邊改,越改越準。
這兩個差別,挺關鍵,也決定你到底能不能真的用它來替代一部分人工研究的工作。
03
我還發現一個趨勢:現在國內很多面向C端用戶的模型產品,它的Deep Research功能,基本朝著Grok3的方向在走。
什么意思呢?
它們追求「信息全、輸出長」,希望把一個問題相關方方面面都覆蓋到,盡可能還原出一個完整的信息圖景;這種思路的核心是「全面性」,不是讓你只看到一角,而是盡量看到整個拼圖。
我覺得這個思路挺好。
前兩天我要寫一篇關于胖東來的文章,想查兩個數據:員工平均工資是多少?管理層又拿多少?
我用一些AI搜索工具,每家給的數據都不太一樣,很抓馬;但當我用夸克的Deep Research去查時,它不僅給出了答案,還把不同來源、不同時間段的數據都列了出來,甚至還標注了信源出處和計算方式。
最關鍵的是,它幫我過濾掉了很多明顯不靠譜的信息,把大概率準確內容整理在一起,再把有爭議、不確定的小概率信息也單獨列出來,像給一個“鳥瞰圖”,一下能看清整個問題的來龍去脈。
所以,我覺得,現在Deep Research更像一個深度檢索系統,幫你篩選、整合、呈現最有價值的部分,同時也不忽略值得留意的細節。
至于真做到任務助手那一步,又是另一種類別了。
因此,關鍵要把二者區分好。像字節跳動的「扣子空間」、百度「心響」、360「MCP萬能工具箱」、阿里的云百煉等,更像任務規劃和執行的平臺。
你需要一個能幫你「做事情」的AI,那應該關注這類任務助手型平臺;如果只是想快速了解一個問題的來龍去脈,那Deep Research功能就足夠用了。
04
看到這兒,可能還有人會問另一個問題:Deep Research 和 深度思考(Deep Thinking),到底有什么區別?
這個概念,混淆不少人。
Deep Research,從字面上理解是「深度檢索」。
你鑰匙丟了,開始滿屋子翻,這兒找找,那兒看看,還用手電筒照角落,最后總算找到了;這個過程雖然麻煩,但目標很清楚:要把關鍵的東西找出來。
這其實就是Deep Research的核心:深入挖掘能力。
而深度思考(Deep Thinking)呢?不太一樣。你找到鑰匙之后,突然想到一個問題:我怎么老丟鑰匙?這時,你就進入了“深度思考”的階段。
你可能會開始琢磨:是不是我出門太急了?是不是我應該換個帶提醒功能的包?是不是該改掉這個壞習慣?你甚至還會聯想到其他類似的問題:“我是不是什么東西都容易丟?”
這就是深度思考:不是單純找東西,在找到前、后去分析原因、反思行為、提出改進方案。
簡單講,Deep Research 是找鑰匙的過程;深度思考是你找到鑰匙后,開始想為什么會丟、以后怎么避免,一個是「找到」,一個是「想明白」。
最早在2025年2月,OpenAI推出Deep Research后,國外大廠迅速跟進。
2月14日,Perplexity也上線了自己的Deep Research功能;幾乎同時,Grok-3也集成了DeepSearch能力。
而國內當時幾乎沒什么動靜。
直到今年上半年,字節、百度、騰訊、阿里才陸續上線深度思考相關功能,看起來像在補課。但其實,這一波關于Deep Research(深度檢索)的能力,還沒有完全跟上,甚至忽略了。
我覺得,在AI研究這塊,國內外的差距還沒完全拉平,大廠們確實還需要加把勁。
因為現在信息量越來越大,反而更容易讓人困惑。很多內容由AI生成,連AI自己引用時也分不清:它到底是在引用真實資料,還是在復制另一個AI生成的內容?
我最近用騰訊元寶,點進去好多內容,根本找不到原始出處,如果你不仔細檢查,可能會誤以為這些信息都很可靠。
而真正的深度檢索,要解決這個問題,通過深層次的挖掘能力,找到真正靠譜、有價值的內容。
Qwen在這方面又往前拱了一步。
這一步看似很小,雖不完善,卻價值巨大,它比單純發一個模型更有實際價值,因為它解決了用戶真正會遇到的問題。
所以,問題來了:它會把這個能力,衍生到其他產品中嗎?這一步,對它的生態又有何影響呢?我還在進一步觀察。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.