ChatGPT Pro有點兒太貴,暫時沒買,但晚上下班回家看了下OpenAI發布會和推特上的一些分享,可以了解下實現這個功能需要哪些技術。
首先看一下這個功能的輸入輸出。
輸入:一般來說是需要深度分析的問題,然后要求輸出一個報告。
輸出:一份完整的報告,特點是Fully cited document,即「全部引用的文檔」。
如果不能理解這一點兒,可以看下面這個例子,Deep Research功能會大量的從互聯網中引用別人的說法,而不是生編硬造。
簡單來說,就是「口說有憑」。
你可以通過這個鏈接來訪問這個完全的Deep Research過程(請確保你能訪問ChatGPT)。
https://chatgpt.com/share/67a17492-d304-8007-aef0-20a2ac406d88
除了輸出和輸出,這個功能還會追問和確認一遍需要研究的內容,比如下面這種,因為每一次Deep Research都需要花費5-30分鐘不等,多花點時間確認一下可以節省時間和資源。
從它的運行原理上來看,包含的技術可以分解為:
Reasoning 推理大模型
這個對應了OpenAI的o系列大模型,對一個復雜問題可以拆解和多步推理,但DeepSeek R1出現后,推理大模型領域注定會百花齊放,這個算不上什么優勢。
結論:DeepSeek R1完全具備類似的功能。
Web Browsing 聯網能力
首先傳統大模型本身的數據肯定會停留在某個時間點,所以最新的消息肯定得從互聯網得知,其次「citation」索引這種東西肯定得經過驗證才敢放在文檔上,所以聯網能力也是必不可少的,o3-mini系列的聯網能力不錯可用。
但具備聯網能力的大模型真不少,DeepSeek的R1和聯網甚至在OpenAI前面可以同時激活。
Qwen系列的聯網功能也早早實現了。
甚至知乎自己的AI,知乎直答,也很早就具備了聯網搜索的能力。
結論:國內外相關技術都很成熟。
超長上下文能力
這個他們發布會沒提,但50000多字的報告生成,大概率是需要一個超長的上下文空間將歷史信息都放一起,分段的話嚴重的造成思維的不連貫。
前兩天讀了MiniMax-01系列的論文,它的一個特性就是超長上下文能力,并且強調這個就是未來Agent實現的關鍵要素之一。
你可以看到MiniMax做的大海撈針「Needle In A Haystack Test」的實驗,在400萬token長度的上下文里面可以實現無損retrieve。
并且2024年很早的時候,Kimi和Qwen就在嘗試百萬token級別的context長度。
我估計ChatGPT的Deep Research起碼得到了百萬級別,甚至不排除更長的上下文。
結論:屬于工程能力,可以被解決且已經有被解決的現實案例。
外部工具整合,比如Python的data analysis
這個功能其實2023年ChatGPT就做出來的功能,也就是ChatGPT內部有個沙盒程序在跑代碼,不像別的大模型只能生成代碼讓你自己跑,ChatGPT直接可以跑一些簡單的代碼。
該功能也利用了這個功能,對于一些圖表,它可以直接調用Python能力生成。
Claude有類似的功能,可以直接渲染Html文件,但是在別的大模型上沒怎么看到過。
對于沒有代碼知識但又想用代碼生成一些圖表的人來說這就是神器,理論上不是很復雜,但是兼容這個功能還不太多。
結論:已經實現了的案例不多,但沒有多大的技術鴻溝,是可以攻克的部分。
應用領域
毫無疑問這個功能非常有用,特別是對于需要調研報告的行業,結論或者某一句話必須得有出處,這個出處就是citation。
最常見的領域就是寫論文,下圖里面藍色的地方都是引用的參考文獻。
總結來說,這個功能的確很有用,但是應用范圍并不廣泛,會集中在需要翔實報告的領域,比如商業,科研等。它的實現是多種已有技術的整合,單個技術上不存在難點,相信國內很快會有類似的產品出現,甚至會有更強的性能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.