前幾天,納米開(kāi)了一場(chǎng)發(fā)布會(huì),老周演示了「超級(jí)搜索智能體」
“ 2025 年新能源汽車補(bǔ)貼政策取消后,汽車行業(yè)格局預(yù)計(jì)會(huì)發(fā)生哪些變化? ” 一段時(shí)間后,30頁(yè)報(bào)告完成:帶圖、注釋、引用
放在幾年前,這是:「未來(lái)已來(lái)」
放在現(xiàn)在,這是:「Agent 默認(rèn)感」
正是這種默認(rèn)感,讓我意識(shí)到
我們已經(jīng)很久,沒(méi)自己找過(guò)信息了
本文非教程,來(lái)聊:「搜索演化史」
目錄系統(tǒng)
在今天,查資料不過(guò)是「搜一下」
在過(guò)去,查資料確是難如登天
大英圖書(shū)館
想象一下,你回到上世紀(jì)初
如果找一份關(guān)于「辛亥革命」的材料
該怎么辦?
你可能會(huì)想:
走進(jìn)圖書(shū)館,跟管理員說(shuō):「清末革命,講武昌起義那場(chǎng)」
想得美...找資料沒(méi)那么簡(jiǎn)單
檔案管理,資料浩如煙海,層層疊疊
正確的流程,是這樣:
一、先去查卡片柜:這里一整柜小卡片,記錄著書(shū)名、作者、主題、館藏位置
二、再去找索引:「清末」-「民國(guó)初年」-「辛亥革命」
三、記錄下編號(hào)和位置:2樓,3排,5號(hào)書(shū)架,6層,編號(hào) 114514
四、跑過(guò)去,看看在不在:如果被借走了,那就明兒再來(lái)
圖書(shū)館目錄卡系統(tǒng),是那個(gè)時(shí)代的「搜索引擎」:結(jié)構(gòu)化、可查找,但完全依賴人工。
早年的目錄卡
這東西,所有卡片都是人來(lái)維護(hù),可用性,取決于執(zhí)行者的專業(yè)性
圖書(shū)管理人員在工作
這種方法,雖然效率低,但卻是當(dāng)時(shí)唯一能讓知識(shí)「被找到」的方法
1918年,北大圖書(shū)館
有位圖書(shū)管理員,在整理各種刊物《申報(bào)》《京報(bào)》《大公報(bào)》,還有英文日文刊物...
他熟悉報(bào)刊種類,清楚時(shí)效來(lái)源,知道如何擺放檢索
他廣泛閱讀各種刊物,博聞強(qiáng)識(shí),為廣大師生提供服務(wù)
這個(gè)人是毛主席
毛主席年輕時(shí),在圖書(shū)館擔(dān)任管理員 文本檢索
時(shí)間到了二戰(zhàn)后
東西角力,科技爆發(fā)
知識(shí)、論文、報(bào)告爆炸增長(zhǎng)
信息膨脹,人工整理跟不上了
還是查「辛亥革命」
不用翻抽屜了
而是通過(guò)計(jì)算機(jī),輸入類似:
"辛亥革命" AND "武昌起義" NOT "北洋軍閥"
(當(dāng)然,這并不是 SQL)
(截圖自哥大官網(wǎng)),這種布爾檢索法至今仍在使用
這是早期的「機(jī)器搜索」 用邏輯表達(dá)式、布爾運(yùn)算、關(guān)鍵詞精確匹配來(lái)匹配信息,讓機(jī)器成為信息的入口
進(jìn)一步的突破,來(lái)自 Gerard Salton,現(xiàn)代搜索技術(shù)之父
Gerard Salton, 1927 - 1995
他在 60 年代開(kāi)發(fā)出了 SMART,真正的文本檢索系統(tǒng):
? 把每篇文檔看成一串詞語(yǔ)的集合
? 計(jì)算關(guān)鍵詞的出現(xiàn)頻率(TF)和稀有程度(IDF)
? 用數(shù)學(xué)方法把文本轉(zhuǎn)成"向量",算出文檔和查詢的"距離"
換句話說(shuō) SMART 不是篩選匹配,而是尋找「哪篇最相近」
比如你搜「辛亥革命」,返回可能包括:清末史教科書(shū)、清政府財(cái)政困境論文、張之洞思想訪談
標(biāo)題看上去可能沒(méi)啥關(guān)系,但內(nèi)容上相似度極高
現(xiàn)代的各類搜索引擎,其底層原理都可以追溯到 SMART
自此,信息不再是被存起來(lái)的檔案,而是可以被算出來(lái)的資源
SMART: System for the Mechanical Analysis and Retrieval of Text
信息檢索,也從人工經(jīng)驗(yàn)變成了數(shù)學(xué)計(jì)算
網(wǎng)絡(luò)搜索
最早的網(wǎng)上沖浪,沒(méi)有搜索,純靠翻閱。
門(mén)戶網(wǎng)站是當(dāng)時(shí)的主流,Yahoo 是當(dāng)時(shí)的王者。國(guó)內(nèi)也有所謂「三大門(mén)戶」:網(wǎng)易、新浪、搜狐。
(網(wǎng)圖)當(dāng)年的網(wǎng)易
用戶翻欄目、點(diǎn)頻道,一層層進(jìn)去
最開(kāi)始還能維護(hù),但內(nèi)容一多就難辦了:
更新不及時(shí)、分類不統(tǒng)一、死鏈泛濫
搜索引擎因此而生,最知名的便是谷歌:
你說(shuō)關(guān)鍵詞,獲得相關(guān)的網(wǎng)頁(yè)
搜索方法也很暴力:
關(guān)鍵詞匹配,后面還加了 PageRank 等方法,讓排序更加準(zhǔn)確
PageRank
真正的變化發(fā)生在 2010 年前后:搜索開(kāi)始理解人話了
Google 上線了 Knowledge Graph,可以直接顯示答案
Google 的知識(shí)卡片
你搜“喬布斯 妻子”,它不光返回網(wǎng)頁(yè),還在頂部給出了"摘要"
微軟的 Bing 也做了類似嘗試,百度那時(shí)候也開(kāi)始引入問(wèn)答卡片
都在嘗試告訴"你想知道的答案"
Bing 的知識(shí)卡片
這一階段也出現(xiàn)了不走尋常路的產(chǎn)品
比如 Wolfram Alpha,它不是去找網(wǎng)頁(yè),而是從知識(shí)庫(kù)里直接算。你問(wèn)它"光速是多少",它不會(huì)推薦百科,而是返回一個(gè)公式計(jì)算出來(lái)的結(jié)果
不是搜索,是推導(dǎo)
Wolfram Alpha
Manus 的聯(lián)合創(chuàng)始人季逸超(Peak),之前做了個(gè)項(xiàng)目叫 Magi 并成功被收購(gòu),方法也是從網(wǎng)頁(yè)中抽取結(jié)構(gòu)化知識(shí),并進(jìn)行結(jié)構(gòu)化展示
Magi 搜索
須知:每一代技術(shù)都有它的局限
門(mén)戶能讓你看到內(nèi)容,搜索能讓你找到內(nèi)容,語(yǔ)義理解能提煉內(nèi)容。
它們都還只是"告訴你",還沒(méi)有"替你去做"
AI 時(shí)代
2022年11月30日,ChatGPT上線。
幾天后,朋友圈、知乎、即刻開(kāi)始試著「讓它寫(xiě)點(diǎn)什么」
寫(xiě)年終總結(jié)、寫(xiě)郵件模板、寫(xiě)開(kāi)場(chǎng)白、寫(xiě)月報(bào)
語(yǔ)氣自然、段落清楚,確實(shí)不錯(cuò)
yusen:太震撼了
人們開(kāi)始問(wèn)它各種問(wèn)題
“光速是多少?”
“哥白尼是哪國(guó)人?”...
都答得上來(lái),邏輯清晰,用詞貼切
問(wèn)題很快浮現(xiàn):胡言亂語(yǔ)
“這些數(shù)據(jù)有出處嗎?”
GPT 會(huì)開(kāi)始自信地胡編亂造:打不開(kāi)的網(wǎng)頁(yè),不存在的文獻(xiàn)...
胡言亂語(yǔ)的GPT,甚至烏龍了官司
AI并不是查到了信息,而是基于訓(xùn)練數(shù)據(jù)生成了看似合理的答案。
為解決這個(gè)問(wèn)題,AI被接入了搜索功能
方法相當(dāng)粗暴:提取關(guān)鍵詞、調(diào)用搜索API、獲取網(wǎng)頁(yè)片段、摻入對(duì)話正式生成
本質(zhì)是在大模型的生成能力上,疊加了傳統(tǒng)搜索的信息獲取
雖然粗暴,這種疊加的效果確實(shí)不錯(cuò)
從檢索到理解
真正的變化始于2023年中,AI搜索開(kāi)始向智能體(Agent)方向演進(jìn):嘗試進(jìn)行任務(wù)規(guī)劃。這里順道說(shuō)一下,任務(wù)規(guī)劃這東西,有兩種實(shí)現(xiàn)方式:直接做到模型中(比如 OpenAI 的 o1/o3...),或者通過(guò)外部工程化的方式,坐在產(chǎn)品里(比如 Manus)
如果說(shuō)傳統(tǒng)搜索是單次查詢,智能體則會(huì)將復(fù)雜需求拆解成任務(wù)樹(shù),再加上點(diǎn) React,最知名的當(dāng)屬「OpenAI DeepResearch」
OpenAI 的 DeepResearch 應(yīng)該是最深入人心的“智能體搜索”
比如「分析新能源車市場(chǎng)」,會(huì)被拆解為:市場(chǎng)規(guī)模數(shù)據(jù)、主要廠商份額、技術(shù)路線對(duì)比、政策影響分析等多個(gè)子任務(wù)。
至于其它示例,以「納米 AI 超級(jí)搜索智能體」為例
舉例:「 納米AI超級(jí)搜索智能體」對(duì)于「汽車行業(yè)格局變化分析」 的任務(wù)拆解示意
每個(gè)子任務(wù)不是孤立的,而是相互關(guān)聯(lián),甚至是能回退&重新規(guī)劃的
當(dāng)發(fā)現(xiàn)「2024年銷量數(shù)據(jù)」存在多個(gè)版本時(shí),系統(tǒng)會(huì)啟動(dòng)新的驗(yàn)證任務(wù):
查找官方統(tǒng)計(jì)口徑、對(duì)比不同數(shù)據(jù)源、分析差異原因
循環(huán)推理機(jī)制,讓搜索有了初步的思考能力
它不再是機(jī)械地返回結(jié)果,而是會(huì)判斷信息的完整性、可信度,以及是否需要進(jìn)一步挖掘。
跨越信息孤島
網(wǎng)絡(luò)上的信息,是一個(gè)個(gè)孤島
學(xué)術(shù)論文在專業(yè)數(shù)據(jù)庫(kù),用戶評(píng)價(jià)在電商平臺(tái),真實(shí)反饋在社交媒體,專業(yè)討論在垂直論壇
在層層拆解復(fù)雜任務(wù)的同時(shí), 「納米AI超級(jí)搜索智能體」 通過(guò)深度搜索能力,打破平臺(tái)間的“信息圍墻”,實(shí)現(xiàn)跨平臺(tái)搜索,方便用戶決策
新一代搜索通過(guò)兩種方式打破圍墻:
一方面是數(shù)據(jù)突破:通過(guò)瀏覽器自動(dòng)化、API集成、內(nèi)容解析等技術(shù),實(shí)現(xiàn)對(duì)不同平臺(tái)的統(tǒng)一訪問(wèn)。系統(tǒng)能夠理解網(wǎng)頁(yè)結(jié)構(gòu)、提取關(guān)鍵信息、處理動(dòng)態(tài)內(nèi)容。
一方面是語(yǔ)義理解:不同平臺(tái)的信息表達(dá)方式差異很大——論文的嚴(yán)謹(jǐn)表述、社交媒體的口語(yǔ)化、電商評(píng)論的情緒化。AI需要理解這些差異,提取真正有價(jià)值的信息。
比如查詢一個(gè)醫(yī)療問(wèn)題,系統(tǒng)會(huì)綜合:專業(yè)論文的研究結(jié)論、醫(yī)生社區(qū)的臨床經(jīng)驗(yàn)、患者論壇的真實(shí)案例、藥監(jiān)部門(mén)的官方信息。不同來(lái)源相互印證,形成更全面的認(rèn)知。
從信息到執(zhí)行
搜索的演進(jìn)不止于找到信息,更重要的是完成任務(wù)
「納米AI超級(jí)搜索智能體」能夠生成多種不同類型的內(nèi)容
這需要三個(gè)層次的能力:
理解層,準(zhǔn)確理解用戶意圖:「幫我做個(gè)PPT」背后,可能是要做項(xiàng)目匯報(bào)、產(chǎn)品介紹或者是數(shù)據(jù)分析。不同場(chǎng)景需要不同的處理邏輯。
規(guī)劃層,將意圖轉(zhuǎn)化為可執(zhí)行的步驟:制作PPT需要:確定框架、收集素材、整理數(shù)據(jù)、設(shè)計(jì)版式、生成內(nèi)容。每一步都可能需要不同的工具和數(shù)據(jù)源。
執(zhí)行層:調(diào)用具體工具完成任務(wù):這包括文檔生成、數(shù)據(jù)可視化、圖像處理等。關(guān)鍵是這些工具的調(diào)用是自動(dòng)的、連貫的,用戶無(wú)需逐步操作。
圖片:納米AI工作流程可視化界面
你會(huì)發(fā)現(xiàn),思考的整個(gè)過(guò)程是透明的:用戶能看到系統(tǒng)的推理過(guò)程、數(shù)據(jù)來(lái)源、執(zhí)行步驟。這種透明性既保證了可控性,也便于用戶理解和調(diào)整。
尾聲
回到開(kāi)頭那個(gè)「默認(rèn)感」
? 以前,我們默認(rèn)要自己找
? 現(xiàn)在,我們默認(rèn)有人幫我們做
從圖書(shū)館的卡片、到AI的理解
一百年來(lái),我們都在回答一個(gè)問(wèn)題:
怎么能最少動(dòng)一下,就讓知識(shí)為我所用、為我所動(dòng)
這個(gè)門(mén)檻,每一代都會(huì)變得更低
現(xiàn)在的我們,不再說(shuō)“撥號(hào)上網(wǎng)”、不再說(shuō)“翻電話本”
或許未來(lái)的人們,也不會(huì)再說(shuō)“搜一下”
他們會(huì)說(shuō)什么?或許什么都不說(shuō)
最好的技術(shù),是看不見(jiàn)的技術(shù)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.