網易首頁 > 網易號 > 正文申請入駐

多款 AI 搜索引用錯誤率高達 60%，付費版本錯誤率更高

2025-03-18 12:09:47　來源: 大數據文摘

北京舉報

分享至

大數據文摘受權轉載自AI科技評論

作者丨鄭佳美

編輯丨馬曉寧

AI 搜索工具在美國很火，幾乎四分之一的美國人都表示他們已經用 AI 來取代了傳統的搜索引擎。

然而在享受便捷的同時，也潛藏著諸多問題。例如，AI 會直接引用網絡上原始文章的內容，但這些內容是否符合指令要求，卻是一件極為不確定的事情。

哥倫比亞大學數字新聞研究中心（Tow Center for Digital Journalism）近期就針對 AI 搜索引用內容的正確率問題展開了研究，他們分別測試了包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot 在內的 8 款 AI 搜索工具。

最終發現，這些 AI 搜索工具在引用新聞方面表現非常不佳，出錯比例甚至高達 60%。

01 常常自信且堅定得給出錯誤答案

Tow 數字新聞中心基于之前對 GPT 的研究，又對 8 款具有實時搜索功能的生成式搜索工具進行了測試，以評估它們準確檢索和引用新聞內容的能力，以及它們在無法做到時的表現。

經研究發現：

AI 搜索在無法準確回答問題時，通常不會拒絕回答，而是提供錯誤或推測性的答案。
付費 AI 搜索比免費版本更自信地提供錯誤答案。
多個 AI 搜索似乎繞過了機器人排除協議（Robot Exclusion Protocol）的設置。
生成式搜索工具編造鏈接，并引用文章的轉載或復制版本。
與新聞來源的內容授權協議并不能保證 AI 搜索回答中的準確引用。

他們的發現與之前的研究一致，證明他們的觀察不僅僅是 ChatGPT 的問題，而是他們測試的所有主流生成式搜索工具中普遍存在的現象。

除此之外，團隊還公布了他們的實驗方法論：

首先，他們從每家出版商中隨機選擇了 10 篇文章，然后手動從這些文章中選取直接摘錄內容用于研究人員的查詢。在向每個 AI 提供選定的摘錄內容后，研究要求其識別相應文章的標題、原始出版商、發布日期和URL。

后續團隊特意選擇了那些如果粘貼到傳統 Google 搜索中，能在前 3 條結果中返回原始來源的摘錄內容，然后總共運行了 1600 次查詢（20家出版商 × 10篇文章 × 8個 AI），并根據是否正確檢索到文章、是否正確識別出版商、是否正確提供URL三個屬性手動評估了 AI 的回答。

并且根據這些標準，將每個回答都標記為以下標簽之一：

正確：所有三個屬性均正確。
正確但不完整：部分屬性正確，但回答缺少信息。
部分錯誤：部分屬性正確，而其他屬性錯誤。
完全錯誤：所有三個屬性均錯誤和/或缺失。
未提供：未提供任何信息。
爬蟲被阻止：出版商在其robots.txt文件中禁止了聊天機器人的爬蟲訪問。

然而最后的結果卻令人大跌眼鏡，實驗表明，AI 搜索經常無法檢索到正確的文章。它們在所有查詢中提供了超過60%的錯誤答案。并且不同平臺的錯誤率還有所不同，Perplexity 的錯誤率為 37%，而 Grok 3 的錯誤率則高得多，達到了 94%，DeepSeek 的錯誤率則在 58% 左右。

值得一提的是，研究人員測試的 AI 都以十分自信的給出了錯誤答案，它們很少使用“看起來”、“可能”、“或許”這種有限定性的詞語，或者通過“我無法找到確切文章”等語句承認知識空白。

例如，ChatGPT 錯誤識別了134篇文章，但在其 200 次回答中僅有 15 次表現出缺乏信心，但從未拒絕提供答案。除了 Copilot（它拒絕回答的問題比回答的更多）之外，所有工具都更傾向于提供錯誤答案，而不是承認自身的局限性。

除此之外，經過研究，團隊發現付費版本的錯誤率竟然更高。

像 Perplexity Pro（20美元/月）或 Grok 3（40美元/月）這樣的付費模型，憑借著更高的成本和他們自己聲稱的計算優勢，被人們理所當然的認為會比免費版本更值得信賴。

然而，盡管付費的 AI 比對應的免費版本回答了更多的內容，但同時它們的錯誤率也更高了。這種矛盾的現象主要是因為它們寧愿提供錯誤的答案，也不會直接拒絕回答。

它們傾向于提供明確但錯誤的答案，而不是直接拒絕回答問題。付費用戶期望得到更優質、準確的服務，然而這種權威的語氣和錯誤答案，無疑給用戶帶來了極大的困擾。

02 爬蟲亂象，出版商權益被侵犯

在本次研究中測試到的 8 款 AI 搜索工具中，ChatGPT、Perplexity 和 Perplexity Pro、Copilot 以及 Gemini 都已經公開了各自的爬蟲程序名稱，而 Grok 2 和 Grok 3 則尚未公開。

團隊原本希望 AI 搜索應能正確查詢其爬蟲程序可訪問的網站，并拒絕已屏蔽其內容訪問權限的網站，但事實情況卻并非如此。

特別是 ChatGPT、Perplexity 和 Perplexity Pro，它們時而拒絕或錯誤地回答允許其訪問的網站，時而又正確地回答那些因爬蟲受限而無法獲取的信息。其中 Perplexity Pro 的表現最差，在測試的 90 篇文章中，它正確地識別出了近三分之一它沒有權限訪問的內容。

盡管《國家地理》已經禁止了 Perplexity 的爬蟲程序，但它仍識別出了 10 篇付費文章的內容。然而值得一提的是，《國家地理》和 Perplexity 并沒有合作關系，Perplexity 可能通過其他途徑獲取了受限內容。

這不禁讓人感到懷疑，Perplexity 所謂的“尊重robots.txt指令”只是一句空談。

同樣，《Press Gazette》本月報道稱，盡管《紐約時報》禁止了 Perplexity 的爬蟲程序，但它依舊是 1 月被 Perplexity 引用最多的網站，訪問量高達 14.6 萬次。

與其他聊天機器人相比，ChatGPT 回答被禁止爬蟲訪問的文章相關問題的次數較少，但總體而言，它更傾向于提供錯誤答案而非拒絕回答。

除了以上這些，在公開了爬蟲程序的 AI 搜索應用中，Copilot 是唯一一個沒有被任何出版商禁止爬蟲程序的，這也就意味著它可以訪問查詢所有的內容，但它卻常常拒絕回答，擁有著最高的拒答率。

另一方面，谷歌創建了其 Google-Extended 爬蟲，以便出版商可以選擇阻止 Gemini 的爬蟲，從而不會影響其內容在谷歌搜索中的展示。在研究人員測試的 20 家出版商中，有 10 家允許其訪問，但 Gemini 只給出過一次正確答案。

除此之外，在面對政治相關的內容時，即便被允許訪問，Gemini 也會選擇不回答。

盡管機器人排除協議（Robot Exclusion Protocol）并不具有法律約束力，但它是一個被廣泛接受的用于明確網站可爬取范圍的標準，忽視它就相當于剝奪了出版商決定其內容是否被納入搜索或用作AI模型訓練數據的權利。

雖然允許網絡爬蟲可能會增加其內容在 AI 搜索輸出中的整體可見性，但出版商可能有各種理由不希望爬蟲訪問其內容，比如不希望付費內容被直接看到，或是內容的主旨大意在 AI 生成的摘要中被斷章取義，歪曲理解。

新聞媒體聯盟主席 Danielle Coffey 在去年6月給出版商的一封信中寫道：“如果無法阻止大規模的數據爬取，我們無法將有價值的內容變現，也無法支付記者的薪酬。這將對行業造成嚴重損害。”

03AI 搜索經常無法鏈接回原始來源

AI 搜索的輸出通常會引用外部來源以證明其答案的權威性，引用來源咖位越大，在人們心中信息的可信度就越強。這意味著出版商的可信度常被用來提升 AI 搜索的可信賴度。

根據路透社的報道，即使是鼓勵用戶從 X 獲取實時更新的 Grok，引用的主要內容依舊來源于傳統的新聞機構。

例如，在 BBC 新聞最近關于 AI 助手如何呈現其內容的報告中，作者寫道：“當 AI 助手引用像 BBC 這樣值得信賴的品牌作為來源時，受眾更有可能信任答案——即使它是錯誤的。”

所以，當 AI 搜索出錯時，它們不僅損害了自己的聲譽，還損害了它們依賴以獲取合法性的出版商的聲譽。

然而，即使 AI 搜索正確識別了文章，也經常未能正確鏈接到原始來源。這就帶來了兩個問題：那些希望在搜索結果中獲得可見性的出版商未能如愿，而那些希望退出的出版商的內容卻違背其意愿仍然可見。

更多時候， AI 搜索常常引導用戶去訪問各大平臺上的文章轉載版本，而不是原始來源，即使出版商已經與 AI 公司有授權協議。例如，盡管 Perplexity Pro 與《德克薩斯論壇報》有合作關系，但在 10 次查詢中，仍有 3 次引用了非官方的版本，這種傾向剝奪了原始來源潛在的推薦流量。

相反，對于那些不希望內容被爬蟲程序抓取的文章來說，未經授權的副本和非官方版本更是讓他們頭疼不已。

例如，盡管《今日美國》已經阻止了 ChatGPT 的爬蟲訪問，但 GPT 仍然引用了 Yahoo News 轉載的其他文章版本。

與此同時，生成式搜索工具編造 URL 的傾向也會影響用戶驗證信息來源的能力。例如，Grok 2 更加傾向于鏈接到出版機構的主頁，而不是具體文章。

而 Gemini 和 Grok 3 超過一半的回答引用了編造或失效的 URL，嚴重影響了用戶體驗。在研究人員測試的200個 Grok 3 的提示中，有 154次引用指向了錯誤頁面。即使 Grok 正確識別了文章，但它也經常鏈接到一個編造的URL。雖然這個問題并非 Grok 3 和 Gemini 獨有，但在其他的 AI 搜索中，這種現象出現的頻率明顯要低很多。

《時代》雜志的首席運營官 Mark Howard 向研究團隊強調：“我們的品牌如何被呈現、在何時何地出現、以及我們如何出現和在哪里出現的透明度，以及 AI 在我們的平臺上推動的參與度，都至關重要。”

盡管點擊流量目前僅占出版商整體推薦流量的一小部分，但 AI 搜索工具的推薦流量在過去一年中顯示出適度增長。正如《新聞公報》的 Bron Maher 所說：“ AI 搜索工具新聞發布者陷入了困境，他們嘔心瀝血的創作出能夠在ChatGPT 等平臺上展示的內容，卻無法通過流量和廣告獲得收益。長此以往，新聞行業將會受到影響，最終導致信息質量和多樣性下降。”

04 授權協議不意味著被準確引用

在研究人員測試的公司中，OpenAI 和Perplexity 對與新聞出版商建立正式關系表現出了最大的興趣。今年 2 月，OpenAI 分別與 Schibsted 和《衛報》媒體集團達成了第 16 和第 17 項新聞內容授權協議。同樣，去年 Perplexity 推出了自己的“出版商計劃”，旨在“促進共同成功”，其中包括與參與出版商的收入分成安排。

AI 公司與出版商之間的協議通常涉及建立由合同協議和技術集成管理的內容管道。這些安排通常為 AI 公司提供直接訪問出版商內容的權限，從而消除了網站爬取的需求。這種協議可能會讓人期待，與合作伙伴出版商內容相關的用戶查詢會產生更準確的結果。然而，在 2025 年 2 月進行的測試中，研究人員并未觀察到這一點。至少目前還沒有。

他們觀察到，在與合作伙伴出版商相關的查詢回答中，準確性差異很大。

例如，《時代》雜志與 OpenAI 和 Perplexity 都有協議，盡管這些公司相關的模型并未 100% 準確地識別其內容，但它仍然是研究人員數據集中被識別最準確的出版商之一。

另一方面，《舊金山紀事報》允許 OpenAI 的搜索爬蟲訪問，并且是 Hearst 與該公司“戰略內容合作伙伴關系”的一部分，但 ChatGPT 僅正確識別了研究人員分享的該出版商 10 段摘錄中的 1 段。

即使在這唯一一次正確識別文章的情況下，AI 搜索工具正確命名了出版商，但未能提供 URL，這也說明這些 AI 公司并未承諾達到 100% 的準確性。

https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級計費，平均節省開支30%以上！

掃碼了解詳情?

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.