99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI爬蟲肆虐,OpenAI等大廠不講武德!開發者打造「神級武器」宣戰

0
分享至


文章轉載于新智元

AI網絡爬蟲是互聯網上的「 蟑螂」,幾乎所有軟件開發者都會這樣認為的。

「爬蟲 」是一種網絡自動程序,用來瀏覽互聯網、獲取網頁內容。

而在AI時代,爬蟲的威脅到了讓開發者不得不封鎖掉某個地區所有人的訪問。


Triplegangers是一家僅僅由七名員工運營的公司,他們花費十多年時間建立了自稱是網絡上最大的「人類數字替身」的數據庫,即從實際人體掃描得到的3D圖像文件。


2025年2月10日,公司CEO Oleksandr Tomchuk突然發現他們公司的電商網站「崩了」。

「OpenAI使用了600個IP來抓取數據,日志還在分析中,可能遠不止這些」,Tomchuk最終發現,導致他們網站崩潰的元兇竟然是OpenAI的爬蟲機器人。

「他們的爬蟲正在壓垮我們的網站,這就是一次DDoS攻擊!」

OpenAI沒有回應此次事件,該事件過去僅僅不到兩個月,但AI爬蟲機器人仍然活躍在網絡上。

1

AI爬蟲不遵循「古老傳統」,阻止他們是徒勞的

其實爬蟲最早并不是AI時代為了獲取訓練語料而誕生的。

早在搜索引擎時代,就已經有「搜索引擎機器人」,那個「古老年代」的機器人還約定俗成的遵循各個網站上會存在的一份文件——robots.txt。

這個文件告訴了機器人不要爬取哪些內容,哪些內容可以爬取。

但這份傳統隨著互聯網的發展似乎已經被遺忘,爬蟲和反爬蟲也演變為一場攻防戰役。

而到了如今的「大模型時代」,互聯網的信息已經被LLMs吞噬一空。

阻止AI爬蟲機器人是徒勞的,因為它們會撒謊、更改用戶代理、使用住宅IP地址作為代理來騙過網絡「防守」。

「他們會不斷地抓取你的網站,直到它崩潰,然后還會繼續抓取。他們會點擊每一個頁面上的每一個鏈接上,一遍又一遍地查看相同的頁面」,開發者在帖子中寫道。

AI機器人除了「免費」爬取信息外,還會額外增加所爬網站企業的運營費用——在這個云服務的時代,幾乎所有被爬取的企業都在云上,大量的爬蟲流量不僅無法帶來收益,還會增加他們的云服務器賬單。

更加無法預料的一點是,對于那些被「白嫖」的網站來說,甚至確切的知道被白嫖了哪些信息。

一些開發者決定開始以巧妙且幽默的方式進行反擊。

1

程序員打造爬蟲的「神之墓地」

FOSS開發者Xe Iaso在博客中描述了AmazonBot如何不斷攻擊一個Git服務器網站,導致DDoS停機。


所以Iaso決定用智慧反擊,他構建了一個名為Anubis的工具。

Anubis是一個工作量證明檢查的反向代理,請求必須通過該檢查才能訪問Git服務器。

它阻止機器人,但允許人類操作的瀏覽器通過。


Iaso關于Anubis工作原理的簡單介紹。


本質上,Anubis確保的是「真實人類使用的瀏覽器」在訪問目標網站,而不是AI爬蟲——除非這個爬蟲偽裝的足夠「先進」,就像通過圖靈測試一樣。


有趣的部分是:Anubis是埃及神話中引導死者接受審判的神的名字。


「Anubis稱量了你的靈魂(心臟),如果它比一根羽毛重,你的心臟就會被吃掉,然后你就徹底死了」。

這個項目的名字帶有諷刺意味,在自由開源軟件社區中像風一樣傳播開來。

Iaso在3月19日將其分享到GitHub上,僅幾天時間就獲得了2000個星標、20位貢獻者和39個分支。


1

用「復仇」的方式防御AI爬蟲

Anubis的迅速流行表明Iaso的痛苦并非個例。 事實上,還有很多故事:

  • SourceHut的創始人兼CEO Drew DeVault描述說,他每周要花費「20% 到 100% 的時間來大規模緩解過于激進的 LLM 爬蟲」,并且「每周經歷數十次短暫的服務中斷」。

  • Jonathan Corbet,一位著名的FOSS開發者,他運營著Linux行業新聞網站 LWN,警告稱他的網站正受到「來自 AI 抓取機器人的 DDoS 級別的流量」影響而變慢。

  • Kevin Fenzi,龐大的Linux Fedora項目的系統管理員,表示AI抓取機器人變得如此激進,他不得不封鎖整個巴西的訪問。

除了像Anubis一樣「衡量」網絡請求者的靈魂外,其他開發者認為復仇是最好的防御。

幾天前在Hacker News上,用戶xyzal建議用「大量關于喝漂白劑好處的文章」或「關于感染麻疹對床上表現的積極影響的文章」來加載robots.txt禁止的頁面。

這樣AI爬蟲獲取的信息都是這種大量且無用的「替代品」。


「我們認為需要讓機器人訪問我們的陷阱時獲得負的效用值,而不僅僅是零價值」,xyzal 解釋說。

一月份,一位名為Aaron的匿名創作者發布了一個名為Nepenthes的工具,其目的正是如此。

它將爬蟲困在一個無盡的虛假內容迷宮中,無法像爬蟲「主人」返回任何信息。

而作為網友心目中的「賽博菩薩」的Cloudflare,也許是提供多種工具來抵御AI爬蟲的最大商業玩家,上周發布了一個名為AI Labyrinth的類似工具。


它的目的是「減慢、迷惑并浪費不遵守禁止爬取指令的AI爬蟲和其他機器人的資源」,Cloudflare 在其博客文章中描述道。

「當AI爬蟲跟隨這些鏈接時,它們會浪費寶貴的計算資源處理無關內容,而不是提取合法網站數據。這大大降低了它們收集足夠有用信息以有效訓練模型的能力」。

相比起反擊,另一種觀點是「Nepenthes有一種令人滿意的正義感,因為它向爬蟲提供無意義的內容并污染它們的數據源,但最終Anubis是對網站有效的解決方案」。

拒絕或者反擊也許都不是最佳的途徑。

DeVault也公開發出了一則誠懇的請求,希望有一個更直接的解決辦法:「請停止將LLMs或AI圖像生成器任何這類垃圾合法化。懇求停止使用它們,停止談論它們,停止制造新的,就這么停下」。

但是,想讓LLM廠商主動停止爬蟲這種情況的可能性幾乎為零。

畢竟AI的「智能」都來自于不斷「吞噬」互聯網上的各種數據和信息。

不論是給禁止AI爬蟲訪問網站、給AI「投喂垃圾」還是將AI爬蟲拉入「無線虛空」。

開發者們,尤其是在開源軟件領域,正在用智慧和「極客幽默」進行反擊。

如果你是網站管理者和開發者,你會如何「出招」?

參考資料:

https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/

點個 “愛心”,再走吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今年五一很反常,中國旅游市場大反轉,外國人把中國擠滿了!

今年五一很反常,中國旅游市場大反轉,外國人把中國擠滿了!

明月聊史
2025-05-03 22:50:09
克里米亞大橋遭遇大規模空襲!導致交通封閉中斷

克里米亞大橋遭遇大規模空襲!導致交通封閉中斷

項鵬飛
2025-05-03 19:44:29
“鷹眼”扮演者因漫威“侮辱性報價”拒絕出演第二季劇集

“鷹眼”扮演者因漫威“侮辱性報價”拒絕出演第二季劇集

IT之家
2025-05-02 15:43:09
特朗普用15分鐘,搞定澤連斯基,烏克蘭沒有退路,已簽下賣國協議

特朗普用15分鐘,搞定澤連斯基,烏克蘭沒有退路,已簽下賣國協議

說天說地說實事
2025-05-03 14:29:15
“于東來與網紅互懟”最新進展,抖音:限制“柴懟懟”賬號投稿權限一個月

“于東來與網紅互懟”最新進展,抖音:限制“柴懟懟”賬號投稿權限一個月

紅星資本局
2025-05-03 22:02:05
趙心童vs馬克-威廉姆斯戰績:趙心童2勝4負,近兩次交手均勝

趙心童vs馬克-威廉姆斯戰績:趙心童2勝4負,近兩次交手均勝

懂球帝
2025-05-04 04:34:13
單價超10萬/㎡!南京學區房為何突然‘殺瘋’?

單價超10萬/㎡!南京學區房為何突然‘殺瘋’?

揚子晚報
2025-05-03 22:43:47
蘇迪曼杯|耗時六小時險勝印尼隊,“戰損版”韓國隊成為國羽的決賽對手

蘇迪曼杯|耗時六小時險勝印尼隊,“戰損版”韓國隊成為國羽的決賽對手

文匯報
2025-05-04 00:12:09
于東來怒刪賬號:不處理柴懟懟,我就關胖東來,徹底退出零售圈!

于東來怒刪賬號:不處理柴懟懟,我就關胖東來,徹底退出零售圈!

小彭聊社會
2025-05-04 00:49:29
江蘇氣象發布:陣雨+雷雨!雨量中等!

江蘇氣象發布:陣雨+雷雨!雨量中等!

魯中晨報
2025-05-04 07:48:02
聯盟最頑強!火箭拒絕黑七!范喬丹完勝庫里,巴特勒空砍27+9+8!

聯盟最頑強!火箭拒絕黑七!范喬丹完勝庫里,巴特勒空砍27+9+8!

Tracy的籃球博物館
2025-05-03 12:04:09
吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

吳謙大校警告:人民如果長期歌舞升平、娛樂至死,離危亡就不遠了

沈言論
2025-05-03 07:05:03
庫克尷尬了,蘋果在全球,只有中國收入下滑,其它全部上漲

庫克尷尬了,蘋果在全球,只有中國收入下滑,其它全部上漲

互聯網.亂侃秀
2025-05-03 14:28:13
44歲上海游客爬山時摔下10米山崖!只差5級臺階就能登頂!緊急提醒

44歲上海游客爬山時摔下10米山崖!只差5級臺階就能登頂!緊急提醒

環球網資訊
2025-05-03 21:29:04
歌手周深緊急發文:“快到安全的地方躲一躲”

歌手周深緊急發文:“快到安全的地方躲一躲”

都市快報橙柿互動
2025-05-03 21:19:58
蘇州墜機事件后續:被砸去世男子身份曝光,真相引關注

蘇州墜機事件后續:被砸去世男子身份曝光,真相引關注

品茗談史論世事
2025-05-04 01:06:07
上海鼻涕姐黑料真多!身份工作全曝光,因未打碼要求餐館老板道歉

上海鼻涕姐黑料真多!身份工作全曝光,因未打碼要求餐館老板道歉

烏娛子醬
2025-05-03 17:37:48
中央氣象臺發布暴雨藍色預警、大風藍色預警及沙塵暴藍色預警

中央氣象臺發布暴雨藍色預警、大風藍色預警及沙塵暴藍色預警

界面新聞
2025-05-04 07:22:34
悲催!封丘醫療系統清退501人,網傳一護士將評優證書丟進垃圾桶

悲催!封丘醫療系統清退501人,網傳一護士將評優證書丟進垃圾桶

火山詩話
2025-05-03 08:47:05
美烏礦產協議終簽署,還有一個資源大國也想仿效

美烏礦產協議終簽署,還有一個資源大國也想仿效

第一財經資訊
2025-05-03 16:00:13
2025-05-04 08:40:49
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2156文章數 10335關注度
往期回顧 全部

科技要聞

新勢力車企,誰領先?誰危險?

頭條要聞

女孩輸頭孢4分鐘后過敏 呼救無響應自行拔針仍身亡

頭條要聞

女孩輸頭孢4分鐘后過敏 呼救無響應自行拔針仍身亡

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

金秀賢遭多家品牌起訴 索賠近60億韓元

財經要聞

巴菲特談貿易、AI、股市、房地產!

汽車要聞

易三方科技體驗日·北京站上演硬核駕控

態度原創

時尚
本地
教育
游戲
數碼

今年夏天最流行的10件衣服,誰穿誰時髦!

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

教育要聞

真的是各有各的活法?家長為了給孩子找一份工作竟花了10多萬

成功復仇!TES三局戰勝IG,繼續坐實榜一!

數碼要聞

小米五月黃金服務周開啟,旗艦平板曝光

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 明星| 承德县| 印江| 蓝田县| 平安县| 炉霍县| 宜昌市| 宝山区| 博客| 庆安县| 新乡县| 绍兴县| 崇左市| 徐州市| 合山市| 河源市| 清河县| 徐汇区| 诸城市| 梓潼县| 马鞍山市| 循化| 连江县| 莱州市| 宜都市| 昭平县| 夹江县| 昌江| 交口县| 通渭县| 新营市| 文水县| 梨树县| 大港区| 遂平县| 蒲城县| 济阳县| 通化市| 徐州市| 吐鲁番市| 鄂托克前旗|