昨天看到一個文章,說是一個用來托管Wiki、論壇的網絡基礎設施似乎受到了攻擊,運行速度和峰值負載都出了問題。
負責人丹尼斯·舒伯特趕緊去查看流量日志,發現在過去的60天內,收到了1130 萬個請求,平均每秒2.19個,這并不多。
但是一看這些請求的User Agent,丹尼斯氣得鼻子都歪了。
(碼農翻身老劉注:如果對這些奇奇怪怪的User Agent感到好奇的話,可以看看我之前寫的漫畫:)
丹尼斯一合計,70%的流量都來自OpenAI、亞馬遜、Antropic、Facebook這些大名鼎鼎的人工智能巨頭。
更氣人的是,這些巨頭們的爬蟲不是訪問了一次就走了,它們每隔6小時就會回來再爬一次!
它們完全無視了robots.txt(規定了搜索引擎抓取工具可以訪問網站上的哪些網址),什么數據都要!
ChatGPT 和 Amazon 甚至爬取了 wiki 的整個編輯歷史!每個wiki頁面的每次編輯都被它們記錄下來,這到底要干什么?難道是想了解Wiki上的文本隨著時間如何變化?
這種行為讓自家系統和數據庫負載極重,用戶訪問緩慢。
丹尼斯趕緊想招應對,他嘗試去限制爬蟲的訪問速率,但是巨頭的網絡爬蟲會迅速地改變IP。
然后又根據User Agent 去阻止爬蟲訪問,但它們會使用一個非網絡爬蟲的User Agent。
這實在是沒辦法了,丹尼斯說,這簡直是對整個互聯網的DDoS!
這個文章被發到了HackerNews,立刻成為熱帖,引發了強烈的共鳴。
網友markerz說:
我的網站被Facebook的 AI 機器人徹底摧毀了,它的請求越來越多,直到我的服務器崩潰....我也修改了robots.txt,但是AI機器人無視了它...
網友buro9說:
我的服務器被Cluade訪問了480萬次,被Amazon訪問了39萬次,ChatGPT訪問了14.8萬次
網友Saris說:
我有一個內容不經常變化的網站(公司網站),總共有幾百頁面。但同一個人工智能機器人每天會多次掃描整個網站,真不明白它們為什么要這么干。
這些爬蟲帶來的危害顯而易見,首先讓這些網站不堪重負,速度變慢,其次會增加網站的運營費用。
更有趣的是,這些網站中有大量是部署在亞馬遜、Google,微軟的云上的,現在巨頭們正在向自己的客戶發起“DDoS攻擊”并收取流量費用。
網友joshdavham說:
幾個月前,我在GCP上部署了一個小型應用,這些愚蠢的AI機器人讓我花掉了一大筆錢。
網友oriettaxx說:
上周我們不得不把AWS-RDS數據庫和CPU配置翻番,最大的流量就是AmazonBot,這個AmazonBot到底在干什么?!
看到這些消息,我心里是有些疑問的,這些都是IT巨頭,如果它們為了獲得足夠的數據來訓練人工智能,忽視robot.txt這些業界的規范,那可真是集體放棄契約精神,不顧道德底線了!
我甚至想,是不是有人打著這些大廠的User Agent的旗號在爬數據呢?我看不到這些爬蟲的IP,很難做成準確的判斷。
人工智能巨頭們創造了數萬億美元的市值,如果真的是不擇手段地把別人的數據拿走,真的是太過分了。
“利潤私有化,損失社會化”,這就是活生生的案例。
前一段有個說法叫做“互聯網已死”,認為網上大部分內容都是機器人產生的,如果這個是真的,那就慘了,機器人創建的內容,被機器人抓取,然后用于訓練大模型,AI機器人再到網上發帖...... 這樣循環下去,互聯網就真的死了。
難道就沒有辦法來對于這些沒有底線的AI爬蟲了嗎?
有矛就有盾,有種辦法叫做Tarpit (焦油坑),本意是讓動物會陷入其中并慢慢沉入水面下。這是一種反向延遲攻擊,AI爬蟲連接后,你的網站要非常緩慢地輸出內容(速度也不能太慢,防止AI爬蟲超時而斷開連接)。當然,輸出應該是垃圾。
大模型很厲害,自然也擁有識別垃圾的能力,有人提出了一種更加高級的辦法,把所有AI爬蟲的請求都路由到另外一個靜態的、可以緩存的網頁去。
這個網頁可以像論壇的頁面,內容由較老版本的大模型來生成,讓其中包含一些微妙的事實錯誤,相當于對大模型“投毒”了。
還有人出了更狠的點子:當監測到是AI 爬蟲請求以后,提供的內容需要JavaScript才能執行,然后在JavaScript中進行挖礦......
參考資料:
https://pod.geraspora.de/posts/17342163
https://news.ycombinator.com/item?id=42549624
全文完,覺得不錯的話點個贊或者在看吧!
近期爆文:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.