99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI領(lǐng)域的全面戰(zhàn)爭,從AI爬蟲毀滅互聯(lián)網(wǎng)開始。

0
分享至

昨天看到一個(gè)非常有意思的事情。


這是第一次,全世界最大的網(wǎng)絡(luò)基礎(chǔ)設(shè)施公司之一,Cloudflare,開始用魔法打敗魔法,用AI來對抗AI爬蟲。

這事情的有意思的程度,足以載入AI發(fā)展史冊。

這是一次,AI領(lǐng)域的全面戰(zhàn)爭。

你可能現(xiàn)在還有很多疑惑, Cloudflare是什么,AI爬蟲是什么,AI迷宮又是什么,這個(gè)事到底有意思在哪。

這一切的開始,我想先跟你講一個(gè)故事。

一個(gè)在今年1月份,發(fā)生在一個(gè)僅有7人的烏克蘭公司的故事。

這個(gè)公司叫做Triplegangers,做的業(yè)務(wù)特別簡單,就是 賣人的3D數(shù)字模型。


Triplegangers專注于銷售“人體的數(shù)字孿生”模型素材,這些高清3D模型照片來自真實(shí)的人類掃描,價(jià)值巨大。

創(chuàng)始人Tomchuk一直很滿意,公司雖然不大,但是是他最喜歡的事情。

這個(gè)網(wǎng)站上,一共共有65000個(gè)產(chǎn)品頁面,每個(gè)產(chǎn)品的頁面至少放著三張高清照片。 每一張圖片,都細(xì)致地標(biāo)注了年齡、膚色、紋身甚至傷疤。


但是,就在一個(gè)普通的周六早上, 平靜被一場風(fēng)暴驟然打破。

Tomchuk收到了一條緊急通知:公司網(wǎng)站崩潰了,因?yàn)槭艿搅舜罅康腄DoS攻擊。

他懵逼了,因?yàn)槠綍r(shí)也沒啥仇人,更沒啥競品,守著自己那一畝三分地,誰會(huì)好好的來攻擊自己呢?

他驚慌失措地開始調(diào)查原因,很快發(fā)現(xiàn),居然是OpenAI的爬蟲機(jī)器人,GPTBot在攻擊他的網(wǎng)站。

GPTBot瘋狂地爬取每一個(gè)頁面, 數(shù)十萬張照片、數(shù)十萬個(gè)描述, 在短短幾小時(shí)內(nèi)被無情下載。

這些爬蟲機(jī)器人使用了整整600個(gè)IP地址,數(shù)以萬計(jì)的服務(wù)器請求,這種網(wǎng)站哪見過這種架勢,網(wǎng)站的服務(wù)器瞬間癱瘓,業(yè)務(wù)陷入停滯。


Tomchuk人都傻了,不僅自己的數(shù)據(jù)全丟了,被OpenAI爬的干干凈凈, 更糟的是,由于服務(wù)器壓力暴漲, 公司還將面臨一筆巨額的AWS賬單。

他們這個(gè)七人的團(tuán)隊(duì)花了十年心血,才構(gòu)建了這個(gè)龐大的數(shù)據(jù)庫,客戶遍及游戲開發(fā)、動(dòng)畫制作等多個(gè)行業(yè)。

而現(xiàn)在,啥也沒了。

更令人無奈的是,他們原本就明確禁止爬蟲機(jī)器人未經(jīng)許可抓取網(wǎng)站數(shù)據(jù)。

但是因?yàn)闆]那么懂AI,也不太知道那些AI大模型公司的玩法,所以沒有嚴(yán)格配置robot.txt 文件,沒有配專門告知OpenAI的機(jī)器人GPTBot不要訪問該網(wǎng)站的標(biāo)簽,這基本等同于默認(rèn)允許了OpenAI的抓取行為。

關(guān)鍵是吧,配了GPTBot的標(biāo)簽也不夠,因?yàn)镺penAI還有ChatGPT-User和OAI-SearchBot,這兩個(gè)標(biāo)簽也要配。你甚至不知道他們還有啥。

"我們原以為禁止條款就足夠了,沒想到還必須專門設(shè)定拒絕機(jī)器人的規(guī)則。"

幾天后,Tomchuk終于設(shè)置好了Triplegangers的robot.txt文件,并啟用了Cloudflare服務(wù)以屏蔽更多爬蟲。

Cloudflare大家可能沒聽過,但是大多數(shù)人應(yīng)該都見過。


就這個(gè)玩意,讓你在進(jìn)入某些網(wǎng)頁之前,驗(yàn)證一下你是否是人類。

不過這玩意也不是免費(fèi)的,挺燒錢的,都是成本。但是為了再防一波OpenAI那種流氓行為,他們只能啟用。

這些服務(wù)的錢,都還好說,但是讓Tomchuk最痛苦的事,他根本不知道,OpenAI到底拿走了多少素材。

而且,Tomchuk說:

"我們甚至聯(lián)系不上OpenAI,也無法要求他們刪除已抓取的數(shù)據(jù)。"

甚至最離譜的是,如果不是OpenAI這么貪,一次性請求太多,直接把Triplegangers爬崩潰了,而是慢慢爬,一點(diǎn)一點(diǎn)的。

Tomchuk可能這輩子都發(fā)現(xiàn)不了自己的數(shù)據(jù)已經(jīng)全部丟的干干凈凈了。

OpenAI的爬蟲邏輯很簡單,如果你家門口沒有保安站崗,那就說明你默認(rèn)你家里的東西我就都可以拿走,都是我的。因?yàn)槟銢]說不準(zhǔn)我拿,也沒設(shè)保安,所以我就可以進(jìn)門全部洗劫一空。

這是一場戰(zhàn)爭。

一場沒有硝煙的戰(zhàn)爭。

一場關(guān)乎于保護(hù)自己財(cái)產(chǎn)神圣不可侵犯的戰(zhàn)爭。

一場關(guān)乎于我們,跟這些AI公司的AI爬蟲的戰(zhàn)爭。

Trilegangers的遭遇并不是孤例。

在許多許多公司和內(nèi)容創(chuàng)作者的眼中,AI爬蟲就是這個(gè)時(shí)代的數(shù)字蝗蟲,所過之處令網(wǎng)站不堪重負(fù),數(shù)據(jù)還被洗劫一空。

去年夏天,還有一個(gè)著名的的例子,來自于非常老牌的維修教程網(wǎng)站,iFixit。


iFixit發(fā)現(xiàn),他們的網(wǎng)站也成了AI爬蟲的盤中餐。

但這一次,吃相難看的不是OpenAI,而是另一個(gè)AI王者,Anthropic公司的爬蟲ClaudeBot。

當(dāng)時(shí)iFixit的CEO怒不可遏地在社交媒體上爆料:

ClaudeBot在短短24小時(shí)內(nèi)瘋狂訪問了iFixit近一百萬次。直接差點(diǎn)把他們的網(wǎng)站擠爆,觸發(fā)了所有報(bào)警系統(tǒng),迫使iFixit的運(yùn)維團(tuán)隊(duì)連夜加班處理。


更離譜的是,iFixit早就明文禁止未經(jīng)許可抓取他們的內(nèi)容用于AI訓(xùn)練,這一條清清楚楚地寫進(jìn)了網(wǎng)站的使用條款,甚至特別注明“不得將本網(wǎng)站內(nèi)容用于機(jī)器學(xué)習(xí)或AI模型的訓(xùn)練”。

但是Anthropic的爬蟲明顯不care這些聲明,依舊我行我素地狂扒數(shù)據(jù)。

更讓無語的是,當(dāng)這事爆了之后,有媒體就去問Anthropic,對方給出的回應(yīng)幾乎和OpenAI如出一轍:

他們表示ClaudeBot爬蟲是遵守robots.txt的,如果網(wǎng)站不想被抓,就應(yīng)該在 robots 文件里屏蔽Claude。

言下之意,就是iFixit你自己明明沒說啊,沒在robots.txt徹底封禁啊,我們當(dāng)然就有權(quán)一直爬下去啊。

無奈之下,iFixit只好趕緊修改了robots.txt,添加了針對ClaudeBot的延遲和阻止規(guī)則。

可這件事留給業(yè)界的震動(dòng)卻揮之不去,坦率的講,連iFixit這樣熟悉網(wǎng)絡(luò)技術(shù)的知名網(wǎng)站,一開始都沒料到 AI 爬蟲會(huì)如此不講武德,明知道別人不情愿卻還要硬闖。

如果連老牌互聯(lián)網(wǎng)從業(yè)者都防不勝防,那其他那些沒技術(shù)團(tuán)隊(duì)守衛(wèi)的小網(wǎng)站、小作者,又咋招架這些竊賊?

甚至更不要臉的是那個(gè)AI搜索鼻祖,Perplexity。

知名科技媒體《連線》(Wired)發(fā)現(xiàn),Perplexity的爬蟲不僅沒有遵守一些網(wǎng)站的robots.txt 禁令,甚至試圖悄悄抓取那些明確聲明不開放給機(jī)器的角落。

換句話說,就是Perplexity公然無視r(shí)obots協(xié)議,偷偷攫取了本不該拿的內(nèi)容。

可能你看到這里,會(huì)疑惑robots協(xié)議是個(gè)啥。

我們把時(shí)間倒回1994年,那個(gè)時(shí)候網(wǎng)絡(luò)上也正經(jīng)歷著爬蟲之亂。

彼時(shí)搜索引擎剛興起,一些自動(dòng)爬蟲程序在網(wǎng)上橫沖直撞,給服務(wù)器造成了不小的負(fù)擔(dān)。

于是,一位名叫Martijn Koster的荷蘭工程師,提出了一個(gè)非常巧妙的主意:

網(wǎng)站管理員可以在站點(diǎn)根目錄放一個(gè)名為“robots.txt”的文本文件,提前告訴網(wǎng)絡(luò)機(jī)器人,哪里可以爬、哪里不許碰。

這個(gè)提議很快得到了行業(yè)的廣泛認(rèn)可,成為互聯(lián)網(wǎng)早期一種非常純粹的“君子協(xié)定”。


根據(jù)robots協(xié)議,如果網(wǎng)站在robots.txt里標(biāo)明了禁止抓取某些內(nèi)容,那么守規(guī)矩的爬蟲就應(yīng)該乖乖止步,不去觸碰那些被列入黑名單的路徑。

這套機(jī)制本質(zhì)上完全依賴自覺,它沒有法律強(qiáng)制力,靠的是爬蟲開發(fā)者愿意遵守規(guī)則的良知和誠意。

但令人欣慰的是,在相當(dāng)長的歲月里,這種誠意基本上保持了下來。

Google、Yahoo等搜索引擎尊重robots.tx 的邊界,微軟的Bing也是如此,甚至后來各式各樣善意的網(wǎng)絡(luò)爬蟲,都把不傷害網(wǎng)站、遵循站長意愿當(dāng)作職業(yè)道德的一部分。

正因?yàn)橛衦obots.txt的存在,網(wǎng)站管理員才愿意敞開大門讓搜索引擎索引內(nèi)容,他們相信敏感或不想公開的角落可以被禮貌地避開。

這份信任,構(gòu)筑了網(wǎng)絡(luò)內(nèi)容自由流通和公平利用的基礎(chǔ)。

但是現(xiàn)在,這份來之不易的信任正被無情地侵蝕。

當(dāng)AI爬蟲為了填飽模型的數(shù)據(jù)需求四處出擊時(shí),又有多少還真正尊重 robots.txt的邊界?

OpenAI、Anthropic固然口口聲聲我們遵守robots協(xié)議,但事實(shí)是,如果你沒明確寫禁令,他們就默認(rèn)可以來拿,絲毫不考慮你是否情愿。

只要你沒用足夠堅(jiān)固的墻把我擋住,那就是你的錯(cuò),我闖進(jìn)來就理所應(yīng)當(dāng)。

這種倒打一耙的邏輯讓人憤慨之余,也透出一絲悲哀。

所以,在這種背景下,Cloudflare挺身而出,作為大多數(shù)網(wǎng)站前的守護(hù)者,他們決定,用魔法打敗魔法,用AI,對抗AI。

他們?yōu)檫@些AI爬蟲,造了一整座AI迷宮。

因?yàn)檫^往的防御邏輯很簡單,就是用驗(yàn)證的方式,直接把這些AI爬蟲攔在門外,這樣會(huì)有個(gè)問題,反而會(huì)驚動(dòng)敵人,讓他們換個(gè)馬甲卷土重來。

比如OpenAI就有N個(gè)AI爬蟲。

所以他們這次的更新,用了一個(gè)更陰柔的做法:

放對手進(jìn)來,但是領(lǐng)著它走進(jìn)一個(gè)精心編織的虛假網(wǎng)頁迷宮。

在這個(gè)迷宮里,所有的頁面、鏈接和內(nèi)容都是 AI 自動(dòng)生成的,看上去像模像樣,卻全都是無意義的空城計(jì)。

那些AI爬蟲一旦被引誘進(jìn)去,就會(huì)在假內(nèi)容中團(tuán)團(tuán)轉(zhuǎn),白白浪費(fèi)計(jì)算資源和帶寬。

而這些迷宮入口對正常用戶是隱形的,真人訪客根本不會(huì)點(diǎn)擊到那些陷阱鏈接。而 AI 爬蟲則樂此不疲地一路追蹤下去,越陷越深,直到在虛假的信息泥潭中迷失方向。

大衛(wèi)終于也有了一塊對付歌利亞的利器。

ClaudeBot他們在blog中寫道:


這是一場戰(zhàn)爭,一邊是如狼似虎、到處搜刮數(shù)據(jù)的AI爬蟲大軍,另一邊則是苦苦守衛(wèi)自己數(shù)字領(lǐng)土的網(wǎng)站站長和內(nèi)容創(chuàng)作者們。

我不否認(rèn)大模型需要海量數(shù)據(jù)訓(xùn)練,創(chuàng)新常常伴隨著對舊有規(guī)則的沖撞。

互聯(lián)網(wǎng)歷史上類似的矛盾并非首次:音樂產(chǎn)業(yè)曾與數(shù)字盜版激烈交鋒,新聞出版商也為搜索引擎收錄內(nèi)容而抗議。

也許在很多AI公司看來,網(wǎng)絡(luò)上的公開內(nèi)容皆是取之無害、用之無罪的公共資源,抓了又何妨?

但是有沒有想過內(nèi)容生產(chǎn)者的感受呢?知識和創(chuàng)意的源頭若得不到尊重和回報(bào),最終枯竭的將是創(chuàng)新本身。沒有人愿意辛苦耕耘卻被機(jī)器毫無顧忌地偷走成果。

至少在現(xiàn)有的倫理和經(jīng)濟(jì)體系下,這種行為會(huì)磨滅創(chuàng)作者的熱情。

到最后,網(wǎng)絡(luò)上留下的,全部是AI生產(chǎn)的AI垃圾,淹沒了整個(gè)互聯(lián)網(wǎng)。

戰(zhàn)爭已經(jīng)打響,而AI領(lǐng)域的這場較量正是從爬蟲開始的。

我只希望,當(dāng)硝煙散去,我們還能擁有一個(gè)我們所熱愛的、開放而可信的互聯(lián)網(wǎng)。

拋開那些宏大的技術(shù)敘事,對于我們每一個(gè)普通網(wǎng)民而言。

這才是我們最值得去捍衛(wèi)的東西。

不是嗎。

以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@gmail.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
超級模特何穗大膽泳裝身材真好,個(gè)子太高

超級模特何穗大膽泳裝身材真好,個(gè)子太高

鄉(xiāng)野小珥
2025-06-04 03:42:44
年少輕狂?17歲亞馬爾頒獎(jiǎng)禮側(cè)身無視C羅主動(dòng)握手!怒視+眼神殺人

年少輕狂?17歲亞馬爾頒獎(jiǎng)禮側(cè)身無視C羅主動(dòng)握手!怒視+眼神殺人

我愛英超
2025-06-09 17:59:52
多地考生收到作弊記0分短信,回應(yīng)來了!

多地考生收到作弊記0分短信,回應(yīng)來了!

中國新聞周刊
2025-06-09 15:48:22
27歲關(guān)曉彤,正式官宣!

27歲關(guān)曉彤,正式官宣!

CD潮生活
2025-06-09 12:08:04
突發(fā)!沃爾瑪耐克集體施壓,中企承受66%關(guān)稅,出口訂單要崩?

突發(fā)!沃爾瑪耐克集體施壓,中企承受66%關(guān)稅,出口訂單要崩?

魏家東
2025-06-09 09:20:26
1-5之后,國足再釀恥辱!世界排名首次被泰國超越 跌至第99

1-5之后,國足再釀恥辱!世界排名首次被泰國超越 跌至第99

念洲
2025-06-09 11:10:48
多地發(fā)生騙國補(bǔ)行為!官方緊急提示

多地發(fā)生騙國補(bǔ)行為!官方緊急提示

南方都市報(bào)
2025-06-09 20:19:01
怕不怕:失業(yè)率破15.8%?!

怕不怕:失業(yè)率破15.8%?!

辰星雜談
2025-06-09 21:32:16
女生高考遲到1分鐘遭拒!知情人曝光,考生是清北班,住考場對面

女生高考遲到1分鐘遭拒!知情人曝光,考生是清北班,住考場對面

鋭娛之樂
2025-06-09 15:23:01
中央巡視期間,上任剛滿一年的副市長主動(dòng)投案!這幾省也有干部投案

中央巡視期間,上任剛滿一年的副市長主動(dòng)投案!這幾省也有干部投案

上觀新聞
2025-06-09 14:49:14
Here We Go!羅馬諾:曼城簽切爾基達(dá)協(xié)議,轉(zhuǎn)會(huì)費(fèi)總價(jià)4100萬歐

Here We Go!羅馬諾:曼城簽切爾基達(dá)協(xié)議,轉(zhuǎn)會(huì)費(fèi)總價(jià)4100萬歐

直播吧
2025-06-09 19:53:12
重罰!網(wǎng)傳安徽某行兩員工在面館接受宴請,被通報(bào)并考核3000元…

重罰!網(wǎng)傳安徽某行兩員工在面館接受宴請,被通報(bào)并考核3000元…

火山詩話
2025-06-09 17:08:34
人類的酒量差距很大嗎?網(wǎng)友:我老公剛下車就從褲兜掉出坨粑粑

人類的酒量差距很大嗎?網(wǎng)友:我老公剛下車就從褲兜掉出坨粑粑

娛樂圈人物大賞
2025-06-09 00:20:05
今年銷售額已破100億元!胖東來最新聲明:員工被罵最高賠10萬!于東來回應(yīng)

今年銷售額已破100億元!胖東來最新聲明:員工被罵最高賠10萬!于東來回應(yīng)

每日經(jīng)濟(jì)新聞
2025-06-09 18:17:09
唏噓!一藝術(shù)家不幸凌晨離世,年僅32歲

唏噓!一藝術(shù)家不幸凌晨離世,年僅32歲

南方都市報(bào)
2025-06-09 11:59:17
為啥國人對白種女人交往意愿不高?網(wǎng)友:為啥很多東亞女人找老外

為啥國人對白種女人交往意愿不高?網(wǎng)友:為啥很多東亞女人找老外

解讀熱點(diǎn)事件
2025-06-08 00:20:03
湖南益陽警方:男子停車操作失誤致1死2傷,已被公安機(jī)關(guān)控制

湖南益陽警方:男子停車操作失誤致1死2傷,已被公安機(jī)關(guān)控制

界面新聞
2025-06-09 20:34:12
曝韋東奕恐離開北大,6年無成果非升即走?業(yè)內(nèi)曝其真實(shí)職位反轉(zhuǎn)

曝韋東奕恐離開北大,6年無成果非升即走?業(yè)內(nèi)曝其真實(shí)職位反轉(zhuǎn)

古希臘掌管松餅的神
2025-06-09 15:09:36
韋東奕到底牛在哪?他解開了流體學(xué)界的卡脖子難題

韋東奕到底牛在哪?他解開了流體學(xué)界的卡脖子難題

質(zhì)子教授
2025-06-09 20:59:28
首次披露,張益山已被查

首次披露,張益山已被查

新京報(bào)政事兒
2025-06-09 21:45:13
2025-06-10 01:36:49
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
314文章數(shù) 419關(guān)注度
往期回顧 全部

科技要聞

中國汽車行業(yè)告別"內(nèi)卷",從"重慶論壇"開始?

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰(zhàn)斗

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰(zhàn)斗

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時(shí)被照顧打動(dòng)

財(cái)經(jīng)要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺(tái) 新別克E5即將煥新上市

態(tài)度原創(chuàng)

手機(jī)
游戲
本地
時(shí)尚
公開課

手機(jī)要聞

感光能力大增!華為Pura 80視頻能力重磅升級:大光比明暗細(xì)節(jié)完美還原

泰國武俠試玩Demo上線Steam!來嘗嘗味兒正不正!

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

今年夏天最流行的裙子,配這4雙鞋才好看!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 宝清县| 新疆| 连平县| 新营市| 朝阳区| 和龙市| 双柏县| 丹巴县| 吉安市| 桃源县| 马尔康县| 焉耆| 山东省| 石景山区| 武义县| 德兴市| 天峨县| 泊头市| 新河县| 阿尔山市| 高淳县| 长泰县| 社旗县| 鹤山市| 铜梁县| 池州市| 三明市| 铜山县| 拉萨市| 南溪县| 华容县| 遂昌县| 土默特左旗| 景宁| 碌曲县| 申扎县| 漳浦县| 紫阳县| 察雅县| 叙永县| 胶南市|