沒(méi)人喜歡被白嫖,整個(gè)互聯(lián)網(wǎng)都一樣。
就在昨天,互聯(lián)網(wǎng)基礎(chǔ)設(shè)施巨頭 Cloudflare 宣布了一項(xiàng)新舉措:默認(rèn)攔截所有未經(jīng)許可的 AI 網(wǎng)絡(luò)爬蟲(chóng)(crawler)對(duì)網(wǎng)站內(nèi)容的抓取。換言之,AI 公司想要抓取網(wǎng)頁(yè)數(shù)據(jù)訓(xùn)練模型,必須先征得網(wǎng)站所有者的同意,否則將被擋在門(mén)外。
這一系列舉措無(wú)疑在業(yè)界引起震動(dòng)——對(duì)于需要全網(wǎng)搜刮數(shù)據(jù)的大模型開(kāi)發(fā)廠(chǎng)商來(lái)說(shuō),免費(fèi)任吃、數(shù)據(jù)不要錢(qián)的好日子,或許沒(méi)幾天能過(guò)了。
從 7 月初開(kāi)始,每一個(gè)新接入 Cloudflare 的站點(diǎn)都會(huì)被詢(xún)問(wèn)是否允許 AI 爬蟲(chóng)訪(fǎng)問(wèn),其默認(rèn)設(shè)置為拒絕,這等于給網(wǎng)站賦予了一鍵封禁 AI 抓取的權(quán)力。同時(shí),Cloudflare 還推出了「按次付費(fèi)爬取」的新模式,網(wǎng)站出版商可以選擇向 AI 爬蟲(chóng)收取抓取內(nèi)容的費(fèi)用。
版權(quán)的戰(zhàn)爭(zhēng)打了這么久,憑什么這家公司一出聲,就變得大件事了?
因?yàn)?strong>這是 Cloudfare,這是真正的互聯(lián)網(wǎng)「保安」。
驗(yàn)證碼變形記:Cloudflare 如何攔住AI爬蟲(chóng)
要理解 Cloudflare 此舉的意義,先得弄清它究竟在做什么。
傳統(tǒng)的驗(yàn)證碼(CAPTCHA)相信大家都不陌生:比如讓用戶(hù)選出圖片中所有的紅綠燈,或輸入扭曲的字符,以此區(qū)分「你是人還是機(jī)器人」。
一度,驗(yàn)證碼演化到了一種復(fù)雜死人的程度,別說(shuō)機(jī)器人,正常人也要花上好幾分鐘才能解完:
2022 年,Cloudflare 推出了 Turnstile 新一代的「無(wú)感驗(yàn)證」方案。
當(dāng)你打開(kāi)某些網(wǎng)站時(shí),可能會(huì)看到一句「正在驗(yàn)證瀏覽器,請(qǐng)稍候」,幾秒后自動(dòng)放行——這背后就是 Turnstile 在檢查你的瀏覽器環(huán)境、鼠標(biāo)移動(dòng)軌跡、頁(yè)面操作等數(shù)據(jù),以確定訪(fǎng)問(wèn)者是活生生的人類(lèi),而非腳本程序。
Cloudflare 強(qiáng)調(diào),這種驗(yàn)證對(duì)真人幾乎是隱形的:沒(méi)有煩人的拼圖對(duì)齊和「找不同」大戰(zhàn),甚至連多余的點(diǎn)擊都不需要。2023 年時(shí)他們還宣布要徹底淘汰視覺(jué)謎題式驗(yàn)證碼,承諾「不再以任何理由給任何人看亂七八糟的拼圖」。
的確,新一代的 Turnstile 驗(yàn)證既保障了安全,又讓用戶(hù)幾乎無(wú)感知通過(guò),可謂一個(gè)隱形的守門(mén)人,在真人用戶(hù)和自動(dòng)程序之間筑起一道分界線(xiàn)。
以往,驗(yàn)證碼主要用來(lái)防范批量注冊(cè)、刷票、薅優(yōu)惠券這種腳本行為。但在 AI 大模型時(shí)代,驗(yàn)證碼扮演的角色更加吃重,因?yàn)?strong>無(wú)處不在的 AI 爬蟲(chóng)正試圖把整個(gè)互聯(lián)網(wǎng)當(dāng)作自助餐。
各 個(gè) AI 爬蟲(chóng)爬取的數(shù)據(jù)量. 圖片來(lái)自:Cloudfare
Cloudflare 的驗(yàn)證系統(tǒng),因此針對(duì)性地進(jìn)行了升級(jí):它結(jié)合行為分析、瀏覽器指紋和機(jī)器學(xué)習(xí)模型,來(lái)識(shí)別訪(fǎng)問(wèn)者是正常用戶(hù)、良性爬蟲(chóng),還是偽裝的 AI 抓取工具。
例如,真人瀏覽網(wǎng)頁(yè)往往有自然的滾動(dòng)和點(diǎn)擊節(jié)奏,而批量爬蟲(chóng)可能在毫秒間瘋狂翻頁(yè);又比如正常瀏覽器會(huì)暴露一些標(biāo)準(zhǔn)特征,而某些爬蟲(chóng)為了隱藏身份可能偽造 UA 或關(guān)閉腳本——這些細(xì)節(jié)都難逃 Cloudflare 的檢測(cè)算法。
一旦判定某次訪(fǎng)問(wèn)屬于未經(jīng)授權(quán)的自動(dòng)抓取,Cloudflare 要么讓其陷入無(wú)限驗(yàn)證環(huán)節(jié),要么干脆直接阻斷。
技術(shù)攔不住,法庭再相見(jiàn)
Cloudfare 為什么這個(gè)時(shí)候出來(lái)選邊站?
作為全球領(lǐng)先的 CDN 和網(wǎng)絡(luò)安全服務(wù)商,Cloudflare 在 2023 年的報(bào)告中估計(jì),它每天要應(yīng)對(duì)萬(wàn)億級(jí)別的網(wǎng)絡(luò)請(qǐng)求,直接處理了全世界約 16%的互聯(lián)網(wǎng)流量,占據(jù)著全球約五分之一的網(wǎng)絡(luò)流量。
2024 年通過(guò) IPv4 互聯(lián)網(wǎng)流向 Cloudflare 的流量聚合情況
當(dāng)這樣一個(gè)守門(mén)員開(kāi)始對(duì) AI 說(shuō)「不」,其影響可想而知——而眼下,AI 廠(chǎng)商在版權(quán)戰(zhàn)爭(zhēng)中占取上風(fēng),接二連三地贏下訴訟。
Anthropic 在使用了數(shù)百萬(wàn)本書(shū)籍訓(xùn)練模型后,被告上法庭。最近出爐的裁決認(rèn)為,他們的行為符合「合理使用」的原則——這項(xiàng)法律原則允許在某些情況下,無(wú)需獲得所有者許可即可免費(fèi)使用受版權(quán)保護(hù)的內(nèi)容。
Meta 也打了勝仗。在應(yīng)對(duì)作家們的集體訴訟中,加州聯(lián)邦法庭裁定 Meta 勝訴。不過(guò),這個(gè)勝利來(lái)得比較僥幸,能勝主要是因?yàn)樵娴摹冈V訟點(diǎn)」提得不夠好,在法律層面不夠有力,因此法官也表示「這項(xiàng)裁決并不代表 Meta 使用受版權(quán)保護(hù)的材料訓(xùn)練其語(yǔ)言模型是合法的。」
找個(gè)好律師真是很重要啊。
在 AI 模型對(duì)網(wǎng)頁(yè)內(nèi)容的胃口與日俱增的背景下,驗(yàn)證碼系統(tǒng)儼然成為抵御「大數(shù)據(jù)采集狂魔」的一道防線(xiàn)。如果沒(méi)有這層把關(guān),AI 爬蟲(chóng)們恣意爬網(wǎng)的行為不僅可能把網(wǎng)站服務(wù)器搞得不堪重負(fù)(它們的高頻抓取甚至被比作 DDoS 攻擊),內(nèi)容創(chuàng)作者的成果,更加是在不知情間就被拿去「喂 AI」。
如今有了 Cloudflare 的攔截機(jī)制,網(wǎng)站主至少有了一套可以用來(lái)自我保護(hù)的武器。
互聯(lián)網(wǎng)格局如何改變
對(duì)于普通網(wǎng)民來(lái)說(shuō),這場(chǎng)關(guān)于 AI 爬蟲(chóng)的風(fēng)波聽(tīng)上去很「大」,但日常上網(wǎng)時(shí)的體驗(yàn)并不會(huì)有明顯變化。
Cloudflare 的 Turnstile 驗(yàn)證本就以「隱身」著稱(chēng),不會(huì)像舊式驗(yàn)證碼那樣頻繁跳出來(lái)考你識(shí)別交通燈和樓梯。因此,即便現(xiàn)在把 AI 爬蟲(chóng)視作眾矢之的,也不代表我們上網(wǎng)時(shí)要遭更多復(fù)雜考驗(yàn)——Cloudflare 不會(huì)開(kāi)倒車(chē)。
倒是那些試圖冒充人類(lèi)的 AI 爬蟲(chóng)們,恐怕要開(kāi)始頭疼如何通過(guò)這道檢驗(yàn)了——換句話(huà)說(shuō),驗(yàn)證碼系統(tǒng)的功能重心已經(jīng)悄然轉(zhuǎn)變。
以前,網(wǎng)站加驗(yàn)證碼主要是為把關(guān)「腳本」和惡意機(jī)器人,而現(xiàn)在 Cloudflare 明顯是在有意識(shí)別并阻擋特定的 AI 爬蟲(chóng)。
有數(shù)據(jù)顯示,Cloudflare 的自動(dòng)化識(shí)別技術(shù)可以準(zhǔn)確地區(qū)分真人流量和 AI 爬蟲(chóng)流量,這表明其驗(yàn)證碼背后的目標(biāo)已從一般性防護(hù)升級(jí)為專(zhuān)門(mén)針對(duì) AI 數(shù)據(jù)抓取。可以說(shuō),原本驗(yàn)證人機(jī)的「小考」,如今背后多了一層「篩查 AI」的使命。
在我們看來(lái)頁(yè)面秒開(kāi)、一片風(fēng)平浪靜時(shí),Cloudflare 早已在背景里盤(pán)查過(guò):「這是正常人類(lèi),通過(guò)」;「那是 GPT 的爬蟲(chóng),攔下來(lái)」。這種場(chǎng)景,如今每一分每一秒都在互聯(lián)網(wǎng)的底層跑道上真實(shí)上演。
這樣高調(diào)封殺未授權(quán) AI 爬蟲(chóng),表面理由是為內(nèi)容創(chuàng)作者討回公道——畢竟 AI 公司過(guò)去一直在大吃特吃「霸王餐」,侵占內(nèi)容卻不給創(chuàng)作者流量和報(bào)酬,即便后者鬧到法庭上,也不見(jiàn)得能求得公道。
不過(guò),與此同時(shí),Cloudflare 順勢(shì)推出了讓 AI 公司付費(fèi)爬取內(nèi)容的功能和平臺(tái),實(shí)行按次付費(fèi)爬取 (Pay Per Crawl) 的方式。這項(xiàng)新功能允許特定出版商和創(chuàng)作者向 AI 公司收取訪(fǎng)問(wèn)其內(nèi)容的費(fèi)用。參與者可以為單個(gè)爬蟲(chóng)程序設(shè)定價(jià)格,從而完全控制其作品如何以及是否用于 AI 模型訓(xùn)練。
這意味著 Cloudflare 正在將自己的安全防護(hù)網(wǎng),升級(jí)為 AI 時(shí)代的「收費(fèi)關(guān)卡」。以前 AI 爬蟲(chóng)橫行時(shí),內(nèi)容網(wǎng)站幾乎無(wú)從談判,AI 公司想抓就抓,頂多背負(fù)一些道德譴責(zé)。而現(xiàn)在,Cloudflare 替網(wǎng)站堵上了大門(mén),讓 AI 公司不得不停下來(lái)說(shuō):能不能讓我進(jìn)來(lái)抓點(diǎn)數(shù)據(jù)??jī)r(jià)格好商量。
這種轉(zhuǎn)變無(wú)疑改變了網(wǎng)絡(luò)內(nèi)容的利益分配格局,為出版社、媒體、創(chuàng)作者等網(wǎng)站主提供了籌碼。而 Cloudflare 則居中扮演了至關(guān)重要的「基礎(chǔ)設(shè)施」角色。
正如 Cloudflare CEO 所說(shuō),他們希望建立的是多方共贏的新模式,幫助創(chuàng)作者決定是否允許所有 AI 爬蟲(chóng)、允許特定的爬蟲(chóng)或設(shè)置自己的訪(fǎng)問(wèn)費(fèi)用,將以前未貨幣化的內(nèi)容使用轉(zhuǎn)變?yōu)樾碌氖杖雭?lái)源。
當(dāng)然,在這個(gè)模式里,Cloudflare 自己也扮演了角色:一邊替內(nèi)容提供方把門(mén),一邊替 AI 公司帶路,中間這一來(lái)一回,就可以收點(diǎn)服務(wù)費(fèi)手續(xù)費(fèi)之類(lèi)了。
可以預(yù)見(jiàn),隨著這一機(jī)制推廣開(kāi)來(lái),AI 公司要想抓取海量網(wǎng)絡(luò)內(nèi)容訓(xùn)練模型,恐怕得先準(zhǔn)備好「買(mǎi)路錢(qián)」。畢竟,手握著全球五分之一網(wǎng)絡(luò)流量「安檢閘口」,Cloudflare 無(wú)疑已經(jīng)為這筆潛在的生意打好了基礎(chǔ)。
眼下可以確定的是,Cloudflare 已經(jīng)把「我不是機(jī)器人」升級(jí)成了 AI 爬蟲(chóng)面前的一道高門(mén)檻。這道門(mén)檻背后,既有守護(hù)互聯(lián)網(wǎng)內(nèi)容生態(tài)的用心,也不乏精明的商業(yè)算計(jì)。
下一次你輕松通過(guò)自動(dòng)驗(yàn)證時(shí),柵欄抬起的另一側(cè),某個(gè) AI 爬蟲(chóng)可能正在被攔下來(lái)——想過(guò),先去交個(gè)過(guò)路錢(qián)吧。
文 | Selina
歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡(jiǎn)歷投遞郵箱
hr@ifanr.com
?? 郵件標(biāo)題
「姓名+崗位名稱(chēng)」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.