關鍵詞
網絡爬蟲
維基媒體基金會運營著維基百科的附屬網站,該基金會最近披露,其基礎設施已被大量人工智能驅動的網絡爬蟲所淹沒。這些自動化機器人消耗了大量昂貴的服務器資源,給維基媒體工程師帶來了沉重的負擔,他們不得不努力通過技術手段來減輕其影響,同時也給組織帶來了巨大的運營成本。
維基百科是一個免費的圖片、視頻和其他各種媒體資源庫,目前托管著超過 1.44 億個文件。這個龐大的檔案庫已經成為人工智能抓取工具的首要目標,它們不斷收集其中的內容,以匯編用于訓練機器學習模型的數據集。
除了維基共享資源之外,維基百科本身也遭受了大規模且不加區分的抓取攻擊。維基百科意識到技術防御已不足以阻止這種激增的數據,因此采取了積極主動的措施——精心策劃并發布了專為訓練目的而設計的 AI 優化數據集。這些數據集目前托管在谷歌的 Kaggle 平臺上,這是一個數據科學家的社區中心,旨在讓 AI 開發者直接下載結構化數據,而不是繼續轟炸維基百科的服務器。
新發布的數據集經過精心設計,充分考慮了機器學習的工作流程,使AI從業者能夠輕松訪問機器可讀的文章數據,用于建模、微調、基準測試、校準和分析。所有包含的內容均已獲得公共許可,可自由分發。
該數據集截至2025年4月15日,包含研究摘要、簡明描述、圖片鏈接、信息框數據和文章章節。數據集特意省略了參考文獻、源文檔和音頻文件,僅關注文本和結構元素。初始版本提供英語和法語版本。
維基百科認為,結構良好的 JSON 格式數據集遠比費力地抓取和解析原始維基百科內容更具吸引力。然而,這種方法能否成功遏制人工智能網絡爬蟲的猛烈攻擊,仍有待觀察。
來源: https://securityonline.info/wikimedia-offers-free-ai-dataset-to-combat-relentless-web-scraping/
安全圈
網羅圈內熱點 專注網絡安全
實時資訊一手掌握!
好看你就分享 有用就點個贊
支持「安全圈」就點個三連吧!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.