維基媒體基金會(Wikimedia Foundation)周二(4/1)表示,自2024年以來,外界對于由志工創建的維基媒體社交媒體的內容需求大幅攀升,特別是維基共享資源(Wikimedia Commons)上所存放的1.44億個圖像、視頻或其他文件,下載相關多媒體內容的帶寬增長了50%,其增長主要來自于AI模型的爬蟲機器人,因此該基金會制定了年度計劃,預計減少20%的爬蟲請求,以及降低30%的爬蟲數據傳輸流量,以節省資源及帶寬,供真正需要服務的開發者使用。
該基金會指出,維基媒體的各個項目一直是全球最大的開放知識集合,不管是人類搜索或是商用產品的訪問都依賴它們,其中,內容一直是搜索引擎結果的關鍵組成部分,同時也會將用戶引跳轉至維基媒體的網頁,然而,AI的興起使其動態產生了變化,他們觀察到請求數量明顯增加,所增加的流量中大多數是來自于替大型語言模型(LLM)或其他案例搜集數據的爬蟲機器人,而這些流量大部分并沒有注明所取得的數據源,同時還對維基媒體的底層基礎設施造成了大量的負擔。
根據維基媒體基金會的統計,自2024年1月以來,用于下載多媒體內容的帶寬增加了50%,該增長并非來自人類,主要來自自動化程序,這些爬蟲程序抓取Wikimedia Commons形象目錄中的公開許可圖像,以將圖像提供給AI模型。該平臺的基礎設施可承受高關注事件發生時,人類于短時間相繼訪問所形成的流量高峰,然而,若花費大量的時間與資源來回應非人為的流量時,該平臺容納異常事件的空間就會縮小,也衍生出越來越大的風險與成本。
維基媒體基金會是借由全球的數據中心網絡替用戶提供內容,當一篇文章被多次請求時,他們會在離用戶最近的數據中心記住或緩存它們,倘若某篇文章很久未被請求,那么則會自核心數據中心供應,意味著該請求必須行經從靠近用戶的數據中心到核心數據中心的所有路徑,再將其存儲在區域數據中心。
人類讀者與機器人的差別在于,人類通常會訪問特定或相似的主題,但爬蟲機器人通常是批量閱讀大量的頁面,包括那些很少被訪問的冷門頁面,意味著許多請求會被轉至核心數據中心,消耗更多的資源。
在維基媒體進行系統遷移時,發現機器人瀏覽的網頁數量僅占全體的35%,但訪問其核心數據中心的流量卻高達65%。
維基媒體基金會強調,他們的內容是免費的,但基礎設施不是,新的財政年度將著重于負責任地使用基礎設施,將工程資源優先用來該基金會的各種項目、貢獻者,以及人類對知識的訪問,準備減少20%由機器人產生的流量,降低30%的爬蟲機器人使用帶寬,估計到今年第4季時,將有50%的自動化流量可歸因于已知的開發人員或應用程序,提高基礎設施的可持續性并防止濫用。
#機器人# #大數據# #數據中心#
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.