Common Crawl 非營利組織維護著一個龐大的開源存儲庫,其中存儲了自 2008 年以來收集的數 PB 級網絡數據,任何人都能免費使用這些數據。由于數據集規模巨大,許多人工智能項目,包括 OpenAI、DeepSeek、Google、Meta、Anthropic 和 Stability 等公司的大型語言模型(LLM)訓練,可能至少部分依賴這一數字檔案。
Truffle Security 公司(TruffleHog 敏感數據開源掃描器背后的公司)的研究人員對 Common Crawl 2024 年 12 月檔案中 267 億個網頁的 400 TB 數據進行檢查后,發現了 11,908 個成功驗證的有效機密。這些機密均為開發人員硬編碼,這意味著 LLM 存在在不安全代碼上進行訓練的可能性。
在這些機密中,有 Amazon Web Services(AWS)的根密鑰、MailChimp API 密鑰以及 WalkScore 服務的有效 API 密鑰等。
源代碼中的 AWS 根密鑰:Truffle Security
TruffleHog 在 Common Crawl 數據集中總共識別出 219 種不同類型的秘密,其中最常見的是 MailChimp API 密鑰,近 1,500 個獨特的 Mailchimp API 密鑰被硬編碼在前端 HTML 和 JavaScript 中。
MailChimp API 密鑰在前端 HTML 源代碼中泄露:Truffle Security
開發人員的失誤在于將這些密鑰硬編碼到 HTML 表單和 JavaScript 片段中,而未使用服務器端環境變量,這使得攻擊者有可能利用這些密鑰開展惡意活動,如進行網絡釣魚、品牌冒充,進而導致數據泄露。
此外,研究人員還發現報告中的機密存在高重復使用率,63% 的機密出現在多個頁面上。例如,一個 WalkScore API 密鑰在 1,871 個子域中出現了 57,029 次。研究人員還在一個網頁上發現了 17 個獨特的實時 Slack webhook,而 Slack 明確警告 webhook URL 包含秘密,嚴禁在網上(包括通過公共版本控制存儲庫)分享。
盡管 LLM 訓練數據會經過預處理階段,旨在清理和過濾掉不相關數據、重復內容、有害或敏感信息,但機密數據仍然難以徹底刪除,且無法保證完全清除如此龐大數據集中的所有個人身份信息(PII)、財務數據、醫療記錄和其他敏感內容。
研究結束后,Truffle Security 聯系了受影響的供應商,并協助他們撤銷了用戶的密鑰,成功幫助這些組織集體輪換 / 撤銷了數千個密鑰。即便人工智能模型使用的是比研究人員掃描的數據集更舊的檔案,Truffle Security 的發現仍給我們敲響了警鐘,不安全的編碼實踐可能會對 LLM 的行為產生影響。
參考及來源:https://www.bleepingcomputer.com/news/security/nearly-12-000-api-keys-and-passwords-found-in-ai-training-dataset/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.