大數據文摘受權 轉載自夕小瑤科技說
各位父老鄉親!
作為一個碼農,我一直傻乎乎地把 GitHub 的星星當成寶貝,以為那都是代碼的真愛粉!
結果今天被一記重錘砸醒。
卡內基梅隆大學的論文爆料:
GitHub 上竟然有 450 萬虛假 Star!
2024 年開始,Github 造假浪潮出現爆發式增長
嘶!小鹿想到有人買星星,但是沒想到這么多!
論文還說,這虛假點贊還夾雜著詐騙和惡意軟件。。。我這顆單純的心?。?/p>
尊嘟假嘟啊?
論文標題:
4.5 Million (Suspected) Fake ? Stars in GitHub: A Growing Spiral of Popularity Contests, Scams, and Malware
論文鏈接:
https://arxiv.org/abs/2412.13459
起因
正如唐納德·T·坎貝爾所說:
“任何定量社會指標被用于社會決策的次數越多,它就越容易受到腐敗壓力的影響,并且越容易扭曲和破壞它旨在監測的社會過程。”
GitHub Star 數量作為開源項目評估的重要指標,也難逃此劫。。。沒能逃過被“注水”的命運
現在 GitHub 圈里,作為決策信號的 GitHub Star 就像其他社交媒體的人氣指標一樣,已經可以被輕易地人為抬高了。在 Google 上搜索“購買 GitHub Star”,你會發現一堆提供商,他們聲稱只需幾小時或幾天就能交付大量 Star,價格從每個 0.1 美元到 2 美元不等。
而來自卡耐基梅隆大學的研究團隊,想要揭開虛假 Star 的真面目,開發了一款名為 StarScout 的工具,類似于 Github 里面的“星探”,能從 GitHub 海量數據中揪出那些行為異常的 Star,將 StarScout 應用于 2019 年 7 月至 2024 年 10 月的所有 GitHub 事件數據總計 6054 萬用戶、3.1 億個倉庫、6.1 億個 Star 和 60.1 億個其他事件, 識別出超過百萬的虛假 Star 和 15,835 個存在虛假 Star 活動的倉庫,研究團隊發現:
虛假 Star 活動在 2024 年呈爆發式增長:生意越來越火爆了。在 2024 年之前,虛假 Star 在 GitHub 上的普遍性和影響有限。然而,2024 年虛假 Star 活動增加了兩個數量級。在 2024 年 7 月的峰值時,StarScout 檢測到當月 15.84% 的擁有 ≥50 個 Star 的倉庫存在虛假 Star 活動。
虛假 Star 用戶的“偽裝術”很高明:個人資料看起來和普通用戶沒啥區別,但背地里卻有著高度異常的活動模式。其中 60% 以上的帳戶具有高度人為的活動模式,并且它們幾乎只對倉庫進行 Star(和 Fork),而沒有做任何其他有意義的事情。
虛假 Star 的背后,往往是惡意軟件的陰謀:大部分虛假 Star 被用來推廣那些偽裝成盜版軟件、游戲作弊器或加密貨幣機器人的“短命”惡意倉庫。
“刷星”只能圖一時爽:有些倉庫為了“增長熱度”而購買虛假 Star,但這種“虛假繁榮”最多只能維持兩個月,長期來看反而會成為負擔,會產生負面影響(即真實 Star 的增益減少)。
鑒定模型
StarScout 主要聚焦于識別 GitHub 平臺上兩類可疑的 Star 行為模式:
"曇花一現"模式:用戶僅為極少數倉庫點贊后便銷聲匿跡
"整齊劃一"模式:n 個賬戶如同提前約好一般,在極短時間 ?t 內集體為 m 個特定倉庫點贊
這些行為模式往往與虛假 Star 交易密切相關。對于那些經營 Star 買賣的商家來說,要完全規避這些特征幾乎是不可能的:他們要么使用新注冊的臨時賬戶,要么不得不在短時間內集中完成客戶訂單(如表 1 的交付時間承諾所示)。
然而必須承認的是,在判定 Star 的真偽時很難畫出一條涇渭分明的界限。比如,設想這樣一個場景:某個 GitHub 教程要求學習者給倉庫點 Star 作為練習的一部分,這種情況該如何界定?
因此,研究團隊決定不糾結于定義絕對的真偽標準,而是將重點放在識別具有明顯異常行為特征的倉庫和用戶身上。
為了降低誤判率(無論是將正常用戶誤判為作弊者,還是虛假賬戶為掩人耳目給正常倉庫點贊),StarScout 設計了一套精細的后處理機制,用于進一步甄別可疑的 Star 行為。系統整體架構如圖 2 所示。
實驗分析
使用包含 15,835 個倉庫和 27.8 萬個具有虛假 Star 活動的帳戶的數據集進行實驗分析后,研究團隊對 GitHub 中的欺詐性點贊活動進行了測量研究,以四個研究問題來分析:
RQ1:GitHub 中虛假 Star 的普遍程度如何?
RQ2:具有虛假 Star 活動的 GitHub 倉庫的特征是什么?
RQ3:參與虛假 Star 活動的 GitHub 帳戶的特征是什么?
RQ4:虛假 Star 在多大程度上有效地推廣了目標 GitHub 倉庫?
RQ1:GitHub 中虛假 Star 的普遍程度如何?
為了摸清 GitHub 上虛假 Star 的真實情況,研究團隊首先要搞清楚它們到底有多普遍。研究團隊把那些被標記為“刷星”的倉庫和用戶,跟 GitHub 上的兩組“正常人”進行了對比:
“正常倉庫”:每月獲得 50 個以上 Star 的倉庫。
“正常用戶”:每月至少有一次 GitHub 活動的用戶。
對比結果,研究團隊都驚呆了!
如圖 6 的數據顯示,從 2022 年開始,“刷星”活動就開始抬頭,到了 2024 年簡直是“井噴式”爆發!(注意,圖 6 的 y 軸是對數坐標,這意味著增長速度比你看到的還要快得多?。?/p>
2022 年之前,每個月最多只有 10 個倉庫參與“刷星”活動。
2022 年和 2023 年,這個數字增加到了十幾個。
到了 2024 年,這個數字直接飆升到了數千個!
2024 年 7 月,“刷星”活動達到頂峰,有 3216 個倉庫和 30779 個用戶參與其中!
發現 1:GitHub “刷星”活動從 2022 年開始抬頭,2024 年徹底爆發!
研究團隊的對比還發現,只需要一小撮“刷星”用戶,就能在 GitHub 的人氣競賽中掀起巨大的波瀾。比如,在 2024 年 7 月的峰值,只有 30779 個“刷星”用戶,僅占當月活躍用戶的 1.88%,但他們“刷”出來的 3216 個倉庫,卻占當月所有獲得 50 個以上 Star 的倉庫的 15.84%!
這意味著,現在一個獲得 50 個 Star 的倉庫,有 15% 的概率不是真正的“潛力股”,而是被“刷”出來的!這簡直是給 GitHub 的人氣指標“摻了水”!
發現 2:一小撮“刷星”用戶,就能嚴重扭曲 GitHub 的人氣指標!
研究團隊還想知道,這些“刷星”的倉庫會不會蔓延到 npm、PyPI 等軟件包注冊中心。畢竟,這些注冊中心是軟件組件的實際分發渠道,它們的依賴關系也容易受到攻擊。
研究團隊把“刷星”倉庫的列表,跟 npm 和 PyPI 的元數據進行了匹配,結果發現:
只有 47 個 npm 包(對應 21 個倉庫)和 64 個 PyPI 包(對應 43 個倉庫)有“刷星”嫌疑。
這些包只占 npm 和 PyPI 生態系統的一小部分。
更重要的是,這些包的下載量中位數都比較低,說明它們并沒有被廣泛使用。
這說明,目前 GitHub 上大規模的“刷星”活動,和軟件包注冊中心發生的垃圾郵件活動是分開的。雖然這些“刷星”的軟件包如果惡意,可能會造成直接損害,但它們似乎還沒有對 npm 和 PyPI 的供應鏈產生重大影響。
RQ2:帶有虛假點贊活動的 GitHub 倉庫有哪些特征?
研究團隊對 15835 個被標記為“刷星”的倉庫進行了深入分析,并把它們分成了兩類:
(1)“曇花一現”:截至 2024 年 10 月,已經被 GitHub 刪除的倉庫(共 14371 個)。
(2)“釘子戶”:截至 2024 年 10 月,仍然存在于 GitHub 上的倉庫(共 1464 個)。
曇花一現的特點:
壽命極短:超過 75% 的倉庫,在 GitHub 上活躍的時間不到三天,簡直是“曇花一現”。
“刷星”比例高:它們的虛假 Star 比例通常比“釘子戶”更高。
“星”光黯淡:即使查看它們最后的點贊數量,仍然可以看到一部分點贊被取消了,這說明 GitHub 正在積極打擊虛假賬號,也側面證明了 StarScout 的準確性。
研究團隊從對曇花一現的倉庫名稱的詞頻分析中,發現了一些蛛絲馬跡:
“盜版軟件”:比如 “Adobe-Animate-Crack”
“加密貨幣機器人”:比如 “pixel-wallet-bot-free”、“Solana-Sniper-Bot”
“游戲作弊”:比如 “GTA5-cheat”
“釘子戶”的特點:
通過與仍然存在于 GitHub 上的具有相似名稱的倉庫進行比較,研究團隊發現,這些倉庫充其量是垃圾郵件,最壞的情況是惡意軟件。比如,VirusTotal 報告說,截至 2024 年 10 月,仍然存在于 GitHub 上的 1464 個“刷星”倉庫中,有 41 個存在惡意軟件。
需要注意的是,VirusTotal 并不能完全覆蓋 GitHub 上存在的惡意軟件類型。即使對于那些沒有 VirusTotal 警報的倉庫,研究團隊仍然能夠發現它們內部隱藏著高度混淆的惡意軟件。
當然,仍然存在于 GitHub 上的倉庫,它們的名稱更加多樣化,這說明至少有一部分較小的倉庫購買虛假點贊,是為了人氣競賽或增長黑客。
RQ3:參與虛假 Star 活動的 GitHub 賬戶有哪些特征?
為了揭開“刷星”用戶的真面目,研究團隊首先把他們的個人資料,跟“正常用戶”以及之前研究中發現的“虛假用戶”進行了對比。研究團隊收集了四個關鍵的個人資料特征,并在表 5 中總結了結果。
結果顯示,“刷星”用戶的個人資料,確實有一些“貓膩”:
默認頭像:他們更傾向于使用默認頭像,就像“隱形人”一樣。
沒有組織:他們通常不屬于 GitHub 上的任何組織,就像“散兵游勇”一樣。
沒有隸屬關系或網站:他們的個人資料中,通常沒有任何隸屬關系或網站信息,就像“無根之木”一樣。
相比之下,之前研究中發現的“虛假用戶”,可能在賬戶管理和創建策略上有所不同。不過,雖然“刷星”用戶更傾向于使用這些空白字段,但與隨機 GitHub 用戶相比,差異并不算太大。更重要的是,他們的活動模式差異非常明顯,這說明,僅僅通過個人資料的“真假”來判斷用戶是否參與“刷星”活動,并不是一個靠譜的方法。
研究團隊對 1816 個“刷星”用戶的活動數據進行了譜聚類分析,結果發現,他們可以被分為三個不同的“陣營”:
“點贊狂魔”:(Cluster 1,占 53.74%)這個“陣營”的用戶,幾乎只為倉庫點贊,就像“點贊機器”一樣。
“點贊 +Fork”:(Cluster 2,占 6.44%)這個“陣營”的用戶,除了點贊,還會 Fork 一些倉庫,就像“升級版點贊機器”一樣。
“偽裝者”:(Cluster 0,占 39.97%)這個“陣營”的用戶,除了點贊和 Fork,還會參與其他活動,看起來更像“正常用戶”,但他們的刪除率仍然很高。
值得注意的是,“點贊狂魔”和“點贊 +Fork”這兩個“陣營”的刪除率都超過了 70%,這說明他們很可能來自不同的“刷星”商家。而“偽裝者”雖然看起來更像“正常用戶”,但他們的刪除率仍然高達 30.25%,這說明,即使他們中存在一些“誤傷”,也一定有一些“刷星”商家通過真實的虛假賬戶、交換平臺甚至被盜賬戶來交付 Star。
RQ4:虛假 Star 在多大程度上有效地推廣了目標
研究團隊為了探究這種虛假 Star 是否真的有效,在多大程度上有效地推廣了目標 GitHub 倉庫,提出了兩個假設:
H1:真實 Star 能帶來更多真實 Star(“富者更富”效應)。
H2:虛假 Star 也能帶來更多真實 Star,但效果不如真實 Star。
研究團隊使用面板自回歸模型來分析虛假 Star 對未來真實 Star 的影響。該模型能處理時間依賴性數據,并控制其他因素的影響。收集了每個倉庫在每個月的以下數據:
當月虛假 Star 數量
累計虛假 Star 數量
當月真實 Star 數量
累計真實 Star 數量
倉庫年齡
是否有發布
真實活動量(非倉庫所有者和虛假 Star 用戶的活動)
前四個變量用于檢驗假設,后三個變量用于控制其他因素擬合不同階數的自回歸模型,使用了固定效應和隨機效應兩種方法。
結果研究團隊發現所有模型都得出了相似的結論:
H1 得到支持:真實 Star 的增加能顯著促進未來真實 Star 的增加,符合“富者更富”效應。
H2 部分支持:虛假 Star 在短期內(1-2 個月)能帶來少量真實 Star,但效果遠不如真實 Star。長期來看,虛假 Star 反而會降低真實 Star 的增長。
購買虛假 Star 只能在短期內帶來少量關注,氮素從長期來看反而會成為負擔!
結語
"看完這個’星星交易’的故事,不禁讓人思考:在開源社區里,真實的價值到底應該用什么來衡量?是浮于表面的數字,還是實打實的代碼貢獻?
而且,小鹿去查了下,星標的價格從幾分錢到幾元不等,這種價格差異主要由賬戶的“質量”決定。高價星標通常來自注冊時間較長、有一定活躍度的賬戶,這些賬戶的星標看起來更“真實”,更難以被平臺識別和封禁。而低價星標則來自新注冊的、幾乎沒有任何活動記錄的賬戶,這些星標的風險更高,很容易被平臺識別并取消。
產業鏈很成熟。。這些服務還提供“失效包重刷”的保障。。。
或許有人會說:'花錢買星星不就等于給自己貼金嗎?'但轉念一想,如今各行各業都在追求數據美化,GitHub 星星買賣不過是這個時代的一個縮影罷了。
就像之前咱們給家人們介紹的殺豬盤研究員。。。
但仔細一想,這背后是不是有點讓人細思極恐?
我們為什么會覺得需要買星星呢?是為了項目的面子工程,還是為了吸引關注、獲得資源?如果這些星星的“含金量”被虛假流量所掩蓋,那原本追求技術創新和共享精神的開源社區,會不會漸漸失去它的靈魂?
本文中推薦的這篇論文中的實驗也證明了而這些“花錢買繁榮”的行為,最終也會像黑市刷出來的星星一樣——短暫發光,最后悄無聲息地消失,連一點痕跡都留不下。
真正有價值的星星,永遠是那些因為代碼本身的力量而聚集起來的閃光點。
租售GPU算力
租:4090/A800/H800/H100
售:現貨H100/H800
特別適合企業級應用
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.