99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GitHub 造假浪潮爆發!已有450萬虛假星標,實錘造假將導致倉庫限流

0
分享至


大數據文摘受權 轉載自夕小瑤科技說

各位父老鄉親!

作為一個碼農,我一直傻乎乎地把 GitHub 的星星當成寶貝,以為那都是代碼的真愛粉!

結果今天被一記重錘砸醒。

卡內基梅隆大學的論文爆料:

  • GitHub 上竟然有 450 萬虛假 Star!

  • 2024 年開始,Github 造假浪潮出現爆發式增長

嘶!小鹿想到有人買星星,但是沒想到這么多!

論文還說,這虛假點贊還夾雜著詐騙和惡意軟件。。。我這顆單純的心?。?/p>

尊嘟假嘟啊?


論文標題:

4.5 Million (Suspected) Fake ? Stars in GitHub: A Growing Spiral of Popularity Contests, Scams, and Malware

論文鏈接:

https://arxiv.org/abs/2412.13459

起因

正如唐納德·T·坎貝爾所說:

“任何定量社會指標被用于社會決策的次數越多,它就越容易受到腐敗壓力的影響,并且越容易扭曲和破壞它旨在監測的社會過程。”

GitHub Star 數量作為開源項目評估的重要指標,也難逃此劫。。。沒能逃過被“注水”的命運


現在 GitHub 圈里,作為決策信號的 GitHub Star 就像其他社交媒體的人氣指標一樣,已經可以被輕易地人為抬高了。在 Google 上搜索“購買 GitHub Star”,你會發現一堆提供商,他們聲稱只需幾小時或幾天就能交付大量 Star,價格從每個 0.1 美元到 2 美元不等。

而來自卡耐基梅隆大學的研究團隊,想要揭開虛假 Star 的真面目,開發了一款名為 StarScout 的工具,類似于 Github 里面的“星探”,能從 GitHub 海量數據中揪出那些行為異常的 Star,將 StarScout 應用于 2019 年 7 月至 2024 年 10 月的所有 GitHub 事件數據總計 6054 萬用戶、3.1 億個倉庫、6.1 億個 Star 和 60.1 億個其他事件, 識別出超過百萬的虛假 Star 和 15,835 個存在虛假 Star 活動的倉庫,研究團隊發現:

  • 虛假 Star 活動在 2024 年呈爆發式增長:生意越來越火爆了。在 2024 年之前,虛假 Star 在 GitHub 上的普遍性和影響有限。然而,2024 年虛假 Star 活動增加了兩個數量級。在 2024 年 7 月的峰值時,StarScout 檢測到當月 15.84% 的擁有 ≥50 個 Star 的倉庫存在虛假 Star 活動。

  • 虛假 Star 用戶的“偽裝術”很高明:個人資料看起來和普通用戶沒啥區別,但背地里卻有著高度異常的活動模式。其中 60% 以上的帳戶具有高度人為的活動模式,并且它們幾乎只對倉庫進行 Star(和 Fork),而沒有做任何其他有意義的事情。

  • 虛假 Star 的背后,往往是惡意軟件的陰謀:大部分虛假 Star 被用來推廣那些偽裝成盜版軟件、游戲作弊器或加密貨幣機器人的“短命”惡意倉庫。

  • “刷星”只能圖一時爽:有些倉庫為了“增長熱度”而購買虛假 Star,但這種“虛假繁榮”最多只能維持兩個月,長期來看反而會成為負擔,會產生負面影響(即真實 Star 的增益減少)。


鑒定模型

StarScout 主要聚焦于識別 GitHub 平臺上兩類可疑的 Star 行為模式:

  1. "曇花一現"模式:用戶僅為極少數倉庫點贊后便銷聲匿跡

  2. "整齊劃一"模式:n 個賬戶如同提前約好一般,在極短時間 ?t 內集體為 m 個特定倉庫點贊

這些行為模式往往與虛假 Star 交易密切相關。對于那些經營 Star 買賣的商家來說,要完全規避這些特征幾乎是不可能的:他們要么使用新注冊的臨時賬戶,要么不得不在短時間內集中完成客戶訂單(如表 1 的交付時間承諾所示)。


然而必須承認的是,在判定 Star 的真偽時很難畫出一條涇渭分明的界限。比如,設想這樣一個場景:某個 GitHub 教程要求學習者給倉庫點 Star 作為練習的一部分,這種情況該如何界定?

因此,研究團隊決定不糾結于定義絕對的真偽標準,而是將重點放在識別具有明顯異常行為特征的倉庫和用戶身上。

為了降低誤判率(無論是將正常用戶誤判為作弊者,還是虛假賬戶為掩人耳目給正常倉庫點贊),StarScout 設計了一套精細的后處理機制,用于進一步甄別可疑的 Star 行為。系統整體架構如圖 2 所示。


實驗分析

使用包含 15,835 個倉庫和 27.8 萬個具有虛假 Star 活動的帳戶的數據集進行實驗分析后,研究團隊對 GitHub 中的欺詐性點贊活動進行了測量研究,以四個研究問題來分析:

  • RQ1:GitHub 中虛假 Star 的普遍程度如何?

  • RQ2:具有虛假 Star 活動的 GitHub 倉庫的特征是什么?

  • RQ3:參與虛假 Star 活動的 GitHub 帳戶的特征是什么?

  • RQ4:虛假 Star 在多大程度上有效地推廣了目標 GitHub 倉庫?


RQ1:GitHub 中虛假 Star 的普遍程度如何?

為了摸清 GitHub 上虛假 Star 的真實情況,研究團隊首先要搞清楚它們到底有多普遍。研究團隊把那些被標記為“刷星”的倉庫和用戶,跟 GitHub 上的兩組“正常人”進行了對比:

  • “正常倉庫”:每月獲得 50 個以上 Star 的倉庫。

  • “正常用戶”:每月至少有一次 GitHub 活動的用戶。

對比結果,研究團隊都驚呆了!


如圖 6 的數據顯示,從 2022 年開始,“刷星”活動就開始抬頭,到了 2024 年簡直是“井噴式”爆發!(注意,圖 6 的 y 軸是對數坐標,這意味著增長速度比你看到的還要快得多?。?/p>

  • 2022 年之前,每個月最多只有 10 個倉庫參與“刷星”活動。

  • 2022 年和 2023 年,這個數字增加到了十幾個。

  • 到了 2024 年,這個數字直接飆升到了數千個!

  • 2024 年 7 月,“刷星”活動達到頂峰,有 3216 個倉庫和 30779 個用戶參與其中!

發現 1:GitHub “刷星”活動從 2022 年開始抬頭,2024 年徹底爆發!

研究團隊的對比還發現,只需要一小撮“刷星”用戶,就能在 GitHub 的人氣競賽中掀起巨大的波瀾。比如,在 2024 年 7 月的峰值,只有 30779 個“刷星”用戶,僅占當月活躍用戶的 1.88%,但他們“刷”出來的 3216 個倉庫,卻占當月所有獲得 50 個以上 Star 的倉庫的 15.84%!

這意味著,現在一個獲得 50 個 Star 的倉庫,有 15% 的概率不是真正的“潛力股”,而是被“刷”出來的!這簡直是給 GitHub 的人氣指標“摻了水”!

發現 2:一小撮“刷星”用戶,就能嚴重扭曲 GitHub 的人氣指標!

研究團隊還想知道,這些“刷星”的倉庫會不會蔓延到 npm、PyPI 等軟件包注冊中心。畢竟,這些注冊中心是軟件組件的實際分發渠道,它們的依賴關系也容易受到攻擊。

研究團隊把“刷星”倉庫的列表,跟 npm 和 PyPI 的元數據進行了匹配,結果發現:

  • 只有 47 個 npm 包(對應 21 個倉庫)和 64 個 PyPI 包(對應 43 個倉庫)有“刷星”嫌疑。

  • 這些包只占 npm 和 PyPI 生態系統的一小部分。

  • 更重要的是,這些包的下載量中位數都比較低,說明它們并沒有被廣泛使用。

這說明,目前 GitHub 上大規模的“刷星”活動,和軟件包注冊中心發生的垃圾郵件活動是分開的。雖然這些“刷星”的軟件包如果惡意,可能會造成直接損害,但它們似乎還沒有對 npm 和 PyPI 的供應鏈產生重大影響。

RQ2:帶有虛假點贊活動的 GitHub 倉庫有哪些特征?

研究團隊對 15835 個被標記為“刷星”的倉庫進行了深入分析,并把它們分成了兩類:

(1)“曇花一現”:截至 2024 年 10 月,已經被 GitHub 刪除的倉庫(共 14371 個)。

(2)“釘子戶”:截至 2024 年 10 月,仍然存在于 GitHub 上的倉庫(共 1464 個)。

曇花一現的特點:

  • 壽命極短:超過 75% 的倉庫,在 GitHub 上活躍的時間不到三天,簡直是“曇花一現”。

  • “刷星”比例高:它們的虛假 Star 比例通常比“釘子戶”更高。

  • “星”光黯淡:即使查看它們最后的點贊數量,仍然可以看到一部分點贊被取消了,這說明 GitHub 正在積極打擊虛假賬號,也側面證明了 StarScout 的準確性。

研究團隊從對曇花一現的倉庫名稱的詞頻分析中,發現了一些蛛絲馬跡:

  • “盜版軟件”:比如 “Adobe-Animate-Crack”

  • “加密貨幣機器人”:比如 “pixel-wallet-bot-free”、“Solana-Sniper-Bot”

  • “游戲作弊”:比如 “GTA5-cheat”

“釘子戶”的特點:

通過與仍然存在于 GitHub 上的具有相似名稱的倉庫進行比較,研究團隊發現,這些倉庫充其量是垃圾郵件,最壞的情況是惡意軟件。比如,VirusTotal 報告說,截至 2024 年 10 月,仍然存在于 GitHub 上的 1464 個“刷星”倉庫中,有 41 個存在惡意軟件。

需要注意的是,VirusTotal 并不能完全覆蓋 GitHub 上存在的惡意軟件類型。即使對于那些沒有 VirusTotal 警報的倉庫,研究團隊仍然能夠發現它們內部隱藏著高度混淆的惡意軟件。

當然,仍然存在于 GitHub 上的倉庫,它們的名稱更加多樣化,這說明至少有一部分較小的倉庫購買虛假點贊,是為了人氣競賽或增長黑客。

RQ3:參與虛假 Star 活動的 GitHub 賬戶有哪些特征?

為了揭開“刷星”用戶的真面目,研究團隊首先把他們的個人資料,跟“正常用戶”以及之前研究中發現的“虛假用戶”進行了對比。研究團隊收集了四個關鍵的個人資料特征,并在表 5 中總結了結果。


結果顯示,“刷星”用戶的個人資料,確實有一些“貓膩”:

  • 默認頭像:他們更傾向于使用默認頭像,就像“隱形人”一樣。

  • 沒有組織:他們通常不屬于 GitHub 上的任何組織,就像“散兵游勇”一樣。

  • 沒有隸屬關系或網站:他們的個人資料中,通常沒有任何隸屬關系或網站信息,就像“無根之木”一樣。

相比之下,之前研究中發現的“虛假用戶”,可能在賬戶管理和創建策略上有所不同。不過,雖然“刷星”用戶更傾向于使用這些空白字段,但與隨機 GitHub 用戶相比,差異并不算太大。更重要的是,他們的活動模式差異非常明顯,這說明,僅僅通過個人資料的“真假”來判斷用戶是否參與“刷星”活動,并不是一個靠譜的方法。

研究團隊對 1816 個“刷星”用戶的活動數據進行了譜聚類分析,結果發現,他們可以被分為三個不同的“陣營”:



  • “點贊狂魔”:(Cluster 1,占 53.74%)這個“陣營”的用戶,幾乎只為倉庫點贊,就像“點贊機器”一樣。

  • “點贊 +Fork”:(Cluster 2,占 6.44%)這個“陣營”的用戶,除了點贊,還會 Fork 一些倉庫,就像“升級版點贊機器”一樣。

  • “偽裝者”:(Cluster 0,占 39.97%)這個“陣營”的用戶,除了點贊和 Fork,還會參與其他活動,看起來更像“正常用戶”,但他們的刪除率仍然很高。

值得注意的是,“點贊狂魔”和“點贊 +Fork”這兩個“陣營”的刪除率都超過了 70%,這說明他們很可能來自不同的“刷星”商家。而“偽裝者”雖然看起來更像“正常用戶”,但他們的刪除率仍然高達 30.25%,這說明,即使他們中存在一些“誤傷”,也一定有一些“刷星”商家通過真實的虛假賬戶、交換平臺甚至被盜賬戶來交付 Star。

RQ4:虛假 Star 在多大程度上有效地推廣了目標

研究團隊為了探究這種虛假 Star 是否真的有效,在多大程度上有效地推廣了目標 GitHub 倉庫,提出了兩個假設:

  • H1:真實 Star 能帶來更多真實 Star(“富者更富”效應)。

  • H2:虛假 Star 也能帶來更多真實 Star,但效果不如真實 Star。

研究團隊使用面板自回歸模型來分析虛假 Star 對未來真實 Star 的影響。該模型能處理時間依賴性數據,并控制其他因素的影響。收集了每個倉庫在每個月的以下數據:

  1. 當月虛假 Star 數量

  2. 累計虛假 Star 數量

  3. 當月真實 Star 數量

  4. 累計真實 Star 數量

  5. 倉庫年齡

  6. 是否有發布

  7. 真實活動量(非倉庫所有者和虛假 Star 用戶的活動)

前四個變量用于檢驗假設,后三個變量用于控制其他因素擬合不同階數的自回歸模型,使用了固定效應和隨機效應兩種方法。

結果研究團隊發現所有模型都得出了相似的結論:

  • H1 得到支持:真實 Star 的增加能顯著促進未來真實 Star 的增加,符合“富者更富”效應。

  • H2 部分支持:虛假 Star 在短期內(1-2 個月)能帶來少量真實 Star,但效果遠不如真實 Star。長期來看,虛假 Star 反而會降低真實 Star 的增長。

購買虛假 Star 只能在短期內帶來少量關注,氮素從長期來看反而會成為負擔!

結語

"看完這個’星星交易’的故事,不禁讓人思考:在開源社區里,真實的價值到底應該用什么來衡量?是浮于表面的數字,還是實打實的代碼貢獻?

而且,小鹿去查了下,星標的價格從幾分錢到幾元不等,這種價格差異主要由賬戶的“質量”決定。高價星標通常來自注冊時間較長、有一定活躍度的賬戶,這些賬戶的星標看起來更“真實”,更難以被平臺識別和封禁。而低價星標則來自新注冊的、幾乎沒有任何活動記錄的賬戶,這些星標的風險更高,很容易被平臺識別并取消。

產業鏈很成熟。。這些服務還提供“失效包重刷”的保障。。。


或許有人會說:'花錢買星星不就等于給自己貼金嗎?'但轉念一想,如今各行各業都在追求數據美化,GitHub 星星買賣不過是這個時代的一個縮影罷了。

就像之前咱們給家人們介紹的殺豬盤研究員。。。

但仔細一想,這背后是不是有點讓人細思極恐?

我們為什么會覺得需要買星星呢?是為了項目的面子工程,還是為了吸引關注、獲得資源?如果這些星星的“含金量”被虛假流量所掩蓋,那原本追求技術創新和共享精神的開源社區,會不會漸漸失去它的靈魂?

本文中推薦的這篇論文中的實驗也證明了而這些“花錢買繁榮”的行為,最終也會像黑市刷出來的星星一樣——短暫發光,最后悄無聲息地消失,連一點痕跡都留不下。

真正有價值的星星,永遠是那些因為代碼本身的力量而聚集起來的閃光點。

租售GPU算力

租:4090/A800/H800/H100

售:現貨H100/H800

特別適合企業級應用

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
5000名游客擠癱政府食堂:米飯蒸了1000多斤,飯碗都不夠了

5000名游客擠癱政府食堂:米飯蒸了1000多斤,飯碗都不夠了

環球網資訊
2025-05-01 19:13:58
香港知名歌手緊急入住ICU,高燒多日不退,醫生稱已無藥可救

香港知名歌手緊急入住ICU,高燒多日不退,醫生稱已無藥可救

東方不敗然多多
2025-05-02 12:51:15
00:01深圳北站,票都不檢了!直接放人進,網友:這半小時太難熬

00:01深圳北站,票都不檢了!直接放人進,網友:這半小時太難熬

火山詩話
2025-05-02 06:08:56
巨虧334.6億元!深圳知名國企,發布重大損失公告

巨虧334.6億元!深圳知名國企,發布重大損失公告

大象新聞
2025-05-02 09:47:01
兩人默契搭檔23年卻沒成夫妻,如今一個年入千萬,一個負債累累

兩人默契搭檔23年卻沒成夫妻,如今一個年入千萬,一個負債累累

史紀文譚
2025-05-02 01:35:07
深圳開啟“人人從從眾眾”模式!有人高喊:我后悔了,只想回家…

深圳開啟“人人從從眾眾”模式!有人高喊:我后悔了,只想回家…

火山詩話
2025-05-02 07:08:38
烏克蘭8名游騎兵特種兵在庫爾斯克殲滅一個朝鮮排,消滅25名敵人

烏克蘭8名游騎兵特種兵在庫爾斯克殲滅一個朝鮮排,消滅25名敵人

環球熱點快評
2025-05-02 09:48:24
遵義會議內幕:遵義會議的政治局常委都有誰反對毛澤東

遵義會議內幕:遵義會議的政治局常委都有誰反對毛澤東

清清河邊草
2024-12-27 21:10:08
上海鼻涕姐不雅行為后續:身份徹底曝光,黑歷史被扒,警方已介入

上海鼻涕姐不雅行為后續:身份徹底曝光,黑歷史被扒,警方已介入

影像溫度
2025-05-02 08:14:45
泰山已經失守!全國游客這哪是來旅游,這是來排隊登基,人潮密集

泰山已經失守!全國游客這哪是來旅游,這是來排隊登基,人潮密集

追風小狗
2025-05-02 07:10:06
扎心!浙大學生想去廣東發展,希望年薪15萬,雙休,網友卻潑冷水

扎心!浙大學生想去廣東發展,希望年薪15萬,雙休,網友卻潑冷水

禾寒敘
2025-04-30 11:50:04
俄朝圖們江公路大橋開建,我國圖們江出??谟衷黾右坏馈凹湘i”

俄朝圖們江公路大橋開建,我國圖們江出海口又增加一道“枷鎖”

科普大世界
2025-05-02 09:55:10
快船掘金看起來筋疲力盡了!美記:還有個74-14的球隊在等他們

快船掘金看起來筋疲力盡了!美記:還有個74-14的球隊在等他們

直播吧
2025-05-02 12:43:03
萬萬沒有想到更厲害的人出現:曾發表論文,論文內容批評4+4模式

萬萬沒有想到更厲害的人出現:曾發表論文,論文內容批評4+4模式

雜談哥閑談
2025-05-02 13:13:27
鄭欽文:我們中國人工作很努力但西班牙人很輕松,這也讓我很困惑

鄭欽文:我們中國人工作很努力但西班牙人很輕松,這也讓我很困惑

懂球帝
2025-05-02 09:22:22
魯比奧將赴莫斯科出席衛國戰爭勝利日閱兵式?美國國務院回應

魯比奧將赴莫斯科出席衛國戰爭勝利日閱兵式?美國國務院回應

環球網資訊
2025-05-02 16:37:42
盧克文:500萬白砸了!最郁悶的應該是在巴納德沒有畢業的學生

盧克文:500萬白砸了!最郁悶的應該是在巴納德沒有畢業的學生

小人物看盡人間百態
2025-05-02 14:29:39
五一必刷佳片:9.4分,還在漲

五一必刷佳片:9.4分,還在漲

一條
2025-05-01 16:16:35
董女士事件中,最倒霉的是北科大,被這家人吸血了

董女士事件中,最倒霉的是北科大,被這家人吸血了

辣條小劇場
2025-05-01 22:54:39
主刀醫生能離開患者幾分鐘?

主刀醫生能離開患者幾分鐘?

經濟觀察報
2025-05-02 17:21:04
2025-05-02 19:04:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6611文章數 94407關注度
往期回顧 全部

科技要聞

微軟CEO和奧特曼失了和,OpenAI被“斷糧”

頭條要聞

業內人士談肖飛離開手術室:從患者進手術室他就必須在

頭條要聞

業內人士談肖飛離開手術室:從患者進手術室他就必須在

體育要聞

為了湖人的28號秀,森林狼差點沒換來戈貝爾

娛樂要聞

霍啟剛郭晶晶夫婦現身馬麗新片首映

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態度原創

本地
數碼
手機
親子
公開課

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

數碼要聞

三星HBM內存難了:谷歌也計劃換成美光產品

手機要聞

5999元巨屏如今只值千元?實測vivo X Note揭露殘酷真相

親子要聞

孩子沒朋友、人際關系差?家長注意:從幼兒園就開始培養啦!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永寿县| 屏东市| 天峨县| 壤塘县| 新宁县| 营口市| 璧山县| 崇信县| 东乌珠穆沁旗| 石林| 东阳市| 县级市| 遵化市| 登封市| 天全县| 渭南市| 鹤山市| 上林县| 息烽县| 康乐县| 探索| 健康| 尉犁县| 和政县| 平南县| 桂平市| 磐安县| 观塘区| 体育| 蓝山县| 成武县| 闽清县| 长宁区| 泰来县| 十堰市| 蒲江县| 阳信县| 凌海市| 吴堡县| 大姚县| 莱阳市|