GitHub黑市曝光：高檔刷星6元一顆最奇葩開源項目97%都是刷的

2023-11-05 來自量子位發表於業界精選

在黑市買GitHub星星多少錢？最貴的高達6元一顆。有創業者YassinEldeeeb自掏腰包測試一把。他足足花20歐元（約156人民幣），隻買到25顆“高級星星”。沒錯，在黑市上刷GitHub星星也是分高低貴賤的。高級的都是註冊一年以上的賬號來刷，昵稱頭像工作地點等個人資料非常自然絕不重樣。

甚至至少還有一個對其他開源項目的貢獻記錄等，不但算法檢測不出來，肉眼看也沒毛病。

便宜的最低可做到0.4-0.88元一顆星星，這種就是最簡單的新註冊空號去刷，默認頭像，隨機生成昵稱的那種。

買一個月以後發現都已經被平臺封號處理，買到的星星也跟著消失。

不過這種廉價服務最瘋狂的地方在：失效可以聯系賣方，免費包重刷。

具體有多少人購買這種服務無從得知，不過Eldeeeb註意到他的賬單編號是#57189，說明成交量絕對不在少數。

像這樣的“黑市”刷星服務，最近被頻頻曝光，也在開發者社區成話題熱榜的常客。

大傢的討論中，有一個最奇葩的開源項目，被檢測出有97%的星都是假的。

假星檢測器

檢測出這個奇葩項目的是另一位創業者Fraser Marlow，他偶然發現GitHub黑市的存在。

同時他也註意到投資人越來越重視GitHub標星數，當作評估開源產品的指標。

不過作為數據管道服務公司Dagster的增長主管，他不但沒有給自己產品刷星——

反而與識別垃圾郵件的專傢合作，收集數據並開發一個假星檢測器。

具體分為兩種算法，簡單算法隻能檢測出那些“一眼假”的。

比如大批賬號都給相同的兩個項目標星，沒有貢獻記錄，除頭像和用戶名不同其他一毛一樣那種。

但對於開頭提到的那種6元一星的高級賬號，簡單算法就無能為力。

為此，Dagster還設計一種更復雜的監督聚類算法。

原理也很簡單，一批假賬號會具有相似的特征，在可視化中可以聚集在一起。

而正常用戶的特征應該相當獨特，在統計上非常分散，不應該屬於任何大的群體。

舉個栗子來說，正常的GitHub賬號不是每天都有活動記錄，如果一群賬號活躍的日期都重合，就表明它們很有可能是受同一個腳本控制的。

為驗證算法可靠性，他們創建一個靶子倉庫，並真的去購買刷星服務。

聚類算法在測試中表現非常好，接近100%的匹配率。

在更復雜的真實數據上，也達到98%的精確度和85%的召回率。

接下來，團隊在Github Archive公開數據集上綜合使用兩種算法測試。

一測不得，造假最嚴重的okcash總標星759，簡單算法隻發現一個疑似假星，結合聚類算法直接蹦到97%，

由於計算成本較高，測試中隻分析2022年1月1日及之後獲得的星星。

也就是說，還有很多2022年之前刷星的項目沒有被揪出來。

與之相比，他們檢測自己的產品Dagster和幾個同行，刷星率都比較低，看來數據管道這個行業還是比較健康的。

在這之後，他們與GitHub團隊分享這些發現，並把檢測器也開源。

曝光48小時之內，GitHub和刷星供應商都行動起來，他們測試用的“靶子倉庫”中的假星都消失。

據GitHub方面回應，其實多年以來一直都在積極打擊刷星行為，但仍舊頻發，根本管不住。

之前就有學術研究，通過數據分析找出63872個可疑賬號，但其中隻有不到5%被GitHub平臺自己檢測出並封號。

研究推測，刷星行業早在2018-2019年就獲得341萬-437萬美元的利潤。

那麼為什麼會有人花大價錢買GitHub標星，真的能帶來實際收益麼？

投資人：我們就愛看星標

開源項目團隊選擇“刷星”的一個重要目的，就是吸引投資者的目光。

一傢風險投資公司的合夥人Pratima Aiyagari 表示，做開源項目極大可能很久都賺不到錢。

既然收入情況沒法拿來參考，那就要多看一看產品本身的狀況。

考察開源項目最準確的方式是查看代碼，但這種方法復雜繁瑣且專業性強，並沒有成為投資者的首選方式。

於是投資者找出替代方法——看星標——實際上，他們天生就會尋找快速增長的新賬號。

除絕對數量，風投公司Runa還專門設計一種名為ROSS指數的指標，依據星標數年增長率對團隊進行排名。

Runa的一名合夥人Konstantin Vinogradov說，ROSS指標已經成為開源項目遵循的重要標準，排名靠前的開源項目中有三分之一都獲得融資。

不過伴隨著“刷星”現象的出現，投資者對星標數的看法也開始弱化。

投資人Kevin Zhang說，星標數可能可以成為一塊“敲門磚”，但不意味著投資者會因為星標數和項目團隊“第二次見面”。

這也印證學術界的看法——加州大學聖地亞哥分校助理教授Stuart Geiger表示，隨著時間的推移，指標（星標數）可能會自行失效。

這就涉及到兩條社會科學定律——坎貝爾定律和古德哈特定律。

坎貝爾定律說，決策當中使用的一項指標越受重視，就越容易被操縱。

好比網絡購物，實物我們看不見摸不著，自然就會參考其他買傢的評價，於是“刷單”現象也就應運而生。

古德哈特定律則認為，如果一項指標被人們刻意追逐，那就不（或不再）是一個好的指標。

但在沒有更好的替代指標的情況下，就必須確保數據的真實度，就好像在考試中要不遺餘力地打擊作弊一樣。

不過，除想吸引投資者的團隊之外，還有許多個人開發者也會“刷星”。

目的和創業團隊有異曲同工之處，隻不過吸引的不是投資者而是HR，希望高星項目能在求職中為他們帶來優勢。

事實上，也的確有企業將GitHub信息作為評價求職者的指標，甚至有人憑借套殼項目就斬獲Google的offer。

除選人，在技術選型時也是同樣的道理——很多人（尤其非專業人士）會傾向於使用高星項目。

除GitHub，還有綜合型產品發佈平臺Product hunt，數據類產品平臺kaggle，以及IT問答平臺StackOverFlow等媒介也越來越多的受到投資人的關註。

不過如果不能建立有效的“防刷單”策略，可能最終也難逃換湯不換藥的命運。

對於這種現象，有人總結是“Fake it till they make it.”——

如同“先上車後補票”一樣，先假裝自己已經成功，直到真的成功為止。

One More Thing

AI，特別是大模型的發展，讓檢測虛假賬戶越來越難。

以前的造假可能隻是刷刷星標和點贊，判斷用戶真偽的方式主要是看賬戶本身的特征。

但自從有ChatGPT以後，還可以刷以假亂真而且不重樣的評論。

如果一個賬戶命中虛假賬號的特征，但發佈的回復卻和真人毫無二致，該如何判斷它的真偽？

GitHub黑市曝光：高檔刷星6元一顆最奇葩開源項目97%都是刷的

相關推薦

蘋果將所有開源項目遷移至GitHub 不再自建開源代碼托管平臺

GitHub榜一大佬曬出可憐的存款：大傢都想給他捐錢

開發者紮心 GitHub將於9月30日關閉Trending功能

GitHub Octoverse報告：平臺擁有9400萬開發人員 HCL語言增長最快

Stable Diffusion背後公司估值攀升至69億距項目發佈僅過去一個月

AI孫燕姿翻唱爆火多虧這個開源項目廣西老表帶頭打造

谷歌裁員細節曝光：開源主管被裁 61歲程序員在線求職

腳本實驗室Office插件現已被微軟接管不再是開源應用程序

“爭奪”Linux：華為已是最大內核貢獻者

百模大戰的贏傢最終會是開源模型 | 近匠

AWS、Splunk和Symantec牽頭成立OCSF開放網絡安全架構框架

一張估值20億的“笑臉” 正在拆掉OpenAI的圍墻

Linux內核網絡驅動開發受到西方世界制裁俄羅斯的影響

程序員抨擊GitHub Copilot編程輔助工具明顯違反開源許可

GitHub黑市曝光：高檔刷星6元一顆 最奇葩開源項目97%都是刷的

相關推薦

GitHub黑市曝光：高檔刷星6元一顆最奇葩開源項目97%都是刷的