GitHub黑市曝光:高檔刷星6元一顆 最奇葩開源項目97%都是刷的


在黑市買GitHub星星多少錢?最貴的高達6元一顆。有創業者YassinEldeeeb自掏腰包測試一把。他足足花20歐元(約156人民幣),隻買到25顆“高級星星”。沒錯,在黑市上刷GitHub星星也是分高低貴賤的。高級的都是註冊一年以上的賬號來刷,昵稱頭像工作地點等個人資料非常自然絕不重樣。


甚至至少還有一個對其他開源項目的貢獻記錄等,不但算法檢測不出來,肉眼看也沒毛病。


便宜的最低可做到0.4-0.88元一顆星星,這種就是最簡單的新註冊空號去刷,默認頭像,隨機生成昵稱的那種。

買一個月以後發現都已經被平臺封號處理,買到的星星也跟著消失。

不過這種廉價服務最瘋狂的地方在:失效可以聯系賣方,免費包重刷。

具體有多少人購買這種服務無從得知,不過Eldeeeb註意到他的賬單編號是#57189,說明成交量絕對不在少數。


像這樣的“黑市”刷星服務,最近被頻頻曝光,也在開發者社區成話題熱榜的常客。


大傢的討論中,有一個最奇葩的開源項目,被檢測出有97%的星都是假的。

假星檢測器

檢測出這個奇葩項目的是另一位創業者Fraser Marlow,他偶然發現GitHub黑市的存在。

同時他也註意到投資人越來越重視GitHub標星數,當作評估開源產品的指標。

不過作為數據管道服務公司Dagster的增長主管,他不但沒有給自己產品刷星——

反而與識別垃圾郵件的專傢合作,收集數據並開發一個假星檢測器。


具體分為兩種算法,簡單算法隻能檢測出那些“一眼假”的。

比如大批賬號都給相同的兩個項目標星,沒有貢獻記錄,除頭像和用戶名不同其他一毛一樣那種。


但對於開頭提到的那種6元一星的高級賬號,簡單算法就無能為力。

為此,Dagster還設計一種更復雜的監督聚類算法。

原理也很簡單,一批假賬號會具有相似的特征,在可視化中可以聚集在一起。

而正常用戶的特征應該相當獨特,在統計上非常分散,不應該屬於任何大的群體。

舉個栗子來說,正常的GitHub賬號不是每天都有活動記錄,如果一群賬號活躍的日期都重合,就表明它們很有可能是受同一個腳本控制的。

為驗證算法可靠性,他們創建一個靶子倉庫,並真的去購買刷星服務。

聚類算法在測試中表現非常好,接近100%的匹配率。

在更復雜的真實數據上,也達到98%的精確度和85%的召回率。

接下來,團隊在Github Archive公開數據集上綜合使用兩種算法測試。

一測不得,造假最嚴重的okcash總標星759,簡單算法隻發現一個疑似假星,結合聚類算法直接蹦到97%,

由於計算成本較高,測試中隻分析2022年1月1日及之後獲得的星星。

也就是說,還有很多2022年之前刷星的項目沒有被揪出來。


與之相比,他們檢測自己的產品Dagster和幾個同行,刷星率都比較低,看來數據管道這個行業還是比較健康的。


在這之後,他們與GitHub團隊分享這些發現,並把檢測器也開源。

曝光48小時之內,GitHub和刷星供應商都行動起來,他們測試用的“靶子倉庫”中的假星都消失。

據GitHub方面回應,其實多年以來一直都在積極打擊刷星行為,但仍舊頻發,根本管不住。

之前就有學術研究,通過數據分析找出63872個可疑賬號,但其中隻有不到5%被GitHub平臺自己檢測出並封號。


研究推測,刷星行業早在2018-2019年就獲得341萬-437萬美元的利潤。

那麼為什麼會有人花大價錢買GitHub標星,真的能帶來實際收益麼?

投資人:我們就愛看星標

開源項目團隊選擇“刷星”的一個重要目的,就是吸引投資者的目光。

一傢風險投資公司的合夥人Pratima Aiyagari 表示,做開源項目極大可能很久都賺不到錢。

既然收入情況沒法拿來參考,那就要多看一看產品本身的狀況。

考察開源項目最準確的方式是查看代碼,但這種方法復雜繁瑣且專業性強,並沒有成為投資者的首選方式。

於是投資者找出替代方法——看星標——實際上,他們天生就會尋找快速增長的新賬號。


除絕對數量,風投公司Runa還專門設計一種名為ROSS指數的指標,依據星標數年增長率對團隊進行排名。

Runa的一名合夥人Konstantin Vinogradov說,ROSS指標已經成為開源項目遵循的重要標準,排名靠前的開源項目中有三分之一都獲得融資。

不過伴隨著“刷星”現象的出現,投資者對星標數的看法也開始弱化。

投資人Kevin Zhang說,星標數可能可以成為一塊“敲門磚”,但不意味著投資者會因為星標數和項目團隊“第二次見面”。

這也印證學術界的看法——加州大學聖地亞哥分校助理教授Stuart Geiger表示,隨著時間的推移,指標(星標數)可能會自行失效。


這就涉及到兩條社會科學定律——坎貝爾定律和古德哈特定律。

坎貝爾定律說,決策當中使用的一項指標越受重視,就越容易被操縱。

好比網絡購物,實物我們看不見摸不著,自然就會參考其他買傢的評價,於是“刷單”現象也就應運而生。

古德哈特定律則認為,如果一項指標被人們刻意追逐,那就不(或不再)是一個好的指標。

但在沒有更好的替代指標的情況下,就必須確保數據的真實度,就好像在考試中要不遺餘力地打擊作弊一樣。


不過,除想吸引投資者的團隊之外,還有許多個人開發者也會“刷星”。

目的和創業團隊有異曲同工之處,隻不過吸引的不是投資者而是HR,希望高星項目能在求職中為他們帶來優勢。

事實上,也的確有企業將GitHub信息作為評價求職者的指標,甚至有人憑借套殼項目就斬獲Google的offer。



除選人,在技術選型時也是同樣的道理——很多人(尤其非專業人士)會傾向於使用高星項目。


除GitHub,還有綜合型產品發佈平臺Product hunt,數據類產品平臺kaggle,以及IT問答平臺StackOverFlow等媒介也越來越多的受到投資人的關註。

不過如果不能建立有效的“防刷單”策略,可能最終也難逃換湯不換藥的命運。

對於這種現象,有人總結是“Fake it till they make it.”——

如同“先上車後補票”一樣,先假裝自己已經成功,直到真的成功為止。

One More Thing

AI,特別是大模型的發展,讓檢測虛假賬戶越來越難。

以前的造假可能隻是刷刷星標和點贊,判斷用戶真偽的方式主要是看賬戶本身的特征。

但自從有ChatGPT以後,還可以刷以假亂真而且不重樣的評論。

如果一個賬戶命中虛假賬號的特征,但發佈的回復卻和真人毫無二致,該如何判斷它的真偽?


相關推薦

2024-03-17

本周有開發者發現蘋果已經將所有開源項目遷移至微軟的GitHub平臺,蘋果不再自建開源代碼托管平臺。說不合邏輯的並不是蘋果把開源項目遷移至GitHub,而是蘋果甚至都沒有在自傢網站做重定向,因此若通過Google或DuckDuckGo搜索

2023-12-06

還隻是他的冰山一角。我怎麼都沒想到, Sindre 居然還是 Github 上擁有最多星星( 收藏數 )的人。他最知名的項目收藏數高達 27 萬, GitHub 全站第三。手上在維護的 npm 包有 1200 多個,不光是 Webpack、 Babel 這類流行工

2022-09-02

日前,開源項目托管平臺GitHub宣佈將於9月30日關閉Trending(趨勢)功能,原因是rendingRepositories和TrendingDevelopers的使用率較低。據悉,Trending(趨勢)旨在幫助開發者可以很容易地找到一些有潛力的開源項目。其中,Trending Repositori

2022-11-16

站長之傢(ChinaZ.com) 11月16日 消息:近期,GitHub 發佈2022 Octoverse 報告。報告顯示,JavaScript、Python、Java、TypeScript 和 C# 是 GitHub 項目中使用最廣泛的編程語言。根據報告, GitHub 上的頂級編程語言榜單保持穩定,除 PHP 被 C++ 超越,從

2022-09-10

的商業模式都還沒有形成 ——Stable Diffusion 僅是一個在 GitHub 上對外開源的免費項目。創始人向外界表示,對此不用擔心,因為他們已經和政府等機構達成合作。開放?營利?Stable Diffusion 的爆火,主要靠的是足夠開放。和 Dall・

2023-05-11

t和f0。接下來就能開始訓練和推理。具體的步驟可以移步GitHub項目頁查看(指路文末)。值得一提的是,這個項目在今年3月上線,目前貢獻者有25位。從貢獻用戶的簡介來看,很多應該都來自國內。據說項目剛上線時也有不少漏

2023-01-29

開源”谷歌,竟然連開源主管也給裁。隨著更多裁員細節曝光,不少谷歌開源項目辦公室OSPO和其他開源工作的高管已經被裁。其中甚至還包括開源運動“先鋒”,18年前創立OSPO, ChrisDiBona;Samba聯合創始人、現年61歲程

2024-04-04

著腳本實驗室將不再是一個開源項目。因此,該插件的 GitHub 資源庫將被歸檔。博文稱:我們理解你們中的一些人可能會對這些更改感到失望,我們感謝你們的反饋和支持。我們相信,這些更改最終將使腳本實驗室社區受益,並

2022-07-25

大的開源軟件基金會Apache、全球最大的開源代碼托管平臺Github不得不發佈公告,稱受政策影響,服務可能受到影響:Apache:“除非經美國政府正式授權,否則ASF軟件/技術數據不得直接或間接出口/再出口到受美國禁運或貿易制裁

2023-09-09

學會關註項目在其網站上發佈構建包時的監管鏈,解從 GitHub 倉庫到軟件包發佈網站再到個人設備的整個過程,解哪些環節可能存在不適當的幹擾。在復雜的企業環境中,供應鏈變得日益復。因此,OpenSSF 推出兩項技術,以防止

2022-08-11

其旨在簡化各個組織機構之間的數據共享。截圖(來自:GitHub)亞馬遜雲服務(AWS)首席信息安全官辦公室主任 Mark Ryland 表示 —— 該項目背後的想法,是為不同的安全工具,提供一種通用的數據共享。我們收到越來越多的客戶

2023-04-14

經是全球最受歡迎的開源機器學習社區和平臺,不僅創下GitHub有史以來增長最快的AI項目記錄,估值也一路沖破20億美元。近期,微軟和浙江大學聯合發佈的一篇關於HuggingGPT的論文更是把Hugging Face推到舞臺中心,也讓更多人關註

2023-03-16

制裁,在開源世界中引起有趣的問題。幾天前,ipmitool在GitHub上被歸檔/暫停,原來是由於目前的維護者與一傢俄羅斯科技公司有關聯,另外,現在有一個被選中的俄羅斯開發者的Linux內核貢獻被阻止。由於許多開源項目允許使用

2022-10-19

微軟於2018年以75億美元收購GitHub,之後一直努力將該代碼托管平臺與自傢開發人員工具深度整合,同時盡力維持GitHub的獨立運營。然而在作傢、律師、兼程序員MatthewButterick看來——該公司力推的GitHubCopilot人工智能編程輔助工具