微軟於2018年以75億美元收購GitHub,之後一直努力將該代碼托管平臺與自傢開發人員工具深度整合,同時盡力維持GitHub的獨立運營。然而在作傢、律師、兼程序員MatthewButterick看來——該公司力推的GitHubCopilot人工智能編程輔助工具、及其對開源許可證的處理方式,仍存在著相當大的問題。
(傳送門:Matthew Butterick / GitHub Copilot 調查)
據悉,GitHub Copilot 能夠根據用戶輸入而提供代碼“建議”,輔以適用於 Visual Studio 和其它集成式開發環境(IDE)的功能插件。
基於 AI 的系統,由 Codex 提供支持。但對於 Matthew Butterick 等開發者來說,人工智能的訓練方式,已經引發極大的爭議。
OpenAI 的說法是,Codex 被投喂“數千萬個公共存儲庫”—— 其中就包括 GitHub 上的代碼 ——然而微軟卻含糊地將訓練材料描述為“數十億行公共代碼”。
Copilot 研究員 Eddie Aftandilian 在最近的播客(@ 36:40)節目中證實 —— Copilot 正在 GitHub 的公共存儲庫上展開訓練。
問題在於,GitHub 訓練的這些公共存儲庫是經過許可的,並且在使用存儲庫中的代碼時需要署名。另一方面,微軟一直對代碼的使用含糊其辭,辯稱有在“合理使用”。
但事實上,Copilot 不僅可以“提供建議”、甚至經常照搬全抄 —— 正如德克薩斯農工大學教授兼 GitHub 用戶 Tim Davis 指出的那樣。
對於像 Matthew Butterick 這樣處於社區意識而貢獻開源代碼的程序員們來說,微軟正在構建一個新的花園圍墻、並將妨礙程序員在傳統開源社區的開拓與發現。
就算往輕說,GitHub Copilot 也會打消許多開源貢獻者的念頭。隨著時間的推移,曾經繁盛的社區將黯然神傷,因為用戶的註意力和參與度都會向 Copilot 構建的圍墻遷移。
那樣大傢會逐漸偏離開源項目本身 —— 遠離他們的源碼庫、問題追蹤報告、郵件公告列表、以及討論板 —— 對開源社區來說,這樣的能量轉變、將是一個痛苦且永久的損失。