摘要:研究人员发现,GitHub 上 4.28 亿文件中只有 8500 万是唯一的。

Github重复代码图

X轴:文件,Y轴:提交数,颜色越重表示重复代码越多

GitHub 的一个使命是共享代码,所以发现其平台上重复代码比例高达七成并不是不令人吃惊的事情。8 名研究人员组成的国际团队原计划并不是测量 GitHub 上的重复代码,而是调查不同克隆库之间的文件差异,结果发现了惊人比例的文件级复制,因而改变了研究方向。
研究人员发现,GitHub 上 4.28 亿文件中只有 8500 万是唯一的。研究报告发表在 OOPSLA SPLASH 会议上。JavaScript 是克隆最多的环境,94% 的 JavaScript 文件是复制的;73% 的 C++ 文件是重复的,而 Python 程序则是 71%。Java 是其中最独特的,但重复比例也达到了 40%。