GitHub 被“GitHub Copilot”倒逼成为开源项目?

开发 前端
GitHub 在上周推出了一个名为"GitHub Copilot"的工具,此工具使用了机器学习技术来提供代码建议/自动补全,并因此引发了不小的争议。原因是许多开发者认为,GitHub Copilot 宣称的基于公开代码训练其实是在未遵循开源许可证的情况下,肆意“抄袭”开源代码。

GitHub 在上周推出了一个名为"GitHub Copilot"的工具,此工具使用了机器学习技术来提供代码建议/自动补全,并因此引发了不小的争议。原因是许多开发者认为,GitHub Copilot 宣称的基于公开代码训练其实是在未遵循开源许可证的情况下,肆意“抄袭”开源代码。

[[409504]]

个别比较激进的开发者为了抗议 GitHub 未经授权和许可便使用受版权保护的源代码作为 GitHub Copilot 的训练数据,宣布弃用 GitHub。

在众多的质疑和批评声中,被讨论较多的一个问题是:如果 GitHub Copilot 的训练模型使用了遵循 GPL 的软件进行训练,那么会发生什么?

题为"Is GitHub a derivative work of GPL'd software?(GitHub 是 GPL 软件的衍生作品吗?)"的博客文章描述了对这个问题的一些想法。下面是对这篇文章的一些整理。

GPL 的一系列许可证被认为是"Copyleft"许可证,其特点是具备“传染性”。特别是,Copyleft 作品的常见特征是要求“衍生作品”使用与原始 Copyleft 许可相同的条款发布其新作品。

这就引申出了一个有趣的法律问题:机器学习系统生成的作品,甚至是机器学习系统本身,是否属于“投喂”给训练模型的数据的衍生作品?如果答案为“否”,是不是意味着可以把 GitHub Copilot 作为一种手段,借此将自己想使用的 GPL 代码进行“清洗”,从而达到无需遵循其许可协议的目的。

但是,如果答案为“是”呢?也就是说机器学习模型生成的作品属于输入数据的衍生作品,这样一来,GitHub 本身也就可以被认为是 Copyleft 软件的衍生作品。因为 GitHub 的博客文章在说明"Copilot"的训练数据时,曾发表如下的表述:

“在 GitHub Copilot 的早期开发过程中,作为内部试用的一部分,近 300 名员工在日常工作中使用了它。”

如果 300 名 GitHub 员工将 Copilot 用作其日常工作流的一部分,他们很可能已将 Copilot 生成的代码整合到 GitHub 的几乎所有软件资产中,后者为用户提供了 Web 服务。如果训练模型是在遵循 AGPL 的软件上进行训练,并且 Copilot 使用该模型创造了一个衍生作品。那么,所有 GitHub 用户有权根据 AGPL 的条款获得 GitHub 的源代码副本——亦即倒逼 GitHub 被迫成为了一个开源项目。

事实上,这里面还涉及到了机器学习的伦理问题,被纳入机器学习训练数据的内容的所有者应该有什么权利?

举个例子,如果我想发表一个不希望被纳入训练模型的作品,或者说如果自己的作品被用于训练模型,但能让公众有权访问此模型,是否可以实现?是否应该允许我这样做?如果被使用的作品是我的个人信息,并且在我不知情或未经同意的情况下被收集,怎么处理?如果这些被收集的信息被服务商滥用,甚至是用在一些对自己不利的场景,比如在做贷款决定时,怎么办?如果它被用来做违背整个社会利益的事怎么办?

本文转自OSCHINA

本文标题:GitHub 被 "GitHub Copilot" 倒逼成为开源项目?

本文地址:https://www.oschina.net/news/149133/is-github-a-derivative-work

 

责任编辑:未丽燕 来源: 开源中国
相关推荐

2022-11-30 21:45:06

2021-07-05 10:00:17

GitHub代码AI

2021-10-27 10:07:59

GitHub代码开发者

2018-12-19 15:15:24

开源Github

2022-01-10 16:25:18

GitHub语言开源

2021-08-10 11:26:04

GitHub代码开发者

2023-10-04 08:07:06

CopilotGitHub

2021-10-05 12:33:54

开源

2013-08-29 09:37:18

GitHub开源项目

2023-05-16 08:47:39

2020-03-23 13:40:48

GitHub代码开发者

2019-08-13 09:45:45

GitHubJavaScript开发者

2021-05-26 09:35:22

Github开源项目

2020-11-09 14:26:30

GitHub 技术开源

2021-01-05 10:27:02

GithubPython开源项目

2023-10-13 13:11:26

大数据技术开源

2018-11-28 09:20:42

GitHubJava开源项目

2019-12-26 15:31:17

腾讯框架开源

2013-07-17 10:16:57

Github项目许可证

2023-05-03 21:42:02

Github开源项目
点赞
收藏

51CTO技术栈公众号