生成式人工智能数据训练知识产权合法性问题探讨-中国知识产权杂志

生成式人工智能数据训练知识产权合法性问题探讨

张平北京大学法学院教授北京大学人工智能研究院双聘教授

我国目前的生成式人工智能技术创新还处在初级阶段，法律法规的制定应当给科技创新留有一定的发展空间，对于产品在研发阶段的数据合法性要求，应当根据数据类型和基本伦理要求，采取开放包容的规范原则。

国家互联网信息办公室近日发布的《生成式人工智能服务管理暂行办法》（下称《办法》）第七条规定：“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动，使用具有合法来源的数据和基础模型；不得侵害他人依法享有的知识产权；涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形；……”该条款的主要目的是规范生成式人工智能服务提供者数据来源的合法性问题，这也是当前全球范围内生成式人工智能数据合法性的焦点问题。

数据来源合法性是生成式人工智能产品合规的必要条件，若数据来源不合法不合规，该产品将无法进入市场应用阶段。在目前我国已经实施《网络安全法》《数据安全法》《个人信息保护法》的背景下，生成式人工智能产品的训练数据以及后续的商业应用，必须符合这些法律中对个人信息、数据安全和知识产权的合法性要求。但是，如果在生成式人工智能研发阶段就严格执行合法性标准，就会限制大数据的广泛采集，阻碍研发进程，影响高品质、高智能产品的诞生。所以，《办法》第三条也提出了“坚持发展和安全并重、促进创新和依法治理相结合的原则，采取有效措施鼓励生成式人工智能创新发展，对生成式人工智能服务实行包容审慎和分类分级监管”的基本原则。我国目前的生成式人工智能技术创新还处在初级阶段，还没有形成有竞争力的产品，法律法规的制定应当给科技创新留有一定的发展空间，对于生成式人工智能产品在研发阶段的数据合法性要求，应当根据数据类型和基本伦理要求，采取开放包容的规范原则。

从目前世界上的各种智能生成产品来看，美国的ChatGPT已经领先并将成为生成式人工智能产品的“基础设施”，国内许多领域的衍生产品都是基于这一“基础设施”展开研发的。我国要在这一领域有所突破创新，一定要有相对宽松的法律政策环境和技术生态建设，吸取传统信息产业领域软件和芯片技术“受制于人”窘境的教训，利用我国独有的数据红利以及政策环境，快速形成自主可控的生成式人工智能基础技术体系。

生成式人工智能数据训练的需求及知识产权风险

生成式人工智能数据训练的需求体现在数据数量、多样性、质量、领域特定性、多模态性、实时性、长期演进性、平衡性、合规性以及多语言性等方面。满足这些需求，可以帮助生成式AI模型更好地适应各种场景和任务，提高其性能和可应用性。

生成式人工智能的数据来源合法性，主要是指生成式人工智能收集的数据是否以合法、正当的方式取得，是否无损数据权益人的权益，是否取得相关知识产权所有者的同意，在处理个人信息时是否取得了个人信息主体或其他数据权利人的同意等。因此，判断数据来源的合法性时，一方面需要注意数据是否具有受保护的权益，另一方面需要注意是否以合法、正当的方式取得收集、处理数据的权利。

生成式人工智能的数据来源主要分为两个部分：第一部分为生成式人工智能的训练数据库，内容几乎涵盖所有能收集到的人类数字化信息，包括公共数据、网络信息（文本、图片、音视频）、数字化图书、自媒体对话数据集、报刊杂志、科学论文等；第二部分为生成式人工智能在服务用户的过程中所收集和输出的信息，也就是人工智能合成数据。第一部分的数据收集往往可能遭遇知识产权瓶颈；第二部分的数据收集的传统知识产权风险较少。此外，当人工智能生成物在未来受到法律保护时，也可能继续面临不同的生成式人工智能产品之间的相互数据学习所带来的知识产权问题。数据库训练的数据来源，经历了从零星的、开放的、无著作权门槛的数据，到科技文献、优秀作品、精英观点等，其中涉及的数据信息是海量的。数据库训练的不同来源有不同的法律风险，可归纳为以下三个方面：一是来自于公有领域的内容，本身已经不存在著作权财产权保护问题，但会涉及署名权、修改权等人身权问题；二是通过与著作权人一对一签订授权协议或者通过著作权集体管理机构合法授权获得的内容，但这部分内容通常也难以做到百分百的准确授权；三是利用“爬虫”技术爬取的网络信息，这也是生成式人工智能技术最常用的数据收集手段，其爬取的内容受网络爬虫协议条款约束，应视其具体使用目的和对象判断是否合法，若出于商业产品开发使用目的，一般会受到限制。[1]

AI开发者需要在数据训练中认真评价内容获取行为，分别根据内容获取阶段、内容输入阶段、内容输出阶段评估具体的著作权法项下行为[2]。在训练数据库的输入阶段和输出阶段，最大的著作权侵权风险是侵犯复制权和改编权。在输入阶段，如果将大量受著作权保护的作品用来训练人工智能，这本身看似出于学习目的，实则最终服务于商业目的，很难使用现有的著作权合理使用制度规避侵权责任。在输出阶段，如果生成的内容与原作品在表达上构成实质性相似，则可能侵犯复制权；如果在保留原作品表达的基础上形成了新的表达，则可能涉及改编权问题。

美国对人工智能研发过程中的知识产权问题，目前采取相对统一的价值指导和原则性规定予以处理，尚未出台具体规范。出于推动人工智能创新、审慎立法、防止法律与技术进步脱节等考量，美国对人工智能的规制采取“先产业发展后立法”模式，即在AI研发过程中不提及版权，而是依赖于社会舆论、企业自觉、司法和行政系统的事后回应来解决知识产权争议。例如，微软公司在研发人工智能系统的过程中，曾被质疑其行为可能涉及个人信息保护和知识产权问题，随后微软公司马上关闭了其AI人脸识别训练数据库的公众入口，自己则仍然可以使用该系统。此外，该数据库也被分享在开源平台上，且此前已经下载该数据库的企业也可以继续使用。美国国内尚没有明文法律可以直接规制微软公司的上述行为。[3]2023年7月，美国七大AI企业与拜登政府签署协议，承诺采取自愿监管措施管理AI技术开发的法律风险，包括展开安全测试、为AI生成内容添加数字水印、制定透明的隐私与知识产权保护政策等。[4]

多元化解决生成式人工智能数据训练来源的合法性问题

解决生成式人工智能所涉及的知识产权难题，需要使用多种制度工具，建立多元化解决机制，打造一套综合性解决方案。

借用早期互联网治理规则

生成式人工智能的发展可类比互联网治理，引入类似合理使用原则、避风港机制等规则。

合理使用原则：扩展著作权法中的合理使用原则，明确生成式人工智能在数据训练和输出过程中的合理使用标准。鼓励AI开发者在使用受版权保护的数据时，使其行为符合合理使用的要求，如非商业性用途、适度复制、不侵犯原作品的市场价值等。美国《版权法》采用“四要素分析法”来判断合理使用，对于人工智能使用作品作为训练数据的“转换性使用”解释，美国的司法实践已经作了探讨。我国《著作权法》规定了“个人使用”“适当引用”和“科学研究”等合理使用情形，但目前生成式人工智能的商业性应用难以符合这些规定。此外，还可适当扩展爬虫技术使用的合理性，特别是对于公开的网络信息内容，只要其属于通过搜索爬虫、在遵守爬虫协议的前提下获取的数据，则均可视为来源合法的数据。在这个过程中，爬虫技术无法识别被抓取内容的著作权问题，事实上，爬虫海量抓取时也无法逐一获得版权授权（类似搜索引擎）。如果事后有权利人主张权利，可再根据具体情景判定善意侵权责任。

避风港机制：避风港机制建立在网络服务提供商和内容平台与用户之间共同承担责任的基础上。类比到生成式人工智能领域，可以探索建立AI开发者与用户之间的责任分担机制。AI开发者应当尽力提供合法合规的训练数据，同时用户也应意识到使用AI模型的风险，并自行判断是否违法或侵权。避风港机制要求网络服务提供商和内容平台主动采取措施来监测和清除违法内容。在生成式人工智能的发展中，开发者应当建立有效的自我监管机制，定期自查模型的输出内容，以确保符合合规要求。类似避风港的投诉处理机制也可以在生成式人工智能的领域内建立。允许用户和权利人向AI开发者提出投诉，并及时处理和回应投诉，有助于解决潜在的违法和侵权问题。避风港机制还要求网络服务提供商和内容平台公布其对违法内容的审核标准和处理措施。在生成式人工智能的发展中，开发者应当公开透明地向用户和社会说明模型输出内容的规范和审核机制。

通过集体管理组织解决授权难题

著作权集体管理是目前法律框架下解决大量权利许可的一种比较可行的办法，也是国际通行的做法。我国目前已有音乐、音像、文字、摄影和电影五个著作权集体管理组织。人工智能研发机构可以通过这些著作权集体管理组织对特定作品进行著作权集体授权。我国《著作权集体管理条例（修订草案征求意见稿）》第四条也有提及。

因此，在生成式人工智能训练数据的著作权授权过程中，AI开发者可以通过著作权集体管理组织获得某一领域的作品授权，充分发挥著作权集体管理的保障效能，减少开发者的数据合法性风险。即使在无法判断某一作品权利人是否系著作权集体管理组织会员的情况下，也可以通过延展代理机制保证权利人的获酬机会，表达人工智能服务提供者尊重著作权的善意。

利用开放授权的数据资源

开放授权机制源于计算机软件领域的开源许可证，是一种对世的著作权开放授权声明，通过许可证约定使用者的权利和义务，目的是打破一对一的低效授权。在遵循许可证条件的情况下，使用者可以自由、免费地使用和修改作品。这种开放授权机制后来扩展到文档、图片、音视频领域。知识共享许可协议（Creative Commons license，简称CC协议）为传统作品的版权授权开辟了一条新路。

开放授权的共同点是：（1）承认著作权，要求署上原作者或著作权持有人的姓名，这是授权最基本的限制；（2）允许免费的私人使用和商业使用；（3）允许使用者修改及修改后再发布；（4）免责声明：原作者或著作权持有人不承担作品使用后的风险及产生的后果；（5）终止授权：一旦违反开放授权条件时，终止一切授权，回归传统的知识产权保护。

以主流的深度学习框架为例，目前，人工智能软件技术开发都使用开源许可证，主要有 MIT许可证、BSD许可证、Apache许可证等。训练数据库也应多使用开源资源，并推动更多科学作品的开放授权，推动生成式人工智能输出数据的开放许可。

结语

利益平衡是我国知识产权法律体系的一项重要原则。人工智能训练数据合法性问题，本质上是个人利益与公共利益冲突的体现。在个人利益方面，研发者、投资者、使用者、数据贡献者共同构成人工智能产品的开发成本和预估值，但这四者的资产、价值占比难以明确。如果缺少利益平衡原则，在利益分成时容易产生分歧。在公共利益方面，公众受益于智能科技产

品服务，由此感受到整体社会福祉的提升。同时，得益于传统知识产权体系的保障，创作者能够获得足够的法律保护，其知识产权价值能够保持长期稳定，知识产权成果能够在市场流通赋值。当人工智能时代到来，传统的知识产权规则再一次遇到挑战，必须随着利益再平衡的需求进行调整。唯有如此，才能实现《办法》的发展目标，推动人机良性互动的社会发展。

注释：

[1]参见宋海燕、陈佩龄：《浅析ChatGPT训练数据之合理使用》，载微信公众号“金杜研究院”，2023年4月25日，https://mp.weixin.qq.com/s/KDHwR_l2A-HOElllka5kpg；段志超、蔡克蒙、蒋海楠、邹奕：《从ChatGPT看生成式AI的合规挑战与应对》，载微信公众号“汉坤律师事务所”，2023年2月23日，https://mp.weixin.qq.com/s/RhHCrZeHiiKTdoeLybctng。

[2]在首例生成式人工智能数据训练版权侵权案（Getty Images vs. Stability AI）中，被告被指使用未经许可的版权作品作为训练图像，侵犯了权利人的版权。这种行为涉及内容输入和输出阶段的著作权问题。

[3]Microsoft quietly deletes largest public face recognition data set, from: https://www.ft.com/content/7d3e0d6a-87a0-11e9-a028-86cea8523dc2, last visited: 2023/08/02.

[4]《美国七大AI巨头签署协议：为AI生成内容加水印》，载微信公众号“国际法务”，2023年7月24日。

【本文属于国家社会科学基金重大项目“推进土地、劳动力、资本、技术、数据等要素市场化改革研究”项目成果

（项目号：21ZDA049），以及北京大学武汉人工智能研究院课题“生成式人工智能技术的法律规制”项目成果。】

免责声明：凡本网注明"来源：XXX（非中国知识产权杂志出品）"的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件，意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布，可与本网联系，本网视情况可立即将其撤除。新闻纠错：13621279650 13621252760，邮箱：chinaip@chinaipmagazine.com

2023年6月（总第196期）

文章排行

生成式人工智能数据训练知识产权合法性问题探讨

总第196期,张平发表,[其他]文章

会员留言

全球知识产权服务机构
查询及评价系统

文章检索

专访

在线调查

据悉，正在修订中的《专利法》四修，拟将恶意侵权专利赔偿额度从原有的最高三倍上限调整到最高五倍，五倍赔偿已经是目前世界上最高的赔偿额度，对此，你有什么看法？