生成式人工智能训练数据的治理与构建-中国知识产权杂志

生成式人工智能训练数据的治理与构建

曹伟西南政法大学民商法学院教授

万靖瑜西南政法大学民商法学院硕士研究生

摘要：在训练数据的处理与使用过程中，已经大量出现了数据歧视、算法偏见、信息泄露以及侵犯他人著作权等问题。我国应当高度重视训练数据的规制困境，结合国内外训练数据治理领域的司法实践与探索，尽快建立我国的训练数据治理架构。

自2022年11月30日OpenAI研发的聊天机器人程序ChatGPT（Chat Generative Transformer）发布以来，生成式人工智能（Generative AI）技术得到了迅速推广。学界与实务届对此热议不断，社会普遍呼吁对生成式人工智能技术加强规制。在综合各界意见后，我国从中央层面由网信办、发改委、教育部、科技部、工信部、公安部、广电总局七部委联合发布《生成式人工智能服务管理暂行办法》（下称《暂行办法》）。《暂行办法》是全球首部生成式人工智能领域的规制法案，有力推动了我国人工智能法律体系的建立。

目前，社会关注热点大多只聚焦于人工智能生成技术的各种新颖的应用场景，以及由此对现有经济生活造成的冲击和影响。然而，在关注人工智能生成技术的输出端的同时，对人工智能生成技术的输入端——训练数据的治理却乏人问津。

在数字经济时代，数据的价值日益彰显。自奥巴马时代起，美国政府就将大数据定义为“未来世代的新石油”。目前，生成式人工智能在极具产业应用价值的同时，其极端依赖训练数据的投喂与处理，也是一个不容忽视的客观事实。在训练数据的处理与使用过程中，已经大量出现了数据歧视、算法偏见、信息泄露以及侵犯他人著作权等问题。我国应当高度重视训练数据的规制困境，结合国内外训练数据治理领域的司法实践与探索，尽快建立我国的训练数据治理架构。

训练数据的界定

数据内涵及来源

生成式人工智能服务首先需要海量的数据作为分析基础，这些数据就来源于训练数据。在某种意义上，训练数据就是抚养生成式人工智能这个“孩子”不断成长所长期需要的必备“粮食”。

何谓“训练数据”？分析训练数据的具体定义，需要先了解数据挖掘的含义。数据挖掘（Text Data Mining，TDM），是指利用人工智能、机器学习、统计学以及数据库等技术，自动化分析数据的模式趋势，并提炼分析文本内容以及其他有价值的信息。换言之，数据挖掘是一个以计算机为基础，从文本或数据导出或组织信息的过程。[1]训练数据是指在数据挖掘的过程中，用于训练数据挖掘模型的数据。训练数据具有类型的多样性、数量的海量性以及质量的高精度等特点。以ChatGPT为例，其训练数据主要来源于维基百科（Wikipedia）、期刊杂志（Journals）、Common Crawl、书籍（Books）、Reddit社交新闻站点和其他数据集。[2]训练数据普遍应用于生成式人工智能，丰富的训练数据在客观上为生成式人工智能技术的广泛应用奠定了数据基础。

常见应用场景

生成式人工智能技术的工作原理，大致可分为三个阶段：数据输入、智能处理、结果输出。目前最为流行的生成式人工智能应用——ChatGPT，就是通过用户输入、购买数据库以及数据爬取的方式收集数据，然后删除不必要的信息，再通过数据筛选，对数据进行注释以及标记以预处理数据，为后续机器学习提供训练数据，最终经过处理产生出各种各样的反馈结果。与ChatGPT一样，百度开发的“文心一言”系统也需要通过数据爬取等技术投喂大量的数据，对其中的数据进行分析；在用户输入内容时，再结合系统内部的训练数据库得出相应的反馈。由于文心一言的知识增强和检索增强技术，再加上训练数据库中累积的5500亿的知识信息，其所得出的结论的正确性程度较高。由此可知，训练数据为生成式人工智能技术所必需的数据投喂和机器学习提供了海量的数据模型，而训练数据的正确性与准确性也影响着生成式人工智能技术的结果与反馈，间接决定了这个领域的产业应用效果和未来发展趋势。

构建训练数据治理体系的必要性和迫切性

构建训练数据治理体系的必要性

正如上文所言，人工智能生成技术不仅涉及输出数据的应用场景，同时也涵盖了输入端的训练数据处理活动。当下，人工智能生成技术已经开始渗透进入人们生产、生活以及社交、学习的方方面面。无论是ChatGPT还是文心一言，训练数据的数量和质量都实质性影响着其生成内容的效果。

保障数字经济的可持续发展，关键在于数据本身获得一个良好的治理规制体系的支撑与保障。然而，我国当下的规则体系并没有明确数据的权属，对于数据的各类规定散见于各种法律法规和政策文件之中。涉及数据的立法凸显出不完整、不系统的明显特点。各类数据之间不成体系，各种数据使用缺乏规则，致使数据权利体系与数据高效便捷流通的内生要求不相匹配，在很大程度上对训练数据的运用和发展形成了重大牵制和阻碍。在现阶段，“我们所能看到的事物都是单独的个体，倘若我们不将不同的个体联系起来、找出它们的共同点，我们就无法真正地认识世界。这种验证共同点、寻找共同点的正确性的思维方法，就是体系化的方法。”[3]训练数据治理机制的体系化建设，显然有利于促进数字经济尤其是生成式人工智能服务的更优质发展。

构建训练数据治理体系的迫切性

其一，维护公众隐私。

个人数据涉及个人隐私，在数据产生价值的同时，个人数据保护已经成为世界各国共同面对的难题。OpenAI这类生成式人工智能科技企业为充实其背后的数据库，普遍使用网络爬虫等技术手段大规模获取个人数据，以此形成其训练数据库。这就必然在一定程度上侵害社会成员的隐私权。此前已经有媒体报道：OpenAI从Spotify收集音乐偏好，从Snapchat收集图像和位置数据，从Stripe收集财务信息，以及在Slack和Microsoft Teams上收集私人对话。[4]随着我国社会经济的发展，人们对个人隐私的保护意识越来越强。在生成式人工智能大规模应用的时代，在其投喂的训练数据中维护公众的个人隐私尤为必要。

其二，促进数字经济的可持续发展。

数据的商业价值毋庸置疑，而数据的质量更是数据产业的关注重点。为了有效应对以数据为核心的产业变革以及科技创新，我国应当以数据质量为抓手，切实优化数字经济的发展。高质量数据的运用依赖于良好的训练数据治理体系。当前的人工智能生成技术，已经充分展现出高质量训练数据能够在产业运用中发挥叠加倍增的良好作用，大模型训练数据和其输出结果将会成为未来社会发展中至关重要的数据资产，其有序流转以及体系化也是数字经济发展的应有之义。[5]

我国现行训练数据治理体系的不足

训练数据的安全性问题

其一，网络爬取训练数据容易失控。训练数据重要的获取途径之一是通过网络数据爬取技术自动获取。然而，网络数据爬取技术却存在失控的风险。几乎没有企业可以有效控制和选择其所要爬取的数据，通常都是将网站上全部已呈现的数据都爬取下来，作为自己的训练数据库。而这种不加控制的数据爬取行为，虽然能够迅速大量的获取训练数据，但也常常会导致侵犯他人隐私的结果发生。2023年6月28日，美国消费者发起集体诉讼起诉OpenAI公司，其核心诉由就是认为ChatGPT通过盗用公众的私人信息运行，这些被盗用的信息来源于包括儿童在内的数亿网络用户；OpenAI公司并未获得其许可就非法使用此类信息作为其训练数据。[6]该集体诉讼很典型地反映了网络数据爬取技术的不规范，这种不规范为训练数据来源的合法性埋下了重大隐患。技术虽然是中立的，但技术的运用应当受到规制，对于技术运用所获结果的运用，更需细加讨论。

其二，个人信息可能泄露。

生成式人工智能服务的运行需要大量训练数据，而这些被自动收集的数据中通常都包含了网络用户的个人信息，如姓名、联系方式、地址等。对于这部分数据，如果不使用脱敏技术手段予以保护，这些数据所指向的用户就会面临隐私受到侵害的可能；其中的部分隐私信息如金融信息等，还可能导致财产经济受损等不测事件。

其三，训练数据的真实性遭遇质疑。

海量数据是生成式人工智能技术运用的基础前提，更是其优势所在，但同时也存在弊端。一方面，通过爬虫等技术手段获取的数据，固然其大部分都是确切真实的，但仍然有部分数据的真实性存疑。技术在获取优质数据的同时，也会获取劣质数据。另一方面，相关研究人员还发现，到了训练数据分析阶段，在机器训练活动中，如果人工智能编造信息，不论其是出于主观故意还是客观失误，普通公众都难以及时发现，更遑论准确甄别了。

人工智能技术并不是万能的，太过相信AI甚至会给人们造成重大损害！波音737max坠机事件便是人工智能剥夺人类控制权后所引发的一出悲剧。波音737 max为了纠正机头仰角过大的问题，设置了由人工智能技术自动进行角度调整的权限。但由于缺乏监控及应急机制，当人工智能出现程序错误的时候，人类飞行员的操控权限反而被剥夺，飞行员无法夺回被智能机器所控制的飞机驾驶权限，最终导致飞机在人工智能的错误操控下坠毁。

正是在这种背景下，《暂行办法》才明确规定了生成式人工智能服务提供者在训练数据处理活动中，必须采取有效的措施提高训练数据的质量，增强训练数据的准确性、真实性、多样性、客观性。

其四，数据歧视不容忽视。

生成式人工智能技术需要训练数据的投喂，然而这个环节需要面对一定的不可控性，出现关于性别、宗族和种族的偏见和歧视内容几乎是必然的。这些内容在训练数据的形成和使用过程中，往往很难被及时有效地过滤和删除。

例如，此前在韩国爆火的人工智能聊天机器人Lee Luda，就因为部分用户在与机器对话的过程中故意输入污秽和暴力言语，Lee Luda在训练数据的过程中也未能剔除这部分数据，最终导致其生成出存在种族歧视、性别歧视、弱势群体歧视的不良内容。Lee Luda因此广受诟病，最终在上线一个月后中断了服务。[7]

训练数据的版权问题

与人脑创作往往需要借鉴前人类似，人工智能的“创作”也需要获取大量的存量信息。但与人脑创作不一样的是，人工智能“创作”所需要的素材不再是传统形式的文字、图片、视频等，而是以数据的方式呈现的数字化作品。[8]获取相应的数字化作品后，人工智能系统会对其进行分类以及整理，分析作品的中心思想、情感、语言风格等，然后从中提取出相应的规则、结构、模式、趋势等，再结合相应的场景进行输出。[9]但是，在以上训练数据的过程中，必然要对作品进行复制，且需要对所收集的数据进行标注、标准化处理与特征提取等步骤；此时，若没有取得授权，将存在侵犯他人复制权、改编权等著作权的风险。[10]

实际上，对于将他人享有著作权的作品作为生成式人工智能训练数据是否构成侵权，目前还存在很多争论。《暂行办法》第七条明确规定：“生成式人工智能服务提供者（以下称提供者）应当依法开展预训练、优化训练等训练数据处理活动：……（二）涉及知识产权的，不得侵害他人依法享有的知识产权。”但是，该条款也并未给出上述争论的答案。对于在训练数据中使用版权作品究竟侵犯了著作权体系中的哪种权利，至今也并未形成通说。

中国训练数据治理模式的构建

构建训练数据合理使用制度

获取信息与共享知识是数字经济发展的两大主题。对于生成式人工智能技术而言，其在训练过程中涉及到大量文本数据的使用，主要包括用户输入的内容和训练数据库。[11]然而，如果数据都遵循“用必授权”的原则，将会大大降低数据的流通效率。为了促进科技的发展、确保数据的流通和运用、平衡著作权人利益和公共利益，我国必须构建训练数据的合理使用制度。

美国以及欧盟的数据挖掘合理使用规则，对我国训练数据合理使用制度的建构具有借鉴意义。根据欧盟《版权指令》的规定，具有“数据分析”目的的数据挖掘，其在数据获取与处理阶段具有合法性，即使出于商业性目的也同样如此。当然，这只是针对数据获取和处理阶段中的复制以及提取行为规定了合理使用，并没有对其他使用行为进行明确说明。

美国虽然没有明确通过立法将数据挖掘列入合法使用的范围，但在“谷歌图书馆”案中，美国联邦第二巡回上诉法院认为，谷歌公司未经授权就将他人享有著作权的书籍进行扫描、设立有关搜索功能并将上述书籍的内容在互联网上显示的行为，构成转换性使用，属于不侵害著作权的合理使用行为，并不会对原作品构成实质性替代。[12]该案所涉及的被诉行为，与生成式人工智能对训练数据的使用行为有着异曲同工之妙。生成式人工智能对训练数据的使用行为，显然也存在构成“转换性使用”的较高可能性。

我国《著作权法》若将训练数据的获取活动纳入合理使用制度的兜底条款予以规制，必将极大促进训练数据的优质、高效获取；但同时，《著作权法》也应限定训练数据来源的种类以及使用方式，只有不涉及公民个人隐私、用途仅限于数据分析、不会对原作品造成替代性影响结果的训练数据，才能满足合理使用的要求。

设立数据托管机构

目前的数据活动主体主要包括数据主体（即用户）、数据处理者以及数据使用者，国家有关部门分别对其进行监管。作为商业机构的数据处理者往往具有技术和市场优势，可以轻而易举地获取各种数据，垄断数据的输入与输出，这对于国家监管机构而言无疑是一个“黑箱”。[13]数据使用者则通过支付对价，从数据处理者手中获取数据产品以及服务。在上述体系中，数据主体总是处于弱势地位，因为用户们虽然产生了原始数据，但并不能因其转移原始数据给数据处理者而获得相应的利益。为了改变传统的以数据处理者为中心的数据产业格局，可以考虑引入数据托管机构，分离数据的使用、存储和管理职责，由专业的第三方数据托管机构承担数据存储的义务，监督数据处理者的数据活动，并分配数据权益。[14]

生成式人工智能的数据处理者也存在垄断数据牟利的可能性，因此，更要加强对其训练数据的源头管控。数据托管机构恰好可以成为加强训练数据监管的有力抓手，进一步落实对生成式人工智能的监督。[15]至于数据托管机构，在最理想状态下应为可信的非营利性公共机构；若其为商业平台，则很可能为了营利而偏离设立的初衷。

非营利组织知识共享（Creative Commons）为了平衡版权保护和知识传播推出了许可证模式，试图以一种较为简单、自由及标准化的版权授予方式，在允许他人复制、使用和分发作品的同时，确保著作权不受侵害。[16]数据托管机构完全可以参照这种许可证模式建立。

小结

生成式人工智能作为一种新型智能技术，在各行各业的应用前景势头强劲，将会极大地影响数字经济的发展。当下，各国均高度重视生成式人工智能领域的发展。然而，对于生成式人工智能的输入端——训练数据的规制，仍是世界各国面临的共同问题。我国应把握机遇，尽快建立完善的训练数据治理体系，大力推进训练数据的立法规制，为全球生成式人工智能的监管提供有益的参考范式。

注释：

[1]宋海燕、陈佩龄.浅析ChatGPT训练数据之合理使用，载于https://mp.weixin.qq.com/s/KDHwR_l2A-HOElllka5kpg，发布时间：2023年4月25日。

[2]姚前.ChatGPT类大模型训练数据的托管与治理[J].中国金融,2023(06):51-53.

[3]李琛.论知识产权法的体系化读书笔记[M]. 北京：北京大学出版社，2005 ：16.

[4]ChatGPT因抓取个人数据而遭到集体诉讼，载于https://mp.weixin.qq.com/s/xQ4H6E6suJ7Rht8KKKoUvg，发布时间：2023年7月3日。

[5]同注2。

[6]同注4。

[7]徐赐豪等.ChatGPT热潮之下，虚假新闻、算法歧视、信息泄露的法律风险你了解吗？，载于https://mp.weixin.qq.com/s/pV1ZRmA7qkyGEaXJdeLO6w，发布时间：2023年3月8日。

[8]焦和平.人工智能创作中数据获取与利用的著作权风险及化解路径[J].当代法学,2022,36(04):128-140.

[9] 同注8。

[10] 英国、欧盟、美国如何规制ChatGPT训练数据？，载于Internet Law Review公众号，https://mp.weixin.qq.com/s/Rh3cqZeePZaBueZ342rdLQ，发布时间2023年5月8日。

[11] 同注1。

[12] Authors Guild v. Google, Inc., 4F., 3d 202,209(2015).

[13] 同注2。

[14] 姚前.数据托管促进数据安全与共享[J].中国金融,2023(02):23-24.

[15] 同注14。

[16] 同注14。

免责声明：凡本网注明"来源：XXX（非中国知识产权杂志出品）"的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件，意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布，可与本网联系，本网视情况可立即将其撤除。新闻纠错：13621279650 13621252760，邮箱：chinaip@chinaipmagazine.com

2023年6月（总第196期）

文章排行

生成式人工智能训练数据的治理与构建

总第196期,曹伟万靖瑜发表,[其他]文章

会员留言

全球知识产权服务机构
查询及评价系统

文章检索

专访

在线调查

据悉，正在修订中的《专利法》四修，拟将恶意侵权专利赔偿额度从原有的最高三倍上限调整到最高五倍，五倍赔偿已经是目前世界上最高的赔偿额度，对此，你有什么看法？