数字经济时代Robots协议再思考

总第176期 张喆 郭凌云 新浪集团法务部发表,[专利]文章

Robots协议全称Robots Exclusion Protocol,意为“机器人排除协议”或“拒绝爬虫协议”。Robots协议对于业界而言可谓既熟悉又陌生:熟悉是因为该协议近三十年来一直是国内外各类网站之间关于信息抓取的通行技术规范,是互联网行业中著名的“君子协议”;陌生是由于该协议虽被国内外网站普遍遵守,但并未成为正式的行业标准,国内关于Robots协议的法律定位、如何正确评价网站设置Robots协议行为的正当性等问题的争论不绝于耳。随着互联网技术和产品形态的日新月异,在数字经济时代对Robots协议进行精准的法律定位,对于厘清网络信息和数据流通规则、维护互联网行业的竞争秩序具有重要价值。本文试结合已有的司法裁判观点,对数字经济时代下的Robots协议进行思考与分析。

Robots协议1.0时代 网站与搜索引擎的利益博弈

Robots协议最初是网站为限制搜索引擎的信息抓取而提出

互联网初期,网络用户只能定点找寻进入网站,获取网络信息的效率很低。上世纪90年代,搜索引擎诞生,使得网络用户能够凭借关键词快速找到所需信息,进入承载信息的网站进行信息获取,极大地提升了网络信息的流通效率,搜索引擎因此成为互联网信息流通显著区别于传统媒介的重要工具。旋即,多家搜索引擎服务运营商应运而生,搜索引擎服务成为互联网产业内一个重要的应用场景。

搜索引擎的核心模块一般包括网络机器人[1]、索引、检索和排序等,其工作原理是:先使用网络机器人对网站信息进行抓取;然后将所抓取的信息进行筛选提取,存入索引库;最后根据网络用户的搜索关键词快速从索引库中匹配结果,进行排序后向用户返回承载该搜索关键词的网站信息。可以看出,搜索引擎使用网络机器人进行数据抓取,是实现其基本功能的关键手段,目的是帮助网络用户更快更好地找寻到信息所载网站。对于网站来说,搜索引擎无疑是助其推广信息、带来流量、扩大影响力的重要帮手。

但矛盾很快产生。为保证信息更新的准确性和全面性,搜索引擎需要较高频次地使用网络机器人访问网站的全部公开网页进行信息抓取,加之搜索引擎服务运营商增加,网站不得不面临多个网络机器人高频次的访问压力,这给早期的网站带来了难以承受的服务器和带宽成本,让网站经营者在享受搜索引擎红利的同时也产生了不满。为解决这一问题,1994年,荷兰网络工程师首先提出了由网站设置Robots协议来提示和限制搜索引擎网络机器人的信息抓取。后经网络机器人设计者及爱好者共同商议,在实践中确立并推广开来。Robots协议的设置非常简单,不属于技术限制措施,只是以txt文本的形式在网络机器人访问网站初始即告知其允许和不允许抓取的网页范围,以期网络机器人遵守。在平等、协作的互联网精神下,Robots协议奇迹般地在全世界推行,并得到了绝大多数搜索引擎的认可和遵守,伴随网站度过了服务器和带宽资源紧张的时代,也使得搜索引擎产业得以顺利发展。

Robots协议不得限制特定的网络机器人?

国内互联网产业一直紧跟国际发展趋势,Robots协议很快被国内各类网站所使用,也得到了各家搜索引擎服务运营商的认同。2012年11月,就Robots协议的相关问题,中国互联网协会组织各会员单位制定了《互联网搜索引擎服务自律公约》,对Robots协议的定义和基本设置规则进行了探索和约定。同年,奇虎公司与百度公司之间就抢占搜索引擎市场份额引发“3B大战”。在双方互诉的多起案件中,法院对Robots协议的法律定位、设置规则等问题第一次进行了较为充分的评述,其主要观点有四条[2]:

第一,Robots协议是互联网领域自发形成的互联网行为秩序之一,是互联网领域的一种协作方式,已经成为搜索引擎企业普遍遵循的行业惯例和商业规则;

第二,Robots协议是技术规范、单方宣示,属于非技术措施;

第三,Robots协议与其说是对搜索引擎的限制,不如说是一种善意的指引,其目的是为了告知搜索引擎的网络机器人哪些信息没有必要抓取,从而引导其抓取对网络用户有用的信息;

第四,在缺乏合理、正当理由的情况下,网站以对搜索引擎经营主体区分对待的方式,限制搜索引擎抓取网页内容,具有不正当性,将损害搜索引擎经营者合法权益和相关消费者的利益,妨碍正常的互联网竞争秩序,构成不正当竞争行为。

上述裁判观点肯定了Robots协议的法律定位,但同时让网站经营者陷入了一种困惑,即网站设置Robots协议时,似乎不能限制某个特定的网络机器人抓取网站信息和数据,而只能限制网络机器人的抓取范围。互联网行业经过三十年的发展,网站规模与用户量早已不是上世纪90年代可以比拟,在网站访问量动辄以亿计的当下,网络机器人带来的访问压力已经不再是网站对其限制的主要原因,网站设置Robots协议的主要目的已经发生变化。如果延续这种“不得限制主体、只能限制范围”的规则困惑,Robots协议的功能将被大为削减,也将在在当今互联网环境中失去设置意义,从而退出互联网历史舞台。

困惑显然广泛存在。在今日头条与微博关于Robots协议的诉讼纠纷中,今日头条主张微博设置Robots协议限制今日头条的网络机器人“ToutiaoSpider”抓取微博数据,属于对特定网络机器人的限制,从而具有不当性。一审法院直接参照了前述奇虎公司与百度公司Robots纠纷案的裁判观点,将《互联网搜索引擎服务自律公约》作为案件中判断微博设置Robots协议正当性标准的参考,认为微博对特定机器人的限制构成不正当竞争[3]。

Robots协议2.0时代 私有权益与公共利益的平衡

网站对于经营积累产生的信息或数据享有合法权益,对合法权益的处置属于经营自主权范畴

随着互联网产业的发展,全球正进入数字经济时代,数据已经成为企业重要的生产要素和竞争资源。近年来,互联网数据领域的法律纠纷日益增多,被控侵权的一方通常是使用包括网络机器人在内技术手段,对网站中的信息、数据进行抓取,然后以各种方式使用于自身产品之中。这类直接掠夺网站竞争优势资源的行为遭受了国内互联网各领域经营者的强烈抵制,餐饮点评领域的大众点评、电商领域的淘宝、社交媒体领域的微博、短视频领域的抖音都因不同类别的数据被抓取而起诉维权。2017年7月,十余家国内主流互联网企业共同发布《中国网络版权与数据信息使用规则及竞争规范》,就“不得未经许可使用网络爬虫等方式抓取网站内容和数据”达成共识并向全社会发出呼吁。司法实践中,虽然缺乏直接的法律规定,但也逐步确立了互联网数据领域的保护规则,即网站经营者对于其付出经营成本而收集、整理的数据享有合法权益,对于未经许可擅自抓取和使用数据的行为,有权予以制止。

经营者对合法权益进行处理,在不损害公共利益的情况下,应当属于经营自主权范畴,经营者有权自主决定哪些信息或数据、在什么范围内、允许或不允许哪些民事主体进行抓取和使用。而Robots协议正是网站经营者对于自身合法权益处置的公开意思表示,是经营自主权的一种体现。判断Robots协议对于网络机器人限制行为的正当性,应当首先落入网站经营自主权逻辑,然后判断其是否会对公共利益产生不利影响,进而对其正当性进行评判,这也符合Robots协议设立的初衷。在肆意通过网络机器人抓取数据、掠夺网站数据的不正当竞争环境中,网站通过Robots协议作为保护自身权益的表态尤为重要。

判断Robots协议对于网络机器人限制行为的正当性时,网络机器人的应用场景应当是重要的评判因素

如前文所述,随着互联网技术和应用的发展,网络机器人早已不是搜索引擎服务产品的专属技术,而已经扩展到了广泛的非搜索引擎的应用场景之中,比如垃圾信息的发送者可以使用网络机器人抓取网站中用户的联系方式用以批量发送信息,商家可以使用网络机器人抓取网站中竞争对手的商品销量用以调整销售策略,当然网站经营者也可以使用网络机器人抓取其他网站的内容用以填充自己的产品内容。

基于搜索引擎服务的工作原理,其功能和目的是快速定位网络信息,让网络用户能在较短时间内从互联网的海量信息中检索到所需信息,从而进入信息所处的网站进行访问和阅览。因此,搜索引擎的网络机器人进入一个对公众开放的网站抓取信息通常不会损害网站的利益,反而有利于其宣传推广,利于网站获得更多的网络流量和潜在用户。此时,信息资源得到较大程度的共享和使用,搜索引擎服务运营商、被收录的网站、网络用户各方的利益均得以保障和实现,实现多方共赢。可见,网络机器人在搜索引擎的应用场景下,具有了公益和互利的属性,随意限制搜索引擎网络机器人,可能会打破多方共赢的局面,阻碍信息流通、损害公共利益。在面对具有公共利益属性的搜索引擎网络机器人时,网站的经营自主权受到一定程度的限缩,将私权的一部分让渡与公共利益,这是必要与合理的,也是《互联网搜索引擎服务自律公约》以及奇虎百度案件中司法裁判观点的真实内涵。

相对的,非搜索引擎应用场景的网络机器人,往往与前述公共利益无关,与网站之间往往并非互利,反而往往是损人利己的。以网络机器人在互联网内容产品服务中的应用为例,此类网络机器人抓取网站的数据后,用于填充自身产品的内容,这与搜索引擎服务存在明显区别(见表1)。

因此,在判断网站设置Robots协议限制网络机器人的正当性时,不能直接适用搜索引擎服务领域的规则,而应区分网络机器人的应用场景,以更为宏观、全面的角度对限制行为的正当性进行评述。

保护网站经营者的自主经营权与维护其他经营者利益、维护消费者利益、维护竞争秩序之间的平衡

在前述今日头条与微博关于Robots协议的不正当竞争案件中,双方证据显示,微博Robots协议中所限制的网络机器人“ToutiaoSpider”的应用场景并非搜索引擎服务,而是应用于移植微博内容至今日头条的“微头条”板块。根据上诉人微博的主张,二审判决首次区分了搜索引擎应用场景和非搜索引擎应用场景下Robots协议的设置规则,指出不同应用场景下的网络机器人对于网站合法权益、公众利益、互联网互联互通精神的不同影响,明确《互联网搜索引擎服务自律公约》不能成为互联网行业通行的商业道德,同时结合搜索引擎和非搜索引擎两个侧面,确立了Robots协议对于网络机器人限制行为正当性的评价标准,即“在判断Robots协议对于网络机器人限制行为的正当性时,其核心在于保护网站经营者的自主经营权与维护其他经营者利益、维护消费者利益、维护竞争秩序之间的平衡”,“应结合Robots协议设置方与被限制方所处的经营领域和经营内容、被限制的网络机器人应用场景、Robots协议的设置对其他经营者、消费者以及竞争秩序的影响等多种因素进行综合判断”,并进一步指出,在不损害消费者利益、不损害公共利益、不损害竞争秩序的情况下,相关限制即使在客观上会造成对某个或某些经营者的“歧视”,也应当得到允许[4]。

这一标准跨越了互联网行业细分领域的差异,以更为宏观的视角平衡了互联网企业合法权益、公众利益,以及互联、互通、共享、开放的互联网精神等多种法益之间的关系,为网站提供了更为全面合理的Robots协议设置准则,也体现和响应了互联网行业新技术发展带来的规制需求。同时,这一标准也更加符合反不正当竞争法的规制范式。在市场经济中,经营者享有充分的自主经营权,在未扰乱市场竞争秩序、未损害公共利益的前提下,并无帮助其他经营者的法律义务。Robots协议从此摆脱了“不得限制主体、只能限制范围”的规则困惑,回归了原本的行业与市场规则,将在数字经济时代发挥新的重要作用。

小结:信息与数据流通应规范有序

Robots协议的设置规则之争,实质上是关于互联网信息与数据流通规则的争论。信息与数据作为互联网企业重要资源,在不同企业间进行流通应是为流出和流入的双方共同增益,使得信息和数据在更大范围或更深层次所使用,而绝非单纯损害流出方而增益流入方。在更加完善的信息与数据流通规则下,相信更多的互联网企业会更加规范、合理地使用包括Robots协议在内的各种技术与非技术方式,共享利用信息与数据,共同促进产业发展和技术进步。

 

参考文献:

1 亦称爬虫、蜘蛛程序等,本文统称为网络机器人。

2 参见(2017)京民终487号民事判决、(2013)一中民初字第2668号民事判决。

3 参见(2017)京73民初2020号民事判决。

协议作为保护自身权益的表态尤为重要。

4 参见(2021)京民终281号民事判决。



免责声明:凡本网注明"来源:XXX(非中国知识产权杂志出品)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。新闻纠错:010-52188215,邮箱:chinaip@hurrymedia.com

会员留言


只有会员才可以留言, 请注册登陆

查询及评价系统

文章检索

关键词:

在线调查

据悉,正在修订中的《专利法》四修,拟将恶意侵权专利赔偿额度从原有的最高三倍上限调整到最高五倍,五倍赔偿已经是目前世界上最高的赔偿额度,对此,你有什么看法?

没有考虑过
合理,打击侵权,确有必要
不合理,赔偿过高,国际上并无先例