爬虫攻防中的法律问题

总第153期 林华 沪江教育科技(上海)股份有限公司 法务总经理发表,[其他]文章

  法院网站遭遇虫灾

  近期,有多家媒体报道了最高人民法院裁判文书网公开判决书被大量第三方标价售卖的事件。报道称,裁判文书网数据显示公开文书总量为7000多万篇,而众多卖家声称能提供超过6000万条文书数据。如果这个数据属实,则说明已经免费公开的司法文书中绝大多数均已被公开出售。

  根据大量裁判文书卖家提供的商品描述,出售的司法文书是通过网络爬虫的技术手段取得。按百度百科的词条解释,网络爬虫就是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。因此,网络爬虫实际是根据设定自动进行网络信息搜索和抓取的功能代码。

  引起媒体注意的不仅是这些司法系统免费提供的判决书被公开出售,还有法院网站因大量爬虫访问造成的裁判文书网站负载过重的迟延响应甚至瘫痪的情况。最高人民法院在关于“中国裁判文书网”访问缓慢、故障频繁意见的答复中表示:“……大量技术公司通过爬虫系统无限制并发访问非法获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。”

  爬虫是否构成侵权?

  部分法律专家认为,利用爬虫抓取裁判文书数据构成侵权。北京市社会组织法律调解中心副理事长张新年律师就认为,“这些裁判文书基于司法公开目的,是免费的公共资源,未经最高人民法院授权,商家售卖裁判文书网数据构成侵权。[1]”

  网络爬虫当然构成侵权么?从爬虫技术本身以及裁判文书的著作权属性来看,认定爬虫技术本身侵权存在很大争议。首先,爬虫是互联网最广泛使用的技术之一,可以说没有爬虫就不会有发达的互联网。所有搜索引擎都必须依赖爬虫,不通过爬虫就没有其它办法有效检索全网。从根本上来说,爬虫是互联网信息交互的基础技术,对信息有效采集和整合传播起到了巨大的作用,可以适用技术中立原则。

  被检索网站为了防止爬虫越线获取服务器的不公开信息,可以利用互联网公认的机器人协议在robots.txt中设定拒绝爬虫的命令。

  其次,从著作权角度看,爬虫对被检索网站也不是必然构成侵权。的确有利用爬虫抓取受版权保护信息后非法传播的案例,甚至有非法传播达到法定量刑标准从而构成刑事犯罪的案例[2]。但从裁判文书网的内容性质来看,爬虫抓取内容并不适用著作权侵权。

  根据我国《著作权法》第五条规定,《著作权法》“不适用于:(一)法律、法规,国家机关的决议、决定、命令和其他具有立法、行政、司法性质的文件,及其官方正式译文”。裁判文书既属于司法机关发布的司法性质文件,本身是《著作权法》不保护的内容,在法律上无法推导出利用裁判文书需要法院授权。假设获取信息的手段本身合法,也并没有法律限制利用公有领域信息获利,则该行为是合法的,比如出版和销售超过版权保护期的古籍版本就是合法的。

  反爬虫的协同治理

  爬虫应用的发达在两个不同方面影响互联网。正当合理地使用爬虫技术,能促进互联网信息有效采集和传播;过度使用爬虫程序,将加重被爬取网站服务器负载,影响网站运营和用户正常访问。爬虫程序是互联网极为普遍的应用,技术圈公认爬虫流量占互联网流量的前几位。爬虫技术可适用技术中立,但对于滥用爬虫技术,则有必要从法律、技术等多角度协同治理。

  (一)滥用爬虫的法律反制

  《著作权法》第四十八条“下列侵权行为”第(六)项规定:“未经著作权人或者与著作权有关的权利人许可,故意避开或者破坏权利人为其作品、录音录像制品等采取的保护著作权或者与著作权有关的权利的技术措施的……”网站权利人在服务器部署的robots文件中用Disallow命令写入限制爬虫的语句,本质是依据技术规范为外部爬虫指示禁区,属于为保护内容采取技术措施。在权利人不涉及反垄断法或版权滥用的情况下,爬虫违反robots协议抓取受版权保护的内容,构成《著作权法》所称的破坏或避开技术措施。

  除了从版权保护角度之外,反不正当竞争同样是可以限制爬虫侵权的法律依据。《反不正当竞争法》第十二条规定:“经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:……(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。”并且《反不正当竞争法》在第二十四条规定了违反本条的法律责任。滥用爬虫技术是一项成本极低但对被爬取网站负荷影响巨大的行为,无节制的野蛮抓取经常导致网站瘫痪和无法访问。对此,《反不正当竞争法》第十二条是可以合理援引的当然选择。

  (二)滥用爬虫的技术反制

  爬虫是一项技术,以技术限制技术是网站权利人首选的自力救济手段。最高人民法院就表示,其已采取了限制列表页面翻页数量和采用验证码的防爬功能,后者在特定时间段达到特定浏览数量后启用验证码进行核验。最高人民法院表示,将不定期更新防爬虫技术,加强网站维护,提高网站运行效率和稳定性。

  除了上述手段之外,在对抗滥用爬虫的技术攻防中也会不断进化出新的防御手段。比如,为防止数据被爬虫分析和抓取,在前台用图片格式渲染关键信息,这样就会使机器无法识别,但又不妨碍用户通过肉眼识别。

  爬虫技术的广泛应用,是互联网存在和发展的必然需要。根据技术中立的原则,限制爬虫技术本身既不可取也不可行,这种限制将对信息的正常传播和获取产生近乎致命的打击。但是,滥用爬虫暴力抓取数据也早已成为行业公害,所有互联网平台都设有专门的反爬虫技术团队和常态化更新的反爬措施。

  在可预见的将来,爬虫都将与互联网共存,每个链接到互联网的网站都不可避免地遭遇爬虫。采取有效的技术措施和选择恰当的法律武器对恶意爬虫进行综合治理,是我们和爬虫共存的正确方式。

  注释:

  1《裁判文书网数据被标价售卖律师:或构成侵权》,北京青年报,https://news.sina.com.cn/sf/news/ajjj/2019-08-02/doc-ihytcerm8005446.shtml,2019年9日5日访问。

  2《非法抓取“起点”小说一审被判侵权》,中国知识产权资讯网,http://www.cipnews.com.cn/Index_NewsContent.aspx?NewsId=107680,2019年8月29日访问。



免责声明:凡本网注明"来源:XXX(非中国知识产权杂志出品)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。本网转载其他媒体之稿件,意在为公众提供免费服务。如稿件版权单位或个人不想在本网发布,可与本网联系,本网视情况可立即将其撤除。新闻纠错:010-52188215,邮箱:chinaip@hurrymedia.com

会员留言


只有会员才可以留言, 请注册登陆

查询及评价系统

文章检索

关键词:

在线调查

据悉,正在修订中的《专利法》四修,拟将恶意侵权专利赔偿额度从原有的最高三倍上限调整到最高五倍,五倍赔偿已经是目前世界上最高的赔偿额度,对此,你有什么看法?

没有考虑过
合理,打击侵权,确有必要
不合理,赔偿过高,国际上并无先例