研究成果
当前位置是: 首页 -- 研究成果 -- 正文

数据抓取的边界在哪里?——以公开的用户生成内容为例

发布日期:2021-05-06   点击量:

刘晓春

利用爬虫进行数据抓取,已经成为互联网领域多个行业数据获取和流通的主要方式,也被认为可能会发展成为未来企业获取网络上量级数据的基础手段。但是,数据抓取同样是数据权属争议的高发区,甚至如果被认定为“侵入”计算机系统,还可能触犯刑律。数据抓取作为数据获取的一种重要的通用方式,未能厘清其法律责任的边界,有可能使行为后果产生高度不确定性,甚至产生过度威慑,从而阻碍数据流通和产业发展。

一、现有司法实践的特征与共识

此前有关数据抓取引发权属争议的司法实践,呈现几个方面的特征。第一,无论涉及到抓取个人信息(微博诉脉脉案),还是用户生成内容(大众点评诉百度案),数据抓取被认定为不正当竞争行为者,典型的场景是没有获取用户的授权,因此,法官不需要考虑支持甚至授权抓取行为的用户意志在行为正当性评价中的角色。第二,法官在认定数据抓取构成不正当竞争行为时,都会着重考虑是否会对被抓取方构成不正当的竞争优势的剥夺,在判决中,这样的考虑通过不同的措辞表达出来,如“核心竞争优势”“商业资源”“合法权益”,或“超出必要限度”“实质替代”“搭便车”“不劳而获”。究其理论基础,实际上都是担心抓取行为导致的数据转移,会导致被抓取方对于数据资产投入的激励不足,因抓取方的“搭便车”行为而导致市场失灵。此外,我们也可以看到,法律实践中对于针对公开和非公开数据的抓取行为还是存在不同的处理模式,对于非公开数据,如果需要破解技术措施,则行为构成不正当的可能性就会明显增强。

无论具体情境有何不同,达成共识的一点是,对于数据的权益,尚不能构成法律上确定的“权利”,因而目前常见的做法是寻求反不正当竞争法下原则条款的保护,这意味着,数据权益并不是事先设定,亦不具有确定构成要件和权利内容,而需要在具体案件中对于行为和情况进行事后考察,结合各种利益衡量的因素,由法官根据原则条款中的“商业道德”“公平诚信”等,来对行为的正当性作出判断。本质上,反不正当竞争法的原则条款,提供的是行为正当性评价的依据,而非创设一般性权利的依据。尽管客观上,有些判决结果有可能在具体案件中确认了当事人的特定“合法权益”,但是,在规则运用过程中,理解反不正当竞争法原则条款的属性和边界,是十分有必要的。

法院在实践中对这一点实际上理解得十分深入。在大众点评诉百度的二审判决中,法官明确指出:“在自由、开放的市场经济秩序中,经营资源和商业机会具有稀缺性,经营者的权益并非可以获得像法定财产权那样的保护强度,经营者必须将损害作为一种竞争结果予以适当的容忍。本案中,汉涛公司所主张的应受保护的利益并非绝对权利,其受到损害并不必然意味着应当得到法律救济,只要他人的竞争行为本身是正当的,则该行为并不具有可责性。”

因此,在考虑个案的事实约束的前提下,对微博诉脉脉案判决提出的“三重授权原则”进行理解,是更加符合反不正当竞争法本意的做法。首先,该原则处理的是针对用户信息通过OpenAPI模式进行数据交换的情形,其中同时涉及公开和非公开的数据,法院要求坚持“用户授权”+“平台授权”+“用户授权”的三重授权原则,有其特定场景的事实约束,不见得能够推广到所有数据交换场景,特别是公开数据抓取场景。其次,该案中不正当行为认定的重要一个考虑因素,是被告未能获得用户授权,因此在认定过程中不需要考虑用户意志的权重,不正当性的证成相对容易。最后,法院同样也考虑到了此种行为对于原告利益的影响程度,认为非公开的用户信息构成原告的“核心竞争优势”,背后同样是考虑了市场失灵和激励原理,因此,结论同样不应轻易扩展到不构成经营者核心竞争优势的数据,尤其是,对于数据使用的程度和规模不足以抑制投入激励的情形。

二、抓取对象和方式的考察

在公开的用户生成内容被抓取的场景下,对于抓取行为的法律边界,要从抓取对象和方式两个角度来考察,并进而从行为效果来综合判断其正当性。

在考察抓取对象的时候,需要对用户生成内容所涉的权益归属进行场景化的分析。通常来说,典型的用户生成内容,如消费评价、自媒体发布内容,主要涉及用户和平台两方主体的权益关系。根据篇幅、传递信息类型和表达形式的不同,有一些内容更容易符合独创性的要求从而构成作品,纳入著作权法保护的范畴,比如博客文章、具有较为完整表达形态的微博文字、图片、微信朋友圈等。而针对商品和服务的消费评价有可能更多比例是传达相对客观的信息,或者囿于篇幅过短无法构成作品。在存在著作权的情形下,作者拥有的是边界相对清楚的法定权利,而即使无法构成作品,用户作为内容的直接生产者,如果这些内容上产生法律需要认可的利益,用户无疑也应当获得相应的控制能力和话语权。

对于平台来说,它们对于数据可以主张的权益,通常是基于其资本和经营投入,以及据此所产生的竞争优势。如前所述,与法定权利相比,“投入”“和“竞争优势”这些概念都是高度不确定的,是否受到法律的保护并非如权利一样是先定的,而是要看,其优势被谁、出于何种原因、以何种方式被削弱。竞争者之间的正当竞争,恰恰是以相互削弱竞争优势的结果体现出来,这也是竞争法想要努力保护的目标。

以用户生成内容存在著作权的情形为例,假设用户利益和平台利益产生了冲突,用户授权第三方对其已公开的作品数据进行抓取,平台的权益是否可以阻止这种抓取行为?这就涉及到对于这些作品数据的法律属性和权属界分问题。从著作权法的体系看,作品在传播过程中,有可能对作者的著作权形成控制的经营者权利,被法律固化为法定的邻接权,典型的如音像制品制作者权利、广播组织权,在法律赋权的前提下,这些传播者可以基于其资本投入获取激励,从而对于作品的传播产生对抗作者权利的控制能力。因此,类比来看,如果仅仅因为平台有投入,就给予平台数据之上的排他权益,就相当于在著作权法所设邻接权体系之外,创设了一种新型邻接权,来对抗作者对于作品的控制,这显然是不符合反不正当竞争法立法本意的。

从数据抓取的方式来看,也要避免路径依赖,落入原有案例不同事实导致的分析思路。从法律上评价数据抓取行为,不应当仅限于技术上的比较,而应当将完成抓取的整体过程进行综合考察。对于已经获取用户授权的数据抓取行为中,尽管技术上有可能与此前案例类似,但是法律上的评价有可能迥然不同。在大众点评诉百度和微博脉脉案件中,未经任何利益主体认可的数据抓取行为,一方面的确容易招致“不劳而获”的指控,另一方面,由于其没有获取授权的成本,因此更容易无限拓展从而更容易达成“实质替代”。但是,在获取用户授权之后的数据抓取,在法律上的属性很可能是相反的,一方面,数据抓取是协助用户实现对自己智力成果进行支配(搬运)的一个辅助性技术过程,用户的这一诉求本身合理合法;另一方面,正是由于获取数据的前提,是需要依据用户授权这一实质性投入,难言抓取者属于“不劳而获”的投机者;最后,需要获得用户授权的数据抓取行为也不具有任意扩张性,在效果上,实现“实质性替代”的可能性也大打折扣。

三、反思激励不足的假定

最后,从防止市场失灵的激励理论出发,反观数据抓取行为的效果,需要承认的是,在复杂而多变的互联网市场上,市场失灵和激励,都不是有和无的问题,而是强和弱的问题。很多时候法律规制数据抓取行为,也不见得认为这些行为就会导致针对数据资产的投入急降为零,而是担心会削弱市场资源对于数据资产的投入意愿。而且,数据资产之上的弱激励并不一定总是对整体社会福利有害,如果弱的投入激励能够换取数据和信息的低成本传播和利用,实际上有可能带来更高的总体福利。在数据权益的激励问题并未如同著作权法那样被立法者确定下统一的判断之前,法院就必须承担起在具体个案中进行复杂衡量的责任,而不能遵循一个统一的前设假定,对特定行为模式作出划一的规则嵌套。

同样重要的是,市场上的激励是多元而动态的,尤其是在复杂的商业模式当中,对于数据的投入并不总是需要法律上排他保护的激励,也有可能商业模式和先发优势的回报已经为企业的经营提供了足够的激励。因此,激励不足常常是法官在特定场景下的一种推论。这种推论在相对简单的行为关系结构中如果还能大致保持正确率的话,那么在加入了用户意志、抓取行为成为数据传播主流方式等动态因素的复杂场景下,很可能需要重新考虑其正当性和局限。在数据内容体现了更为复杂的利益冲突,而抓取行为本身具有更强合法外观的情况下,如果还坚持对于数据抓取行为合法边界的限缩,有可能导致的后果是,在“激励不足”的假定之下,一方面,通过限制作者权利,从而削弱著作权法等特别立法已经明确确立的对于作者创作的激励程度,另一方面,实质上保护了商业模式和先发优势这些反不正当竞争法并无意保护的竞争要素。

地址:北京市房山区长于大街11号

邮编:102488

版权所有©中国社会科学院大学

  • 官方微信