数据作为一种新型资源,不仅价值正在被重新评估,而且正作为新类型的法益被法律所保护。公司为了保证数据运算的准确性,通常会采取各种方式搜集大量数据。而垂直搜索、爬虫等从互联网上获取数据的方式,不仅可以获取大量的数据而且成本低廉,是众多公司必备的获取数据的方式。目前,数据安全问题也成为国内外重点监管的问题。字节跳动旗下的TIKTOK的海外业务正因数据安全问题而受到重重阻挠,美国和欧盟的数据传输协议也刚刚被欧盟法院裁定无效;国内,抖音和微信读书上周刚被北京法院认定侵犯用户个人信息权益。
摘要
目前国内数据相关立法较为分散,但工信部等部门对于企业的数据安全及个人信息保护却日益重视,企业需要尽快针对爬虫等技术进行合规,充分厘清法律界限,防止企业陷入法律纠纷。本文将对爬虫技术进行简要介绍及定性,重点列明目前法律规定以及实务中出现的合规要点,以保证企业可以有针对性的建立爬虫技术合规体系。
一、爬虫概述
爬虫,是按照一定的规则,可自动、批量地抓取互联网信息的程序或者脚本。其可分为通用爬虫和专用爬虫等,在此我们不做过多讨论。
我们应该明确爬虫的性质,爬虫本身只是一种技术,是大数据时代下电商、社交等公司获取数据的常规手段,我们大可不必”谈虫色变”。在技术中立的原则下,如何在合规体系内使用爬虫技术,才是我们要考虑的重点。
二、爬虫合规要点列明
(一)防止对被爬取方造成影响
1、遵守被爬网站的robots协议
网站一般会设置robots协议,告诉网络爬虫哪些数据可以爬取,哪些数据不可以爬取。在使用爬虫技术时要遵循被爬网站的robots协议,避免出现不正当竞争等违法情形。
2、不得妨碍被爬虫网站的正常运行
爬虫行为等自动化收集信息等行为,无疑会增加网站的运行负担。最接近我们生活实例的就是12306铁路购票网站,通常会被各种抢票软件爬取信息而导致运行难度大,造成用户无法正常购票。
而我国对于此的规定只有《数据安全管理办法(征求意见稿)》第十六条,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。“三分之一”的比例是否合理我们暂且放置。此法条第二款应为第一款的非穷尽列举之一,其他妨碍网站正常运行的方式还需我们在实践中探索。如,大量搜集同类型的网站数据,导致网站核心模式被复制,网站被引流等,会导致企业间的不正当竞争。
(二)爬取用户信息时要保证“三重授权”
这是“新浪诉脉脉案”中确立的合规准则。在第三方需要通过平台收取用户个人信息时,需要保证三重授权,即“用户授权”+“平台授权”+“用户授权”。第一重授权,即“用户授权”,为用户在使用平台(此案中为新浪微博平台)时对平台的授权,体现在用户对平台隐私政策的同意与接受。第二重授权,即“平台授权”,为平台对第三方开发者(此案中为脉脉)的授权,第三重授权,即“用户授权”,则为开发者在收集使用平台提供的用户的信息数据时,需事先征得用户的同意。上述“三重授权”的确立,将我国个人信息保护体系中“用户同意”原则发挥到了极致。
(三)使用爬虫应遵守法律的原则性规定
除了(一)(二)中的注意事项,我们还要注意遵守法律的原则性规定,应保证收集信息的应当遵循合法、正当、必要的原则。如即使网站不存在robots协议,也不意味着所有信息都可以随意爬取,应注意是否侵犯著作权,也要避免触及侵犯个人信息罪、非法获取计算机信息系统数据罪等刑事责任。
结语
在大数据的背景下,我们需要建立的是一个有序、开放的数据法律环境。在享受数据红利的同时,每个人就必然需要让渡一些权利给数据。在实践中,二者的矛盾不断凸显,“三重授权”的过度严谨是否妨碍了数据的正常流动,个人信息的随意流出是否淡化了个人才是信息权利主体的重要概念,隐私政策的存在是否真的有效保护个人的数据信息等。随着我国数据立法的不断完善,数据和个人的权利边界将不断明晰,我们才能真正享受到数据带给我们生活的改变。
来源:freebuf.com 2020-09-14 14:13:01 by: 数字新基建产业金融
请登录后发表评论
注册