网络安全与数据合规｜爬虫合规，路在何方 – 作者:数字新基建产业金融-安全小百科

网络安全与数据合规｜爬虫合规，路在何方 – 作者:数字新基建产业金融

数据作为一种新型资源，不仅价值正在被重新评估，而且正作为新类型的法益被法律所保护。公司为了保证数据运算的准确性，通常会采取各种方式搜集大量数据。而垂直搜索、爬虫等从互联网上获取数据的方式，不仅可以获取大量的数据而且成本低廉，是众多公司必备的获取数据的方式。目前，数据安全问题也成为国内外重点监管的问题。字节跳动旗下的TIKTOK的海外业务正因数据安全问题而受到重重阻挠，美国和欧盟的数据传输协议也刚刚被欧盟法院裁定无效；国内，抖音和微信读书上周刚被北京法院认定侵犯用户个人信息权益。

摘要

目前国内数据相关立法较为分散，但工信部等部门对于企业的数据安全及个人信息保护却日益重视，企业需要尽快针对爬虫等技术进行合规，充分厘清法律界限，防止企业陷入法律纠纷。本文将对爬虫技术进行简要介绍及定性，重点列明目前法律规定以及实务中出现的合规要点，以保证企业可以有针对性的建立爬虫技术合规体系。

一、爬虫概述

爬虫，是按照一定的规则，可自动、批量地抓取互联网信息的程序或者脚本。其可分为通用爬虫和专用爬虫等，在此我们不做过多讨论。

我们应该明确爬虫的性质，爬虫本身只是一种技术，是大数据时代下电商、社交等公司获取数据的常规手段，我们大可不必”谈虫色变”。在技术中立的原则下，如何在合规体系内使用爬虫技术，才是我们要考虑的重点。

二、爬虫合规要点列明

（一）防止对被爬取方造成影响

1、遵守被爬网站的robots协议

网站一般会设置robots协议，告诉网络爬虫哪些数据可以爬取，哪些数据不可以爬取。在使用爬虫技术时要遵循被爬网站的robots协议，避免出现不正当竞争等违法情形。

2、不得妨碍被爬虫网站的正常运行

爬虫行为等自动化收集信息等行为，无疑会增加网站的运行负担。最接近我们生活实例的就是12306铁路购票网站，通常会被各种抢票软件爬取信息而导致运行难度大，造成用户无法正常购票。

而我国对于此的规定只有《数据安全管理办法（征求意见稿）》第十六条，网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；此类行为严重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。“三分之一”的比例是否合理我们暂且放置。此法条第二款应为第一款的非穷尽列举之一，其他妨碍网站正常运行的方式还需我们在实践中探索。如，大量搜集同类型的网站数据，导致网站核心模式被复制，网站被引流等，会导致企业间的不正当竞争。

（二）爬取用户信息时要保证“三重授权”

这是“新浪诉脉脉案”中确立的合规准则。在第三方需要通过平台收取用户个人信息时，需要保证三重授权，即“用户授权”+“平台授权”+“用户授权”。第一重授权，即“用户授权”，为用户在使用平台（此案中为新浪微博平台）时对平台的授权，体现在用户对平台隐私政策的同意与接受。第二重授权，即“平台授权”，为平台对第三方开发者（此案中为脉脉）的授权，第三重授权，即“用户授权”，则为开发者在收集使用平台提供的用户的信息数据时，需事先征得用户的同意。上述“三重授权”的确立，将我国个人信息保护体系中“用户同意”原则发挥到了极致。

（三）使用爬虫应遵守法律的原则性规定

除了（一）（二）中的注意事项，我们还要注意遵守法律的原则性规定，应保证收集信息的应当遵循合法、正当、必要的原则。如即使网站不存在robots协议，也不意味着所有信息都可以随意爬取，应注意是否侵犯著作权，也要避免触及侵犯个人信息罪、非法获取计算机信息系统数据罪等刑事责任。

结语

在大数据的背景下，我们需要建立的是一个有序、开放的数据法律环境。在享受数据红利的同时，每个人就必然需要让渡一些权利给数据。在实践中，二者的矛盾不断凸显，“三重授权”的过度严谨是否妨碍了数据的正常流动，个人信息的随意流出是否淡化了个人才是信息权利主体的重要概念，隐私政策的存在是否真的有效保护个人的数据信息等。随着我国数据立法的不断完善，数据和个人的权利边界将不断明晰，我们才能真正享受到数据带给我们生活的改变。

来源：freebuf.com 2020-09-14 14:13:01 by: 数字新基建产业金融

文章版权归作者所有，未经允许请勿转载。

THE END