AI in WAF︱腾讯云网站管家 WAF：爬虫 Bot 程序管理方案

案例是说明一件事情最有力的辅证

某大型生活服务类站点被爆简历数据被恶意爬虫泄露；

某二次元文化社区站点原创内容被恶意爬虫遭侵权；

航空公司被爬虫恶意低价抢票；

外卖平台用户数据泄露。

恶意爬虫 Bot 机器人程序会给业务运营带来风险已成为众行业难题，与其相关的安全问题事件也多次出现在新闻报道中。

△ 某大型生活服务类站点被爆简历数据被恶意爬虫泄露

△ 某二次元文化社区站点原创内容被恶意爬虫遭侵权

在上周，腾讯安全云鼎实验室发布的《2018上半年互联网恶意爬虫分析：从全景视角看爬虫与反爬虫》专题报告在行业内外都产生了一定影响，爬虫问题在行业的关注度也进一步升温。从报告可以看出，恶意爬虫 Bot 程序广泛分布在出行、社交、电商、O2O、公共行政、运营商、自媒体、地图、新闻等行业，那么恶意爬虫 Bot 程序会给这些行业带来哪些业务运营风险呢？

一、恶意爬虫 Bot 带来哪些业务运营风险？

信息泄露：恶意爬虫 Bot 程序所有者蓄意抓取站点接口数据或对外发布的内容数据，如站点的商品数据、订单数据、用户数据等，造成对外发布的数据被采集利用的信息泄露风险；

业务风险：爬虫比价、库存抓取等行为带来的营销策略竞争风险；站点内容被未授权抓取、转载，降低站点内容竞争力；刷票、羊毛党、垃圾注册、短信接口滥刷等带来业务运营风险；

自动化攻击：黑客利用恶意Bot 程序实现自动化的撞库攻击、漏洞嗅探、DDoS 攻击、CC 攻击、发送垃圾邮件等恶意行为，给业务带来安全威胁；

站点负载：大量恶意的爬虫 Bot 程序流量占用站点资源，造成服务器的高负载，影响正常用户的访问速度与体验。

△ 恶意爬虫 Bot 带来的业务运营风险

恶意爬虫 Bot 程序爬取互联网站点信息，损害业务营销效益及企业利益，那么平台运营者为什么难以发现并阻截这些恶意爬虫Bot 程序的流量呢？

二、应对爬虫 Bot 程序问题：管理流量而非彻底拦截

互联网站点的流量一部分由人类正常访问行为产生，而高达30%-60%的流量则是由 Bot 网络机器人孜孜不倦的执行程序编写者赋予它的任务所产生。这些程序流量并非全部恶意，也有友好型 Bot 程序，如搜索引擎的爬虫、广告程序、第三方合作伙伴程序、Robots 协议友好程序等。

恶意爬虫 Bot 程序包括前段时间已曝光的外卖平台数据泄露事件里用到的恶意信息爬取程序，用于电商定价的比价程序，用于入侵的木马程序，撞库程序等。云鼎实验室2018年上半年监测的数据表明，互联网恶意流量中恶意爬虫占比高达23.46%。

△ 腾讯安全云鼎实验室：互联网恶意流量分类占比

对于爬虫 Bot 程序管理，平台安全运维者并不能采用一刀切的方式进行封堵。更多情况是，安全运维需要花费大量时间去区分爬虫 Bot 程序流量与正常人类的访问流量，再进一步区分友好的爬虫 Bot 程序流量与恶意的爬虫 Bot 程序流量。因此，解决爬虫 Bot 程序问题的关键在于精准的流量检测技术，这也是爬虫 Bot 程序管理的核心挑战所在。

三、常规爬虫 Bot 程序检测手段容易被绕过

爬虫Bot程序常规的检测体系包括检查 ua 、refer、http 请求、访问模式、ip、cookie、指纹异常等。但爬虫与反爬虫的战争向来都是此消彼长，基于常规的规则检测体系并不一定能奏效，容易被绕过。

常规爬虫 Bot 程序绕过检测的方法：

模拟 UA/Refer/Cookie；

支持 js 响应伪造客户端指纹，基于浏览器插件完成攻击；

模拟真人行为或对特定行为模拟，使用动态 IP 进行分布式等。

当然更大的挑战在于，对于爬虫 Bot 程序的行为管理，规则的设定又充满挑战：检测规则设定过于松散，则蓄意绕过者可轻松绕过检测；如果将规则设置过为严格，又将会影响到友好爬虫 Bot 程序的运营，甚至导致“误杀”正常流量。

如同云鼎实验室的专题报告提到，爬虫的“技术之争就进入了鏖战的「平衡期」，此时反爬虫工程师对抗掉了大部分的低级玩家，剩下的高级爬虫工程师也默契的保持一个不给服务器太大压力的爬取速度，双方犹如太极推手，那下一步如何打破这个平衡？”

当前基于 AI 模式的爬虫流量判定能够大幅提高判定的精准度和效率，然而应用 AI 技术则需要大量的数据训练及运算负载，同时要求具备 AI 技术能力的专业人才持续开发，这对用户的安全运维来讲是不小的挑战。

四、AI in WAF：腾讯云网站管家 WAF 爬虫 Bot 程序行为管理方案

管理而非杜绝的爬虫 Bot 行为管控方案

针对爬虫 Bot 程序行为管理方案，网站管家 WAF 采用了温和管理而非直接杜绝的方案。先通过分析引擎识别出爬虫 Bot 程序流量行为，对机器人程序行为进行分类并以图表化模式呈现，再根据实际业务需求采取针对性的管理策略，从而实现对爬虫 Bot 程序及业务运营带来的风险问题的管控。

△ 腾讯云网站管家 WAF Bot 行为管理策略

基于 AI 引擎的爬虫 Bot 程序行为检测

在最为关键的爬虫 Bot 程序检测的环节上，网站管家 WAF 则纳入了 AI 检测引擎能力。

AI 引擎对站点访问流量的会话进行追踪，通过流量画像，匹配行为模型及行为标签进行识别，相比传统基于规则的检测模式具备更为精细的爬虫 Bot 程序识别能力。例如，常规基于访问速率的反爬虫策略管理中，慢速爬取行为由于与正常访问行为相近，往往难以被判定识别；网站管家 WAF AI 引擎则通过追踪目标会话，基于会话行为特征模型而非阈值（包括站点业务特征模式，页面访问频率，访问层级关系等多维模型）来匹配正常人类访问特征和爬虫Bot 程序访问特征标签，进一步确定会话的访问属性。

△ 会话追踪与行为模型检测：基于异常得分的随机请求，恶意请求和正常请求模型示意

与此同时，腾讯海量业务访问数据训练样本，以及网站管家 WAF AI 引擎的算法泛化能力，可以保障方案的爬虫 Bot 程序识别能力能够持续进化，不断适应及识别新的爬虫Bot 程序访问样本。

△ AI in WAF：网站管家 WAF 捕获超低速的 Bot 行为

应用腾讯爬虫 Bot 程序威胁情报

在腾讯数十年自营业务与黑产对抗经验中，腾讯云建立了成熟的安全大数据威胁情报平台，涵盖丰富爬虫库、僵尸网络、全球代理、高匿名代理、tor 代理等数据等，这些数据成为腾讯云网站管家WAF 的爬虫 Bot 程序威胁情报的重要来源。此外，腾讯安全云鼎实验室持续监控捕获最新的恶意爬虫Bot 行为，帮助获取最新爬虫信息及 AI 引擎训练样本。这些有效的威胁情报被纳入爬虫 Bot 程序行为的判定决策依据，大大提高了网站管家 WAF 的爬虫程序管控效率。