一、爬虫还是你认识的那只爬虫吗?
1、好爬虫,坏爬虫
“ 机器人流量再次战胜人类,主宰互联网世界!!!”
据国际知名金融广告服务平台提供商Dianomi的报告《2018 Robot traffic report》的数据,在互联网上人类流量仅仅占了48.2%,也就是说,一个页面的10000个点击里面,大约5100个来自机器人。在航旅票务等行业,热门数据接口中甚至有超过95% 的流量是来自机器人。
该报告将非人类产生的网络流量统称为“机器人流量”(Bot Traffic),其中的“机器人”就是指自动化执行的程序—也就是我们俗称的“爬虫”,通常用于自动化批量执行特定的任务,比如搜索引擎用来检索网站的爬虫机器人、航空公司网站的刷票占座程序、政府信息公开网站上抓取数据的程序等。
搜索引擎是最早诞生的“好爬虫”,它爬取互联网上的所有信息,帮助用户进行快速的信息检索,为用户提升效率的同时也为网站带来流量。行业就此专门定义了robots.txt文件,成为互联网各方和谐共处的君子协定。然而科技并不总是向善的,大量“变异”的爬虫很快充斥网络,通过模拟正常用户活动和行为,大肆进行数据窃取、资源占用、刷量刷单、薅羊毛等违法违规操作,这些就是我们今天文章的主角-“坏爬虫”。
据Dianomi的报告显示,好爬虫主要分为以下几类:
监控机器人:用于监控网站的可用性和各种在线功能的正常运行;
商业数据抓取:用于商业化的数字营销工具、网站数据统计等,例如Alexa;
搜索引擎爬虫:各大搜索引擎的大量爬虫机器人,用于检索海量信息和网站;
信息流抓取:分布在网站和应用程序中,抓取有用信息展示给用户看,例如微博。
从网络流量占比上来看,坏爬虫一直碾压好爬虫,占了总体流量的28.9%,貌似并不是那么骇人听闻,但请注意,这是“平均值”,在票务、电子政务、电商、金融等行业,这个比例远超你的想象。
2、智能化网络机器人
随着商业竞争加剧和AI技术飞速升级,在利益的驱使下,坏爬虫已经“进化”成网络上的一个全新物种:智能化网络机器人,其技术是先进的、意图是邪恶的、模拟人类的手段是高超的、进化的速度是迅猛的,因此给个人用户、商业平台、政府机构和全社会带来的危害也是巨大的。
智能化网络机器人身上通常具有如下几类“DNA”:
批量:爬虫危害性巨大的核心原因,是其能够以快速、持续、大量的模式形成伤害。
高并发:利用云端基础设施或者IDC机器集群,形成极高的并发访问能力。政府开放查询个人传票信息的某网站曾在今年4月被爬的无法对外服务,随后发布公告停机升级;
速度快:基于上述特点,使得爬虫可以在短时间内形成超量的访问,某移动电商平台曾在一夜之间被薅走坊传百亿规模的羊毛;
全天候:可以7x24x365的工作,秒杀一切996,甚至为了逃避侦测,经常昼伏夜出、凌晨作案;
自动化:借助黑产工具和自动化脚本,爬虫可以在完全无人看守和干预的情况下,模拟大部分人类行为并完成恶意任务。
黑产工具:猫池、手机农场、群控、打码平台等;
Bot脚本:复杂的脚本逻辑使得爬虫不仅限于信息爬取等简单任务,从拖库撞库、登录测试,到图片验证码破解、薅羊毛等所有任务都可以执行。
智能化:黑产“专家”经验注入,AI技术加持,使得爬虫具有了“智慧”。
“反反爬”策略:通过与平台反爬策略的多次对抗,摸索出规律,对反爬规则直接破解或绕行,如面对IP封禁,直接使用IP代理池,且每个IP只用少数几次;针对流量频率侦测,爬虫会通过多源低频的方式进行爬取;
生物行为模拟:通过OCR技术破解简单的数字和文字图片验证码,面对更复杂的滑动验证码,使用puppeteer工具,结合人类拖动滑块轨迹和速度的模拟,可以成功破解该类行为式验证码;
行为模式多变:不再使用单一逻辑和流程的脚本,而是通过离散算法生成动态脚本进行攻击,让平台难以捕捉其行为规律。
二、技术无罪?数据风暴下的爬虫危机
爬虫技术本身是否违法?业界的普遍共识是:爬虫技术作为互联网时代普遍运用的网络信息搜集技术,本身是技术中立的而不涉及违规违法和犯罪的问题,但是,如果爬虫行为不合规、不正当,则可能涉嫌违法。
这个共识不仅存在于形而上的讨论之中,现实中已经存在多例与爬虫相关的法律诉讼与判决案例,如:被称为大数据引发的不正当竞争第一案-新浪微博诉“脉脉”不正当竞争案,全国首例爬虫行为入罪案-上海晟品网络科技有限公通过爬虫破解北京字节跳动公司的防范措施并非法获取计算机信息系统数据案,百度公司诉北京奇虎公司违反爬虫协议构成不正当竞争案,国家图书馆出版社与北京百度网讯科技有限公司侵害作品信息网络传播权纠纷案,浙江泛亚电子商务有限公司诉北京雅虎网咨询服务有限公司等侵犯著作权纠纷案等。
近期,爬虫话题又被重新推上热议的风口浪尖,其缘起是金融行业的大数据乱象整治。在今年7月份,人民银行科技司司长李伟就在“第四届全球金融科技(北京)峰会”上指出,要纠正部分机构“有技术就滥用、有技术就任性”的乱象。随后从9月份开始,一场规模浩大的监管风暴就席卷了大数据风控行业,在大数据风控行业中以爬虫大量盗取信息数据的做法盛行,而违规使用、买卖数据则是导致隐私数据泄露等一系列问题的根源。
如何从法律层面界定爬虫合法性的边界呢?引用东南大学法学院教授刘艳红的观点:判断爬虫非法与合法,重点是从形式层面进行的。对爬虫行为而言,既要遵循《网络安全法》《个人信息保护法(草案)》等有关信息保护的国家规定所确立的合法性原则,也要结合爬虫技术的Robots协议,将遵循该协议的爬虫行为定性为善意爬取,将违反此协议的诸如破解反爬措施的行为定性为恶意爬取,从而综合判断爬虫行为是否“以其他方法非法获取公民个人信息”。合法性原则与爬虫协议这一行业规则,即为判断爬虫行为是否非法的形式标准。于此之外,还要对爬虫行为进行实质的判断,看行为人“以其他方法非法获取公民个人信息”的行为对法益的侵害或威胁是否达到实质可罚的程度。
由上可见,技术本无对错,但爬虫技术“滥用”导致的公民个人隐私泄露、企业间不正当竞争等问题,确实形成了侵害和威胁,涉嫌违法。除上述的数据安全风险之外,爬虫滥用还会引发用户身份盗用、交易欺诈、营销欺诈、资源侵占等5大方面的风险。
1、数据安全风险
数据泄露:爬虫从网页和接口两方面盗取数据。
政务信息:公积金、社保医保、工商税务、司法公安、交通海关、互联网政务、企业数据、征信;
隐私信息:身份信息、学历信息、消费记录、借贷记录、航旅记录、互联网行为记录、通话记录/通讯录、医疗挂号、物流信息、房屋车辆等资产信息;
商业信息:航旅票务、酒店连锁、简历招聘、UGC内容、新闻媒体、商品价格/评论、金融行情等。
数据破坏:恶意修改商品价格、商品有效期、license有效期等;
数据污染:机器流量数据影响数据统计准确率及用户画像精准度。
2、账户安全风险
身份是一种新的全球货币,这解释了黑产为什么要优先利用宝贵的资源来测试和验证不同行业背景的身份
批量垃圾注册:基于2019年7月1日至2019年9月30日间,金融服务、电子商务、旅游、社交媒体、游戏和娱乐行业的情况,经分析全球有超过13亿笔涵盖账户注册、登录和支付的交易,发现高达五分之一的账户创建都是带有欺诈性的;
账号盗用和接管:拖库撞库、暴力破解、恶意登录(通过社工等方式获得了用户和密码信息,之后到各大平台进行登录尝试,以验证用户是否注册并查看用户在该平台的资产和权益)。
3、交易安全风险
盗转盗刷:黑产正在将大规模数据泄露中攫取的凭证货币化。全球网络犯罪生态系统的深度连通性远不止销售被盗数据或信息共享,一次攻击是另一次攻击的前兆,利用被泄露的身份和付款凭证获利才是黑产交易欺诈路线图上的终极目标;
欺诈性交易:恶意退单、修改收货地址、积分盗取等。
4、营销/运营安全风险
恶意刷单(占库存)/退单(骗赔偿)、虚假投票/评论/转发、推广刷量作弊、刷票占座、广告流量作弊、营销活动薅羊毛等。
5、资源安全风险
行业竞争对手间的无序甚至恶意的竞争,导致了平台的服务器资源也成为了被攻击的对象。
资源占用:刚刚过去的双十一期间流量井喷,这是剁手党、黑产、竞争对手共同“狂欢”的时间,黑产和竞争对手利用大流量攻击,恶意占用平台的带宽和计算资源,体验卡顿甚至应用瘫痪会直接导致用户流失,在这样分分钟可能有几十上百亿现金入账的时刻,其造成的损失让人扼腕。
三、爬虫动了谁的蛋糕
根据国际权威机构面向机器人和欺诈相关的报告显示,在全球范围内遭遇恶意机器人及复杂/高级恶意机器人(即专业化程度极高的爬虫)流量攻击的典型行业有:金融、航旅票务、电商、营销/广告、教育、医疗等。
根据腾讯云和云鼎实验室的安全研究报告显示,在我国机器人流量聚集的TOP5行业分别是:出行、社交、电商、O2O、公共行政,而出行中尤其以航旅票务领域遭受爬虫攻击最为严重。
依据机器人的专业程度、对行业的危害程度、危害的行业覆盖率等方面,本文对航旅票务、电子政务、电商等行业进行详细阐述。
1、航旅票务
自动拒绝库存攻击
一种新兴的攻击类型是针对机票预订的自动拒绝库存攻击。对于旅行者来说,被攻击的库存会导致剩余座位的成本增加,或者耗尽低成本航空公司的库存。这迫使消费者考虑购买更昂贵的替代品。对于活动票务,机器人程序可以预订热门活动的票务并以高价出售,从而对好客户的总体体验产生负面影响。
这种现象在激烈的行业竞争下并不显得奇葩,各大航空公司在开通了相同的热门航线后,也会选择通过技术手段“引导”用户选择自家产品,比如通过爬虫占据对手公司大部分票源,造成其无票可售或者仅剩高级仓位票后,乘客自然乖乖送上门。
黄牛抢占特价票
经常出游的用户都知道,找到一些所谓的票务代理往往能够拿到特价机票,美其名曰“尾票”。而这些特价票来自于哪呢?普通用户为什么抢不到呢?这背后其实是黄牛利用航空公司的规则空子和爬虫技术一直将低价票霸占在手中,普通用户再怎么“拼手速”也是抢不到的。
具体来说,航空公司订票流程中有30分钟左右的帐期,即订票后可以延迟支付,在该期间内这张票就不能对外销售了。爬虫就是利用了这一点,算好时间差,抢到票后就开卖,卖不出去就退票并二次抢票。
OTA 平台互爬价格,获取竞争先机
在航空公司提直降代、OTA行业竞争惨烈、网站获客压力增大的背景下,某程、某哪、某牛等OTA平台大打价格战,通过比别的平台更低的票价来吸引客户。而想要做到这一点,就必须实时了解友商的价格并调整自己的定价策略,爬虫在这个时候就粉墨登场了。随着几个大平台企业的合并,曾经硝烟弥漫的OTA互爬大戏暂时告一段落,但新兴的后起之秀又将掀开新的波澜。
积分权益窃取
随着旅游业从线下向数字渠道转移,欺诈也随之转移,关键领域之一就是针对全球在线旅游平台不断提升的营销运营费用这块大蛋糕的自动机器人,这些机器人以会员权益为重点欺诈对象,通过使用盗取的用户身份凭证和支付凭证,将其宝贵的、来之不易的会员积分等权益输送给接管其账户的黑产。
目前,黑产已经到了进行身份凭证变现的阶段,相比于之前批量注册垃圾账户等账户欺诈场景,积分等权益欺诈行为在近些年呈大幅上升趋势。
巨量查询导致航班查询信息服务费激增
查询和订票的比例,即查订比是航空业重要的运营指标。每一次航班信息的查询,航空公司的平台都需要调用中航信的接口,查订比一旦超过规定比例,航空公司就需要向中航信缴纳巨额费用,每年光是花在航班查询上的信息服务成本就高达数千万元甚至数亿元。
查询接口的信息服务费加上服务器资源的费用,如果超过了一定阈值,航空公司即使将一张票卖出去了,那么整体上对其盈利率也是有巨大冲击的。
12306成为海量高并发系统的经典案例
春运是世界上规模最大的人类迁徙活动,春运期间利用抢票软件买票已经成为移动互联网时代的新习惯,抢票平台往往会使用恶意爬虫帮助用户刷票、抢票。2018年春运期间,12306最高峰时段页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。其中的恶意爬虫访问占据了整个出行行业近90%的流量,给12306的运维造成了很大的负担,极大挤占了普通用户的资源和权益。12306在防爬虫、防黄牛、提升服务器吞吐量、改善用户购票体验上投入大量精力,并取得卓越成果。
2、电子政务
据报告显示,电子政务类恶意爬虫流量主要分布在法院文书、知识产权、企业信息、信用信息等常规商业信息领域,医疗挂号数据也是一个备受关注的信息。
2019年的315晚会揭秘了一款“社保掌上通”APP,主持人现场在该APP上输入***号、社保账号、手机号等信息并完成注册后,在未明示收集用户社会保障号、社保查询密码等个人敏感信息的情况下,这些用户敏感数据就被上传到了第三方服务器。这种伪装成官方APP并骗取用户授权,通过API接口进行数据爬取形式在当下移动互联网APP泛滥的背景下是屡见不鲜。
中国裁判文书网是一个记录全国法律案底的政府信息公开网站。据传有一个地下数据挖矿群,群里上千位“虫师”群策群力主攻裁判文书网的爬虫防护策略,甚至一些破解方法还作为开源项目放在了网上,导致该网站一度被爬到暂停对外服务。
为什么有这么多人对这些信息感兴趣呢?我们可以从最近的金融行业大数据风暴背后看到一些端倪。
数据是金融机构进行信贷风控的关键依据。除了自身业务上积累的客户和交易数据外,面向传统金融业务未覆盖的“零征信”、“薄征信”人群,金融机构还需接入人行征信、百行征信等官方数据,以及大量“第三方数据”。为了满足合规等保的要求,部分金融机构快速上马了风控系统并接入了“第三方数据“,忽略了数据合规性和稳定性问题,而这些第三方数据里就包括了法院(失信被执行人、判决等)、公积金、社保、工商注册、税务等信息。
对于提供这些“第三方数据”的所谓“大数据风控公司”来说,低成本获取这些数据的最佳途径就是到电子政务平台上通过接口爬取,进行二次加工和包装,谋取巨额利益。恶意机器人流量极大占用了政府公共平台的资源,影响了正常用户的访问。同时,信息贩卖行为极大侵害了民众权益,也为金融机构的风控系统埋下了隐患。
3、金融
前面提到,金融机构做信贷、消费金融等业务,除了自身历史业务数据可以覆盖“老客户“征信之外,针对“新客户”的征信,其数据主要来自人行征信、百行征信等官方征信机构,而人行征信数据其实只覆盖了3.8亿左右的自然人,覆盖率较低,还有几亿人只有简单的身份数据;百行征信由于成立不久以及各大股东之间博弈,数据量也极其有限。
基于上述背景,部分消金机构、互金平台在“大干快上”的思想驱使下,为了能够快速上业务、见效果,“饮鸩止渴”式的接入了第三方大数据风控公司的服务,甚至大量银行也接入了此类所谓的“助贷产品”,部分头部机构还自建了爬虫团队,专门服务于信贷业务。殊不知,这些把金融机构最核心风控能力的半条命交给“爬虫”的做法,为自己种下了不可逃避的苦果。
11月14日,公安部在京召开新闻发布会,通报全国公安机关开展“净网2019”专项行动工作情况及典型案例,揭开了业内一直在猜测的本次大数据风暴背后的真实原因。通报称对“套路贷”犯罪开展了全链条式打击,系列行动的起点是今年在黑龙江省七台河市侦破的“7.30”套路贷专案。案发后,七台河市公安局成立专案组,从本地被“套路贷”受害者和催收团伙入手,侦获了一条集实施“套路贷”犯罪团伙、催收团伙以及帮助“套路贷”犯罪的技术服务商、数据支撑服务商、支付服务商完整犯罪链条。其中,技术服务商为 “套路贷”研发App,数据支撑服务商利用爬虫技术非法获取公民个人信息、为“套路贷”推广和放贷风险评估提供数据支撑,第三方支付公司则为“套路贷”开通资金结算渠道和支付服务。
不仅公安部门有雷厉风行的行动,监管部门也紧随其后,多地中国人民银行分支机构向辖内银行等金融机构发出与大数据风控公司合作情况的自查和上报通知,中国互联网金融协会也向会员单位下发通知,要求“不与违规收集和使用个人信息的第三方开展数据合作”。
根据亿欧智库的一份报告显示,国内共有近600家大数据风控公司,其中近7成的公司成立于2013至2017年,基本与P2P、消费贷等互金业务的疯狂发展同步崛起。随着公安打击和监管加码,大部分放贷公司和大数据风控公司出现了业务缩紧甚至停摆的现象,其直接原因就是在利益的驱使下滥用了爬虫技术、滥用了数据,侵害了公众利益:一是未经授权爬取个人及企业数据;二是超越法律及用户隐私协议规定的范围获取数据和使用数据;三是非法将爬取的数据进行存储和倒卖。
作为风控体系基础的(第三方)数据停了,互金/消金公司的业务大受影响,甚至一些银行的业务也受到了轻微影响,这个问题该如何解决?本文建议从四方面入手:
1.加强金融机构自主可控的综合风控体系建设:风控反欺诈之战从来不是某一种技术或方法的单打独斗,而是一场集数据、技术和机制于一体的综合防御战。其中,数据是风控反欺诈体系建设的支持部分,而技术是打赢风控反欺诈之战的重要部分,机制则是反黑灰产实战经验的体现,是优化风控反欺诈效果、提升风控反欺诈能力的重要保障,这三者为相辅相成、相互促进的关系;
2.挖掘自身的数据“石油”,并不断自建场景积累数据,自给自足:金融机构自身拥有大规模、高质量的客户和业务数据,即使不能将数据直接用于新客户的征信,但这些数据作为有标签的数据,也可以进一步深入挖掘和治理,对客户画像刻画、风控模型训练有着极其重要的作用。另外,对于零售金融业务所需要的大量客户个人消费和行为数据,可以向BATJTMD等互联网平台学习,构建大量线上的具有支付、分期等金融属性的场景,比如电商、O2O等,通过运营这些场景积累数据;同时,基于开放银行理念,让大量的生态合作伙伴构建场景,机构输出核心能力,在这个过程中,也可以通过极其丰富和普惠的场景拿到海量数据;
3.继续推动征信国家队的发展壮大:人行征信系统已经推出了第二代,其数据规模和质量得到了大幅提升;百行征信也在推动着互金/消金机构的接入,未来会有更多的数据沉淀下来;
4.重启爬虫,让其在监管和法律的笼子里发展:大数据风控行业长期处于缺乏有效监管的状态,未来需要推动相关监管机制完善,加强金融行业数据采集和使用的治理,健全各类执行层面的标准规则。近期正在广泛征询意见的《个人金融信息(数据)保护试行办法》就是一个好的苗头。
4、电商
电商行业中的典型爬虫危害包括:商品信息爬取、批量注册、欺诈交易、虚假交易、薅羊毛、商家刷单骗补贴、商家刷量/刷信誉、恶意差评等,下面针对两个具体场景进行说明:
欺诈性交易和薅羊毛
传统电商和线下零售商在发展路线上逐渐走向了一统,即线上和线下的融合。为了增强用户体验、提升销售转化,大多数电商平台都简化了购买路径,鼓励消费者创建帐户并存储支付详细信息;同时为了与客户建立密切的关系,电商平台日常会经常性地推出折扣、红包、返利等运营活动。
这吸引了黑产利用爬虫技术窃取用户身份凭证和支付凭证,并随后对这些账户进行接管。根据Shape Security公司发布的一份全球身份信息泄露报告显示,电商网站 91% 的登录流量来自黑客的爬虫撞库攻击,这些攻击在“双十一”等大促活动期间更加频繁。因为对于数字经济来说,身份是真正的货币,这在零售和电商领域是显而易见的。
随后黑产要么利用接管的账户进行欺诈性交易,比如盗刷购物、退单骗取运费险、积分转赠,要么进行批量虚假注册,骗取新用户权益。
商品信息爬取
根据云鼎实验室的报告显示,由于商业模式的差异,爬取商品信息、价格和评价等信息的流量分布为:C2C 类电商平台由于中小卖家众多,商品数量远多于 B2C 类电商,支撑了电商类恶意爬虫近90%流量;B2C 类电商加起来占10%。
这些信息被爬取后会被用于:竞争对手间的价格竞争,通过恶意占库存和恶意退单操作阻碍商家经营,完成用户导流返利套现等,对电商平台与合法商家造成了极坏的影响。
5、社交
社交平台已经成为用户虚拟生活的核心场所,然而大量社交平台对用户隐私和身份安全的保护十分薄弱,这也成为了黑产进行拖库撞库、登录测试的重要试验场。
普通的黑产拿到用户信息后通常执行的是身份凭证变现操作,而别有用心的团体甚至可以将其转化为政治事件。全球最恶劣的数据泄露事件就是英国剑桥分析公司滥用5000万Facebook用户数据的事件,其通过数据分析预测用户的喜好和倾向,从而形成干预选举的推送内容,潜移默化中就改变了一个人的政治倾向,甚至影响了整个国家的政治稳定与公平。
四、反爬与反反爬-一场旷日持久的战斗
反爬与反反爬,反反爬与反反反爬……说起来像绕口令一样,其体现的是爬虫江湖的对抗升级,在这场旷日持久的对弈中,双方各自形成了一套武器库,但就像矛盾之争,永远也没有一定的强弱之分,下面我们就从反爬者的视角分析一下当前常见的技术及局限性。
1、常见的反爬手段与局限性分析
通常的反爬虫方案都包括两个核心部分,即“识别爬虫–>处理爬虫”(有点像把大象装冰箱分几步),下图从“识别”和“防御”两个维度对反爬手段进行了总结。
2、当前反爬解决方案的弊端
面对肆虐的爬虫,很多安全企业都推出了反爬解决方案,目标单纯指向了降低爬虫的流量,或者是阻止一切爬虫的攻击,但反爬的终极目标是为了保证业务发展,因此不能忽略业务目标达成、用户体验提升、防控效果可持续性等更为底层和关键的问题。
通过综合分析市场上主流反爬解决方案,总结出了这些传统解决方案的十一大弊端:
关注技术和工具,忽略业务规则
现有解决方案中更多是从技术层面进行防控,强调的是技术对抗,而爬虫之所以可以攻入系统,很多情况下是由于业务体系、逻辑和规则设计的漏洞造成的。
如上图的营销活动保护效果衰减隧道所示,在制定营销活动的规则时,如果设置一些提升黑产参与门槛或是增加变现难度的规则,就会阻断一大批黑产的参与,例如:必须绑定***才能参与、一个账号只能参加一次、奖励不能转赠必须本人使用、优惠券只能购买平台内的商品等。
注重事中,忽略事前和事后
如营销活动保护效果衰减隧道所示,大量方案采用的是事中识别和防御,其最大的问题在于被动防守,只能完成后验式的调整,不能做出先知式的灵活策略调整。
除了事中防护,还需要在事前主动监测舆情,分析业务变化,结合业务的运营节点-如双十一、春节大促等事件,主动进行预测和规则定制优化;在事后及时利用新数据进行规则更新、AI模型调优和黑名单沉淀等。
关注单点,忽略全链条
仅在注册、登录、关键业务活动等节点进行“单点纵深防护”,一方面过早与爬虫进行强对抗,容易引发黑产对手的警觉和进化;另一方面,一旦爬虫突破了某个节点,后续节点不能有效利用前序环节的数据和行为,进行跨环节的时序性操作行为的识别,如登录后直接点击“签到“按钮即退出,而没有进行其他浏览和操作的行为序列就是典型的爬虫特征。
单兵作战,被动防御
貌似上了一堆防护手段,但这些手段只能各自为战,不能根据业务特征、应用场景、爬虫行为等进行联动协同,不能形成有机的防御体系;只能被动等待爬虫上门,而不能主动发现风险、甚至诱捕爬虫主动防御。
仅做生物识别,不做意图识别
如果仅仅识别出爬虫就进行封杀,很容易把来自搜索引擎、导流平台等可能带来业务提升的善意爬虫误杀,因此识别出非人类操作仅仅是第一步,随后还要根据其行为模式判断意图,进而做出恰如其分的处置决策。
过度依赖静态规则,不能及时动态响应变化
基于过往经验和事件制定的规则,确实可以有效防范黑产在既定认知领域内的常规攻击,但其对跨行业的多变场景适应性往往较差,黑产也容易在多次攻防中摸清套路,变化攻击手段。而防守端面对这些情况,通常只能做出比黑产晚一步的延迟的响应,不能动态进化并及时应对变化。
前端静态防控,易被破解
使用静态采集代码完成环境检测和威胁感知,使用固定的混淆方法保护代码和数据,其可预测性较高,被逆向后易于被绕过。需要通过动态的方式完成检测和混淆加密,提升假冒合法客户端的难度,防止伪造请求、恶意代码注入、篡改数据内容等攻击行为。
防御手段不够柔性
在恶意爬虫被识别后,通常会采用显式挑战的方式进一步识别人机,比如复杂滑动验证码,亦或是直接进行IP/UA/用户的封禁,这样会带来对抗升级,逼迫黑产进化,也容易让黑产摸清平台的防控策略。
我们可以采取更加灵活、多变和柔性的方式处置爬虫,疏堵结合,从技术上可以采用定向到假网页、喂假数据、隐式挑战、限速而不封禁等手段,从业务体验上可以降低其获益的概率和额度,比如红包始终不中奖或零星中奖,让黑产在不知不觉中被处理,并且陷在我们设置好的套路里不断轮回,延缓进入新的对抗阶段。
不支持自适应处置手段,用户体验差
复杂滑动验证码体验较差,且不区分风险等级进行无差别验证时,会打断正常用户的业务流程,制造有摩擦的业务体验;如果采用封禁手段进行处置,极易造成误杀,正常用户被莫名其妙挡在门外。
对用户隐私数据使用不规范
反爬平台往往由业务平台之外的三方厂商提供,在集成模式上,如果采用了公有云云端部署和处理的模式,在需要用户敏感数据时,不能做到在用户侧进行数据脱敏甚至计算,还需要在网络上传输至第三方反爬厂家的云端平台,存在泄漏隐患。
不能应对超大流量,实时性差
现有解决方案常见的集成模式有:反向代理模式、旁路模式,核心的反爬引擎也支持本地部署和云端部署两类模式。因为反爬不是简单规则的堆叠,而是需要AI技术的赋能,因此在这些模式中,如果不能很好的分配和调整业务本地端和云端的算力,不能支持高性能的实时计算能力,就不能保证海量高并发流量到来时的处理实时性问题。
五、反爬的顶层设计:利益制衡、生态平衡
商业世界里任何系统运转的根本驱动都离不开3个词:利益、利益、利益。在爬虫与反爬的生态系统里,其运转同样也受经济学和生态学底层逻辑的支配。因此指导我们构建一个可持续进化的强大反爬体系的核心要义就两句话:利益制衡,生态平衡。
1、经济学视角:降低ROI-削减动力、提升成本
黑产一直有一笔账算的特别清楚,就是这笔买卖值不值得干,很少有黑产站在战略的高度去思考怎么把黑产事业搞一辈子。因此只要将黑产一次攻击的ROI(投入产出比)降得足够低,黑产也就没有动力搞事情了(当然,一个平台不值得干,黑产就会转战其他还有利可图的平台)。
从宏观角度,可以通过改变商业利益格局来改变需求,进而消灭黑产,比如:监管机构明确要求金融机构不能接入没有个人征信牌照企业的所谓三方征信数据,那么银行等机构纷纷自查并断开与三方数据平台的接口,与此同时,非持牌互金机构被强力监(qing)管(chang),这种情况下,需求(方)没有了(并不是不需要数据,而是不能从非合规渠道获取),黑产自然也没动力继续从事三方征信数据买卖了。
在微观角度,一个业务平台上如何降低黑产的ROI呢?如前所述,可以从业务和技术两方面入手:一是优化业务规则,比如提升参与门槛(绑***用户才能参与、交付定金参与等)、封堵平台外部变现渠道、消费在平台内闭环、活动奖励虚拟化、限制频次金额等;二是使用多种技术手段协同防御爬虫,提升平台规则、策略和模型的“不可预测性”,比如JS动态混淆、API授权访问、AI建模行为分析、智能限速等,让黑产的破解难度和成本大大提高。
2、生态学视角:平衡ROT-保证目标、抑制进化
安全的极致是什么?答案是“平衡”,即风险与信任的平衡(ROT-风险信任比)。如果一味追求业务规则的极度完美和安全,在拦截住黑产的同时,也会将好用户/好爬虫挡在门外,比如之前提到的提升营销活动门槛,如果门槛定的过高、规则设计过度,则会降低用户参与的积极性,就背离了营销活动的初衷—拉新、留存、促活、转化;再比如搜索引擎等爬虫,留下它们是会为平台带来好流量的。因此,无论如何设计整个体系,一直要在心底记住的就是:安全是为业务服务的,业务目标的实现才是根本。
过度追求安全带来的另一个问题就是逼迫黑产进化。《罗辑思维》第679期节目中讲了一个话题“怎样杀死害虫“,其中提到杀死害虫的最佳手段不是100%种植防治害虫的转基因农作物,而是要在其中间隔地种一些传统农作物,让害虫不要全军覆没,要留一些残兵败将,让它们把“落后”的基因遗传下来,以免造成群体进化。
从具体做法上分为两个方面:一是设计柔性的处置策略,让恶意爬虫小小的“得逞”一下,或者让黑产自认为得逞了,不赶尽杀绝;二是对付一个最终会进化的物种,最好的办法就是秉持“黑暗森林法则”,努力比对方进化的更快,因此保持技术升级、保持对业务的深刻理解是一场没有终点的比赛。
3、反爬体系构建的核心要点
基于“利益制衡、生态平衡”的“道”,可以总结出如下构建反爬体系的“法”:
业务与技术双引擎防御
通过对跨行业的通用业务模型和规则进行抽象,形成通用业务建模方法论,并针对垂直行业形成领域模型;
在业务目标的指引下有效使用技术手段进行风险识别和动态防御。
用AI对抗AI:为整个体系嵌入“智能大脑”,对抗不断进化的、用AI技术武装的黑产和爬虫。
跨行业赋能业务:站在比黑产团队更广泛和深入的视角上洞察业务,A行业积累的经验能快速复制和适配到B行业。同时沉淀海量脱敏数据,让AI的进化有充足的底层原料,这些数据相比于单一黑产团队,在规模和丰富度上具有量级性差异;
AI模型自进化:通过每一天的攻防实战,完成渐进式的迭代学习,随时跟进爬虫的新动态和变化,同时通过冠军挑战者模式进行模型A/B测试和优选,并采用延迟反馈策略观察线上应用效果,防止突发小概率事件引发模型的”畸变“;
“液态化”:面对新领域,用行业自有数据训练模型,在通用模型的基础上融入行业基因;面对新威胁,让黑产的行为和数据训练和增强对抗模型,快速形成防御能力,让整个体系具备快速响应和自适应能力。
构建动态协同的主动防御体系
多维度立体化:从时间维度上看,一方面在防控阶段上连接事前/事中/事后的手段,另一方面在业务全链条周期上整合联动多个业务节点的防控;从空间维度上看,从爬虫甄别、人机识别到行为分析和主动防御/处置,多层次渐进防控,逐步深入;
协同:多手段有机结合,一是前端和服务端技术配合使用,二是跨多渠道协同,在APP、PC Web、H5、小程序端协同识别爬虫和积累数据,三是同一个平台上的多业务联动,业务之间形成联防联控和经验输出;
主动:不坐以待毙,基于业务预测和未知风险发现能力,对黑产进行诱捕和分流;同时对会呈现在前端的业务数据、关键URL和页面做封装和转化,提升黑产破解难度;
动态灵活:一是技术实现上的动态化,包括混淆加密算法、AI模型参数、领域规则、弹性处置手段等进行随机变化,提升不可预测性;二是将各种防控能力原子化,使得这些能力与业务松耦合,通过策略灵活组合编排,实现与业务强适配的组合解决方案;
柔性自适应:维持生态平衡,降低误杀,提升用户体验,根据风险等级选择恰当的防御和处置手段。
六、点-线-面-体:战争升级,AI对抗下的反爬军竞体系
1、芯盾时代智能网络机器人防御体系
芯盾时代基于零信任安全理念和架构,突破传统区分内外网的“边界防御理论“,搭建智能网络机器人防御整体解决方案,面对恶意机器人流量的攻击,在实现无边界安全的同时,兼顾业务适应性、客户集成灵活性、实时大并发流量支撑、用户体验和可持续进化,达到高阶均衡。
芯盾时代平台,从“点-线-面-体”多层次构建了一个多维、动态、协同、柔性自适应和自进化的智能网络机器人主动防御体系:
点:各项技术单点突破,基于2000+特征的深度挖掘,构建100+场景化人机识别模型,面向政务、航空、OTA、金融、电商、在线教育等20+垂直行业领域沉淀专家策略,面向百亿级流量实现毫秒级的快速处理能力,形成以终端安全、人工智能、大数据分析、流式实时计算为基础的、业界领先的业务安全技术体系;
线:围绕反爬虫的全生命周期链条,根据企业需求和业务形态,从事前的业务分析、场景建模和策略定制,到事中的风险识别、动态防御和弹性处置,到事后的分析-反馈-进化,综合协同使用多种技术和业务防控手段,持续优化,形成迭代进化闭环,保证反爬效果和业务目标达成;
面:从数据、终端、行为三个层面进行识别与防御。数据层面,通过整合与沉淀海量风险IP/设备名单库,有效过滤爬虫惯犯,结合黑产舆情信息,进行业务预判和提前防范;终端层面,通过覆盖APP/PC Web/H5/小程序的设备指纹锚定黑产设备,使用终端威胁态势感知技术检测自动化框架等环境风险,并结合生物探针、边缘计算支撑的人机识别、生物隐式挑战、数据蜜罐等技术完成爬虫识别;行为层面,基于智能识别引擎,通过多维度AI模型识别爬虫意图和预判风险趋势,使用无感知认证、智能CAPTCHA、智能限速等动态防御技术和弹性处置手段,完成爬虫的柔性处理;
体:将整个体系打造成有机进化的类生命体系统。一方面通过不断采集沉淀的脱敏数据,训练、优化已有AI模型,并基于深度神经网络和无监督学习模型挖掘黑产高维特征,不断生成适应黑产变化的新模型;另一方面通过芯盾黑产研究实验室的红蓝对抗,站在黑产视角进行模拟对抗训练,提升对黑产的认知和防范水平。
*本文作者:芯盾时代trusfort,转载请注明来自FreeBuf.COM
来源:freebuf.com 2020-01-01 10:00:08 by: 芯盾时代trusfort
请登录后发表评论
注册