爬虫的起源
先科普一下,这里说的“爬虫”是指网络爬虫,起源于互联网早期的搜索引擎。为了自动完成网页信息收集的工作被创造出来。
爬虫诞生后,虽然看起来非主流,却实质上是互联网应用最重要技术之一。除了我们熟知的谷歌,百度爬虫这些老牌,新起之秀今日头条,点评美团,去哪儿,58等等互联网巨头都是以爬虫为基础搭建的信息聚合平台,同时也拥有经验丰富的爬虫团队。
除了狭义以网页内容为线索爬虫外,其他以自动化形式获得信息的程序或脚本都可以称为“爬虫”。
爬虫的规模
爬虫在互联网上有多少流量呢,保守估计平均过半的流量都来自爬虫,有些行业甚至可以达到90%。
因为与人类相比,人类数量增长是缓慢的,反应时间也是有限的,人产生的流量有限。
而爬虫的规模则是随着IT基础设施,算力,带宽,吞吐的增加而正比增加的,其本质就是随着互联网中的信息增加而增加,这个是指数级的。
而且还在不断得高速增长,爬虫不会被消灭,只能被管理。
爬虫的黑白
“爬虫”是“人”为了简化工作而创造出的工具。它是中性的,创造和使用它的人们可以用来简化工作也可以用来做恶。
有时甚至无法定义黑白,不同的人商业目的,在互联网的战场上相互厮杀,爬虫技术自然成了这场战争中的武器。
爬虫的攻防就是规模大小,自动化,智能程度的高低的较量。其本质也是背后人与人的对抗。
最近有幸和头部互联网公司有过交手,略胜一筹,有感分享。
爬虫的钳形攻势
爬虫的技术细节很多,不想聊。回到主题,今天说一说最近这次对抗的爬虫,也许是你未闻的。
一般我们知道爬虫是自动化,想要对抗爬虫,就要找到自动化的规律,破解它。
没错,但这个规律是什么呢?五花八门,是不是可以用机器学习或者深度学习解决呢?有可能。
我们总说“攻防对抗”,对抗是不断升级的,指挥双方都是人,高手对决谁也不比谁差,你能想到的别人也可以,是对等的。
所谓“钳形攻势”就是在对目标发起攻击时,同时派出两个不同的分队,从不同角度进行攻击,甚至更多。
其中一个是大特征爬虫,炮火猛烈,人数众多,看来起就像是主力部队,也会比较容易被你或系统发现,摸清规律后控制。
另外一个时分散特征爬虫,像游击队一样,不断变化特征,频率,让你不容易发现它,悄悄得抢夺重要信息。
这样攻势的目的是通过大特征爬虫可以混淆你的自动规则和机器学习系统,让你的反爬虫系统表面上看起来工作顺利,发现并遏制了大量的爬虫。
但实际上关键信息还在不断流失。这种爬虫攻势不但有武器技术层面的杀伤,还有战术上的经验和灵活的应变能力。
也是爬虫战争终极对抗的关键。高手对决,最终消耗的就是资源(成本)和团队的规模。
总结
互联网巨头们垄断了技术和人才,谁也不想和他们较量。一旦他们的爬虫盯上中小企业或非技术驱动企业时,几个回合这些企业就会被打得落花流水。
我及我们的团队恰好可以在这里可以帮助这样的企业,守护你的每一寸信息。对爬虫技术,反爬虫产品有兴趣的伙伴也欢迎咨询与交流。
杨东冬
来源:freebuf.com 2021-01-16 15:29:45 by: 23donge
请登录后发表评论
注册