博特智能|采集资源池管理技术 – 作者:博特智能内容安全实验室

博特智能在采集过程中,由于很多网站或平台服务器会对访问者的身份进行识别,只有识别验证通过的用户才能登录进系统,才可以进行无限制的信息访问。未登录的情况下,可以访问的内容严重受限。这在前面的社交网站的私密性讨论环节已经阐述过。
但是,对于用户的账号,如果平台服务器发现该用户频繁违规操作,譬如非正常频繁访问后台,则也会被判断为非法账号,而会被封号。浪费账号资源。
所以需要在某些需要用户登录验证的环节,方便地提供用户账号供采集系统使用。同时也要采取合理措施,减少用户账号被封号的概率。提升账号存活率。
另一方面,平台服务器会对访问者的IP进行识别。其目的有两个,一个是进行提供有限服务,及指定区域内的IP才允许访问网站或平台服务。一个是用于IP监控,一旦发现某IP出现违规操作,则进行封IP操作。所以需要维护一个IP代理。
为了确保采集的持续进行,基本上所有的采集系统都会维护一个用户资源池和代理资源池。中科院信工所的数据智能获取框架的资源层其实质就是通过一个资源管理子系统管理着一个用户资源池和代理资源池,供其上层的执行器层执行操作时调用。并采用了全球分布式代理技术通过自建VPN和公开代理采集为数据获取应用提供稳定、可靠的代理服务,解决数据获取中目标应用对访问行为的检测和封禁问题。
v2-33448efa635cbf730c5299657fcc24c4_b.png
1)多协议支持:HTTP、HTTPS、SOCKS5、PPTP、OPENVPN等
2)支持IPV6、IPV4两种协议出口
3)代理数据通路对请求采用加密传输
4)动态、可变IP支持,在代理层解决数据获取目标对访问频率的限制
5)支持固定IP类型的代理,保证数据获取账号稳定登陆,避免触及校验机制
6)基于容器的一键式部署,高效快捷

来源:freebuf.com 2020-08-29 21:15:32 by: 博特智能内容安全实验室

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论