实时监控微博内容,爬取“0day”等关键词 – 作者:白色的空盒子

学习交流联系V:图片[1]-实时监控微博内容,爬取“0day”等关键词 – 作者:白色的空盒子-安全小百科

众所周知,一个0day爆出来,往往最先出现在各类论坛、社交平台新闻,从泄漏POC到厂家打补丁,往往会有一个比较长的时间,或者几天,或几周。
所以,我们可以用一个轮子,实时爬取微博的内容,一旦有用户披露了最新漏洞,我们就可以马上掌握到,然后进行复现,向厂家提供安全修复建议。

功能:

连续获取一个或多个微博关键词搜索结果,并将结果写入文件(可选)、数据库(可选)等。

所谓微博关键词搜索即:搜索正文中包含指定关键词的微博,可以指定搜索的时间范围。

举个栗子:
比如你可以搜索包含关键词“0day”且发布日期在2021-07-19和2021-07-20之间的微博。当然你也可以再加大时间范围。

本程序可以获取指定关键词的全部或近似全部的搜索结果。本程序可以获得几乎全部的微博信息,如微博正文、发布者等,详情见输出部分。支持输出多种文件类型,具体如下:
图片.png

输出内容格式:
图片.png

使用:
打开配置文件:
vi settings.py
图片.png
1.将自己账户的COOKIE加进去
图片.png
2.设置搜索关键词
图片.png

修改setting.py文件夹中的KEYWORD_LIST参数。 如果你想搜索一个关键词,如“CVE”:

KEYWORD_LIST = [‘CVE’]

如果你想分别搜索多个关键词,如想要分别获得“CVE”和“0day”的搜索结果:

KEYWORD_LIST = [‘CVE’, ‘0day’]

如果你想搜索同时包含多个关键词的微博,如同时包含“CVE”和“0day”微博的搜索结果:

KEYWORD_LIST = [‘CVE 0day’]

如果你想搜索微博话题,即包含#的内容,如“#安全漏洞#”:

KEYWORD_LIST = [‘#安全漏洞#’]

也可以把关键词写进txt文件里,然后将txt文件路径赋值给KEYWORD_LIST,如:

KEYWORD_LIST = ‘keyword_list.txt’

txt文件中每个关键词占一行。

3.设置搜索时间范围
图片.png
START_DATE代表搜索的起始日期,END_DATE代表搜索的结束日期,值为“yyyy-mm-dd”形式,程序会搜索包含关键词且发布时间在起始日期和结束日期之间的微博(包含边界)。

运行程序:
scrapy crawl search -s JOBDIR=crawls/search

案例:
我得到的数据:
图片.png
图片.png
图片.png
更多技术交流学习:
V:Memory20000427
Q:3542167150
本文章仅限用于第一时间获得安全防护预警,不可用于其他非法用途

来源:freebuf.com 2021-07-19 19:45:25 by: 白色的空盒子

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论