以百度贴吧为典型的社交网络隐私主动泄露分析 – 作者:不朽三不朽三不朽三-安全小百科

以百度贴吧为典型的社交网络隐私主动泄露分析 – 作者:不朽三不朽三不朽三

*本文作者：不朽三不朽三不朽三，本文属 FreeBuf 原创奖励计划，未经许可禁止转载。

楼主：我有死侍2资源，要的留邮箱！

吃瓜的我：楼主好人一生平安[email protected]，谢谢。

某个闲的无聊的人： site:tieba.baidu.com [email protected]

本文主要以百度贴吧和微博为例，分析探讨社交网络上的隐私主动泄露现象。

一、主要思路

如果是针对个体用户，比如已知个人信息，且这个信息可以与其社交网络中的某账户形成单射关系。那么利用信息X构造payload，直接使用百度的site语法对目标SNS进行检索即可。

此时不一定能够获取足够的数据，因为单一目标是否曾泄露隐私是一个未知数，其SNS使用深度也是未知数。因此，改使用敏感信息的通配体进行检索，先获取用户集合，再获取发言情况。具体流程如下：

二、针对单一用户的工具实现

因为代码水平太差我就不放github了，emmmm其实就是简单的爬虫，具体的架构如下：

部分核心功能代码及注释如下：

那么完成的效果就是，输入某一个信息，它返回给你指定社交网络中与其相关的用户。你确定用户名，它继续爬取该用户的所有发言记录。以后翻东西再也不用自己慢慢找了~

另外由于比较懒，只做了贴吧及微博两个SNS

三、思路推广，即获取大量数据的方法

说起来麻烦，其实就是简单替换了个payload，不再局限于看某个人，而是ummm你们这些留过邮箱的都给我过来。最后如上图所说，拿了个23MB的文本。

由于有大量正则操作，爬虫跑的很慢，在云上跑了有个四五天才把这七千多个用户跑完。加了多线程但是似乎没有什么改善？

四、文本语料处理

4.1 语料预处理及后续操作

此时手里有一大批主动泄露个人隐私的用户发言，那当然要分析一波。分析前，先洗一波语料，之后分词加向量化。具体主要步骤如下：

去停用词有用正则有用结巴，具体停用词库是几个院校的合订版。向量化直接word2vec，其实SNS发言包含大量的短语和短对话，使用文本向量可能更好，但笔者技术有限也比较懒，直接分词用词向量做了。

4.2 对照组选择

对照组的选择其实比较麻烦，按正常来说，此时获得的是主动泄露隐私的不安全用户的发言，你对照该选个安全用户。可安全用户太难界定了，即我找到一条你留有个人隐私的发言你就是不安全的，可你要所有发言都没有问题才是安全的。这里偷工减料选用2012年ccf的微博分析文本。长这个样子：

4.3 可视化结果

其实向量化过程中，初始是3M+个300维向量，然后降维到二维的话，我的小破本有点跑不动，就在分词阶段按照权重先做了个筛选。对更具有代表性的若干个向量进行了降维。如下图所示，这是前三次：

可以看到蓝色对照组，此时存在小规模的聚类情况，这是由于对照组文本本身具有一定的话题性。

而当权重为Top20k时，对照情况如下：

与之前三次实验有所不同，随着考虑范围的扩大，对照组的小规模聚类情况也逐渐消失。两组向量分布范围接近，无明显差异。此时证明，SNS隐私悖论导致的泄露隐私用户，在发言上与一般用户无明显差异，发言无明显聚类。即通过发言判断某用户是否存在安全隐患，不可行。

基于上述结论，有如下推测：若将SNS的用户有特定需求包括不限于共享性需求时，记为一个触发条件。隐私悖论导致的隐私泄露，为偶然事件。则遭遇该事件的用户在正常活动与泄露隐私两种状态中随时切换。当触发条件满足时，用户牺牲个人隐私换取满足需求；而在需求满足后，又继续正常的社交活动。所以该类用户属于普通用户的子集，且未必是真子集。

五、建议的解决办法

SNS服务端的安全策略

1)创建资源共享特殊域，用以资源共享及分发，完成站内资源交流，避免SNS之间产生交叉，导致用户SNS间关系被攻击者连接。

2)以用户关系深度作为信任度。

3)资源共享区域信息对低信任度用户不可见，过滤部分非活跃SNS攻击者及攻击账户，增加攻击成本。

4)进入资源共享区域需要SNS交流损耗(包括不限于论坛币)，进一步增加攻击成本，避免出现大规模批量攻击。

通过隔离开SNS中用户共享性需求与表达性需求的实现区域，将隐私信息分离并保护起来。并且通过权限设置以及有偿获取在不影响用户使用的情况下增加获取难度。增加攻击者自动化攻击SNS的成本，增加了攻击者进行社会工程学攻击的难度，从而保护了用户的信息安全。