人
已阅读
已阅读
监控暗网中的网络安全信息
作者:集群智慧云安服 来源:集群智慧云安服 发布时间:2021-11-19
介绍
暗网由于其隐蔽于搜索引擎和普通用户之外,被网络犯罪分子用来提供各类非法服务和商品。在暗网社区中,许多交易的商品都与网络安全领域高度相关,如 0day 漏洞的信息、某些网站的用户信息数据库或可租用的僵尸网络。这篇论文中,作者提出了 BlackWidow,可以对特定的暗网社区论坛进行监测并将收集到的数据融合到一个分析框架中,然后将论坛数据和相应的关系通过知识图谱表示出来,提供给分析人员交互式的搜索功能。实验表明,BlackWidow 可以推断出帖子作者与论坛之间的关系,并检测网络安全相关主题的讨论趋势。
BlackWidow 的整体架构是由 5 个环节组成的处理链,分别是获得访问权、收集原始数据、解析原始数据、分析数据中包含的实体以及关系、结果展示。
Planning & requirements:最初的规划和需求分析阶段是人工方式进行的,首先需要确定下合适的暗网论坛,获取网站的地址,然后根据网站的要求注册帐号并验证,来获得论坛的访问权限。帐号获得访问权后,剩下的步骤将完全自动化进行。
Collection:收集阶段包含 Tor 连接的建立和数据爬取两个任务。BlackWidow 会自动登录已注册好的帐号,并利用 nodejs 的无头浏览器访问论坛收集数据。这种方式更接近真实用户的行为,可以降低被论坛反爬机制阻止的概率。
Processing:解析阶段首先对收集下来的 HTML 文件进行解析,获取页面的文本信息,然后使用翻译 API 将非英语内容转换为英语。BlackWidow 设计的知识图谱本体如下图所示,从文本中提取这些实体及关系存入 Elasticsearch 中。
Analysis:
推断用户间关系:一个帖子是由一个用户发布,然后其他用户在该帖子下方发表回复。从时间顺序来看,如果用户 B 在用户 A 之后发表了一个回复,则可以定义用户 A 到用户 B 的关系,因为 B 在 A 之后的回复可以看作是 B 与 A 的交互行为。
识别主题:帖子中的回复内容一般与帖子的主题有关,但不容易了解哪些帖子涉及了相同的主题。BlackWidow 使用基于 LDA 的无监督文本聚类方法,将帖子的回复分组为不同类别,如僵尸网络、数据库、漏洞利用、DDoS 等。
识别网络安全趋势:BlackWidow 融合了不同论坛的帖子、回复和类别并汇总到一个时间序列中,通过对这些时间序列进行分析,比如短时间内这些序列经历高速增长或下降,一定程度上代表了这段时间内的话题趋势如何。
Dissemination:在提取和分析阶段结束后,BlackWidow 支持将数据进行各种类型的可视化并提供查询接口,供分析人员使用。
实验及分析
作者选择了 7 个论坛进行相关的分析,持续收集数据 1 年。在作者撰写论文时,只有 4 个论坛仍然能够访问,这也说明了这类暗网论坛生命周期短、波动性高。
论坛规模可以通过帖子数量或用户数量来评估,下面两个图分别是 7 个论坛的用户数量和帖子数量情况。
可见,论坛 5 拥有最多的用户数量,而论坛 3 的帖子数量最多。然而平均来说,论坛 5 的一个用户只发表了 2.28 篇回复,这可能是由于论坛 5 是一个深网论坛,不需要 Tor 等其他软件就能够访问,因此用户来源更加广泛。
论坛间的关系通过不同论坛内用户的用户名关联性确定,结果如下图所示。可以看到,使用同一语言的论坛间有着大量的重叠。然而,论坛 5 则显示出与其他大多数论坛都有着一定的重叠,如果将这些交叉点视为传播渠道,就可以说明开放性较高的论坛 5 为更深层的其他暗网论坛提供了信息传播的切入点。
论坛内用户的关系,则通过查看他们共同回复过的帖子来进行确定。下图是论坛 4 和论坛 5 的分析结果,图中的点表示单个用户,边则表示了他们存在的关系,节点的大小表示边的数量,以不同颜色表示其中的子社区。
可以看出,两个论坛的差异比较明显。论坛 4 的总体规模比较小,但用户间的密度更大;而论坛 5 中存在许多大型节点,实际查看发现,他们是一些产品序列号的供应商或论坛的版主管理员。
5 个最热门的网络安全相关帖子所占的比例与时间的关系。可以看出,讨论数据泄露的比例在逐年上升,与漏洞和数据库相关的主题数量基本保持稳定,DDoS 相关话题在 16 年有过一次高峰,其他时间则与僵尸网络的讨论热度差不多,相对比较冷门。