金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210921423.1 (22)申请日 2022.08.02 (71)申请人 中国电子科技 集团公司信息科 学研 究院 地址 100041 北京市石景山区实兴大街金 府路30号院4号楼 (72)发明人 徐桂忠 张淯舒 钱茛南 林倩如  (74)专利代理 机构 北京中知法苑知识产权代理 有限公司 1 1226 专利代理师 李明 赵吉阳 (51)Int.Cl. G06F 16/951(2019.01) G06F 16/953(2019.01) G06F 16/955(2019.01) G06F 16/906(2019.01)G06F 40/205(2020.01) G06F 40/242(2020.01) G06F 40/253(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 7/00(2006.01) H04L 9/40(2022.01) (54)发明名称 暗网监测与分析系统 (57)摘要 本公开涉及互联网技术领域, 提供一种暗网 监测与分析系统, 包括: 暗网接入子系统, 用于基 于暗网接入代理建立与暗网的通信链路, 确保实 现暗网接入; 采集代理子系统, 用于根据采集任 务采集暗网中的目标站点数据; 数据处理子系 统, 用于处理目标站点数据, 得到规范化数据并 为其添加数据标签; 数据存储子系统, 用于采用 分布式存储方式存储并管理目标站点数据及规 范化数据; 数据分析子系统, 用于分析添加数据 标签后的规范化数据, 生成数据分析结果; 暗网 数据态势展示子系统, 用于基于检索词从不同层 次检索目标站点数据, 以图形化方式多维度展示 目标站点数据。 本公开可实现暗网的实时监测、 隐藏服务发现、 数据采集与分析、 数据的安全稳 定存储和管理。 权利要求书3页 说明书13页 附图4页 CN 115203510 A 2022.10.18 CN 115203510 A 1.一种暗网监测与分析系统, 其特 征在于, 所述暗网监测与分析系统包括: 暗网接入子系统, 用于基于暗网接入代 理, 建立与暗网的通信链路, 并根据通信链路的 状态, 及时对通信链路进 行更换, 以确保实现暗网接入, 其中, 所述暗网包括Tor暗网、 I2P暗 网、 ZeroNet暗网中的至少一 者; 采集代理子系统, 用于根据采集任务, 利用爬虫程序采集暗网中的目标站点数据; 数据存储子系统, 用于采用分布式存 储方式对所述目标站点数据进行存 储和管理; 数据处理子系统, 用于根据 预先配置的数据处理规则, 对所述目标站点数据进行处理, 得到所述目标站点数据对应的规范化数据, 并为 规范化数据添加数据标签; 数据分析子系统, 用于利用统计分析方法对添加数据标签后的规范化数据进行分析处 理, 生成所述目标站点数据对应的数据分析 结果; 暗网数据态势展示子系统, 用于基于检索词对所述目标站点数据进行不同层次的检 索, 并以图形化方式通过多个维度展示所述目标站点数据; 所述数据存 储子系统, 还用于采用分布式存 储方式对规范化数据进行存 储和管理。 2.根据权利要求1所述的暗网监测与分析系统, 其特征在于, 所述暗网接入子系统包 括: Tor接入模块, 用于基于Tor暗网接入代理, 建立与Tor暗网的通信链路, 并根据通信链 路的状态, 及时对通信链路进行 更换, 以确保实现Tor暗网接入; I2P接入模块, 用于基于I2P暗网接入代理, 建立与I2P暗网 的通信链路, 并在I2P暗网接 入代理中添加多个代理服务, 当其中一个代理服务不可用时, 通过其他代理服务建立与I2P 暗网的通信链路, 以确保实现I2P暗网接入; ZeroNet接入模块, 用于基于ZeroNet暗网接入代理, 建立与ZeroNet暗网的通信链路, 并根据通信链路的状态, 及时对通信链路进行 更换, 以确保实现Zero Net暗网接入。 3.根据权利要求1所述的暗网监测与分析系统, 其特征在于, 所述采集代理子系统包 括: 采集任务调度模块, 用于配置采集任务和采集策略; 爬虫程序模块, 用于将所述采集任务划分为多个采集子任务, 利用所述采集策略, 采用 分布式网络爬虫根据所述采集子任务对暗网中的目标站 点进行爬取, 以获得所述目标站 点 数据; 内容解析模块, 用于对所述目标站点数据进行内容解析, 得到所述目标站点数据的数 据内容; 要素提取模块, 用于提取 所述数据内容的特 征和特征值。 4.根据权利要求1所述的暗网监测与分析系统, 其特征在于, 所述数据存储子系统包括 数据分发模块、 语句解析模块、 并行处 理模块和汇总处 理模块, 其中: 所述数据分发模块, 用于接收数据查询语句, 并采用轮询调度策略将所述数据查询语 句分发至所述语句解析模块; 所述语句解析模块, 用于对所述数据查询语句进行语法检查和语义检查, 并对所述数 据查询语句进行解析, 生成语法解析树和数据查询执行计划, 并将所述语法解析树和所述 数据查询执 行计划发送给 所述数据分发模块; 所述数据分发模块, 还用于按照预设的数据切分策略, 对所述语法解析树和所述数据权 利 要 求 书 1/3 页 2 CN 115203510 A 2查询执行计划进 行数据切分, 并将数据切分后的所述语法解析树和所述数据查询执行计划 分发至所述并行处 理模块的相应区域; 所述并行处理模块, 用于根据数据切分后的所述数据查询执行计划, 判断数据切分后 的所述语法解析树是否具有预设的执行顺序关系, 若 数据切分后的所述语法解析树具有 预 设的执行顺序关系, 则按照预设的执行顺序关系对数据切分后的所述语法解析树进行处 理, 若数据切分后的所述语法解析树不具有预设的执行顺序关系, 则按照预设的并行处理 方式对数据切分后的所述语法解析树进行处 理; 所述汇总处理模块, 用于对所述并行处理模块的处理结果进行汇总, 以得到所述数据 查询语句对应的数据查询结果。 5.根据权利要求1所述的暗网监测与分析系统, 其特征在于, 所述数据处理子系统包 括: 数据清洗模块, 用于根据预先配置的数据提取规则, 从所述目标站点数据中提取目标 数据; 根据预先配置的数据 清洗规则, 去除所述目标数据中的无用符号和停用词, 并进行去 重处理, 以对所述目标数据进 行清洗; 根据预设的字段映射规则, 将清洗后的所述目标数据 映射至预设的结构化数据字段, 以得到所述目标 数据对应的规范化数据; 数据标签管理模块, 用于采用基于字符串 匹配的分词方法、 基于统计的分词方法、 基于 理解的分词方法中的至少一者, 对规范化数据进 行分词处理, 得到规范化数据的分词结果, 并根据所述分词结果 为规范化数据设置数据标签。 6.根据权利要求1所述的暗网监测与分析系统, 其特征在于, 所述数据分析子系统包 括: 语义识别模块, 用于采用基于Skip ‑gram模型的方法或者LSA算法中的至少一者, 对添 加数据标签后的规范化数据进行语义识别, 得到语义识别结果; 命名实体识别模块, 用于采用基于长短期记忆网络的命名实体识别模型, 对添加数据 标签后的规范化数据进 行命名实体识别, 得到命名实体识别结果, 其中, 所述基于长 短期记 忆网络的命名实体识别模型包括 lookup层、 双向LSTM层和CRF层; 关键语句识别模块, 用于对添加数据标签后的规范化数据进行分句处理, 将分句处理 得到的词和句子通过词嵌入方式进行向量表示, 利用机器学习方法对向量表示后的词和句 子进行排序, 将排名在预设数值之前的词和/或句子作为关键语句, 以得到 关键语句识别结 果; 分类分析模块, 用于基于训练好的分类器模型, 根据添加数据标签后的规范化数据的 文本特征, 对添加数据标签后的规范化数据进行分类, 得到分类分析结果, 其中, 所述训练 好的分类器模型预先根据样本文本特征的文本 向量空间对预设的文本分类算法进行训练 得到; 聚类分析模块, 用于通过TF ‑IDF对添加数据标签后的规范化数据进行特征提取, 并使 用基于密度的DBSCAN 算法进行聚类, 得到聚类分析 结果; 关联分析模块, 用于根据 预设的数据特征, 从所述数据存储子系统中筛选出相关数据, 利用预设的关联分析算法进行关联分析, 得到关联分析 结果。 7.根据权利要求1所述的暗网监测与分析系统, 其特征在于, 所述暗网数据态势展示子 系统包括:权 利 要 求 书 2/3 页 3 CN 115203510 A 3

PDF文档 专利 暗网监测与分析系统

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 暗网监测与分析系统 第 1 页 专利 暗网监测与分析系统 第 2 页 专利 暗网监测与分析系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:27:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。