金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210922781.4 (22)申请日 2022.08.02 (71)申请人 中国电子科技 集团公司信息科 学研 究院 地址 100041 北京市石景山区实兴大街金 府路30号院4号楼 (72)发明人 徐桂忠 张淯舒 钱茛南 林倩如  (74)专利代理 机构 北京中知法苑知识产权代理 有限公司 1 1226 专利代理师 李明 赵吉阳 (51)Int.Cl. H04L 9/40(2022.01) H04L 67/1097(2022.01) G06N 3/04(2006.01) G06F 40/30(2020.01)G06F 40/295(2020.01) G06F 16/951(2019.01) G06F 16/906(2019.01) G06F 16/903(2019.01) G06F 16/27(2019.01) G06F 16/215(2019.01) (54)发明名称 数据信息服 务系统 (57)摘要 本公开涉及互联网技术领域, 提供一种数据 雷达监测系统, 包括: 数据雷达子系统, 用于通过 暗网代理节 点接入暗网网络空间, 利用暗网网络 爬虫, 对所述暗网网络空间中的暗网节点进行分 布式探测, 获取所述暗网节点的特征信息; 数据 监测与分析子系统, 用于基于所述特征信息, 对 所述暗网网络空间中的目标暗网节点进行数据 采集, 并对采集到的数据进行内容分析, 抽取出 所述采集到的数据对应的数据特征, 对 所述数据 特征进行分析处理, 以实现对所述暗网网络空间 的监测与分析。 本公开实现了对暗网网络空间的 监测与分析, 有效地对暗网网络空间进行了数据 挖掘, 获取了其中的情 报信息。 权利要求书3页 说明书9页 附图1页 CN 115296892 A 2022.11.04 CN 115296892 A 1.一种数据信息服 务系统, 其特 征在于, 所述数据信息服 务系统包括: 数据雷达子系统, 用于通过暗网代理节点接入暗网网络空间, 利用暗网网络爬虫, 对所 述暗网网络空间中的暗网节点进行分布式探测, 获取 所述暗网节点的特 征信息; 数据监测与分析子系统, 用于基于所述特征信息, 对所述暗网网络空间中的目标暗网 节点进行数据采集, 并对采集到的数据进行内容分析, 抽取出所述采集到的数据对应的数 据特征, 对所述数据特 征进行分析处 理, 以实现对所述暗网 网络空间的监测与分析。 2.根据权利要求1所述的数据信 息服务系统, 其特征在于, 所述数据雷达子系统包括匿 名网络节点利用模块、 数据探测模块、 数据传输模块和第一数据处 理模块, 其中: 所述匿名网络节点利用模块, 用于在所述暗网网络空间部署若干受控节点, 通过所述 受控节点探测所述暗网节点, 对暗网流 量进行检测, 并提供匿名网络代理; 所述数据探测模块, 用于基于所述匿名网络代理, 对所述暗网网络空间的网络服务和 服务指纹进行探测, 并根据探测结果构建暗网节点服务及指纹探测数据库; 检测所述暗网 节点中存在的潜在漏洞, 对所述潜在漏洞进 行验证, 收集所述暗网节点的脆弱性信息, 并利 用所述潜在漏洞对所述暗网节点进行控制; 探测并发现所述暗网节点对应的暗网节点资 源, 并将所述暗网节点资源作为所述暗网节点的特征信息, 所述暗网节点资源包括暗网IP 地址、 暗网IP地址的位置信息、 开 放端口、 ban ner信息、 使用软件及版本中的至少一 者; 所述数据传输模块, 用于将所述数据探测模块探测到的所述暗网节点资源采用预设的 隐蔽传输方式传输 至所述数据处 理与分析模块; 所述第一数据处理模块, 用于对所述暗网节点资源进行处理, 形成预设数据格式的数 据, 得到所述暗网节点的特征信息; 其中, 所述预设数据格式中的字段包括IP地址、 设备名 称、 设备固件版本、 服 务类型、 访问地址、 端口信息、 脆弱性信息中的至少一 者。 3.根据权利要求2所述的数据信息服 务系统, 其特 征在于, 所述匿名网络节点利用模块, 具体用于: 利用已有的暗网资源数据和匿名网络自身的技术特征, 建立相应的流量检测节点、 匿 名网络代理节点和数据通信传输节点, 深入探测暗网流量情况; 使用匿名网络代理和防溯 源通信传输技 术, 实现已建立的各节点之间的防溯源隐匿通信; 所述第一数据处 理模块, 具体用于: 对所述暗网节点资源进行数据标注、 数据识别和数据清洗, 得到所述预设数据格式的 数据。 4.根据权利要求3所述的数据信息服务系统, 其特征在于, 所述第一数据处理模块, 具 体用于对所述暗网节点资源进行 数据标注, 包括: 所述第一数据处 理模块, 具体用于: 根据预设的通用标注需求、 用户的自定义标注需求以及用户自定义的树形结构标注体 系, 对基于所述暗网节点资源形成的数据表和/或数据列表进行 标注; 其中, 对基于所述暗网节点资源形成的数据表进行标注, 包括: 对所述数据表的置信度、 数据 来源、 数据内容所在区域、 用户自定义信息中的至少一 者进行标注; 对基于所述暗网节点资源形成的数据列表进行标注, 包括: 根据所述用户自定义的树 形结构标注体系, 对所述数据列表中的数据列进行业 务级标注; 所述第一数据处 理模块, 具体用于对所述暗网节点资源进行 数据识别, 包括:权 利 要 求 书 1/3 页 2 CN 115296892 A 2所述第一数据处 理模块, 具体用于: 利用预设的自动识别模型, 对所述暗网节点资源形成的数据列表中的各数据列的数据 类型进行识别, 并根据 识别出的数据类型对各数据列进 行标注; 其中, 所述数据类型包括地 名、 日期时间、 IP地址、 GP S位置信息中的至少一 者; 所述第一数据处 理模块, 具体用于对所述暗网节点资源进行 数据清洗, 包括: 所述第一数据处 理模块, 具体用于: 对所述暗网节点资源形成的数据列表进行 结构编辑和内容编辑; 其中, 所述内容编辑包括: 根据预设的数据清洗规则和用户自定义的数据清洗规则, 对所述 数据列表中的数据进 行内容级别的清洗操作, 所述清洗操作包括字段拼接、 字段拆 分、 字段 复制、 字符串提取、 字符串替换、 增加前/后缀、 清除指定字符、 字段截断、 时间变换、 繁简体 转换中的至少一 者。 5.根据权利要求1所述的数据信 息服务系统, 其特征在于, 所述数据监测与分析子系统 包括: 暗网接入模块, 用于基于所述暗网节点的特征信息以及暗网接入代理, 建立与所述暗 网网络空间的通信链路, 并根据所述通信链路的状态, 及时对 所述通信链路进 行更新, 以确 保实现与所述暗网网络空间的通信连接; 其中, 所述暗网网络空间包括Tor暗网、 I2P暗网、 ZeroNet暗网中的至少一 者; 采集代理模块, 用于基于所述通信链路, 根据 预设的采集任务, 利用爬虫程序对所述目 标暗网节点进行 数据采集; 第二数据处理模块, 用于根据预先配置的数据处理规则, 对所述采集代理模块采集到 的数据进行处 理, 得到所述目标暗网节点对应的预设形式数据; 数据分析模块, 用于对所述预设形式数据进行分析处理, 生成所述目标暗网节点对应 的数据分析 结果。 6.根据权利要求5所述的数据信息服务系统, 其特征在于, 所述第二数据处理模块包 括: 数据清洗模块, 用于根据预先配置的数据提取规则, 从所述采集代理模块采集到的数 据中提取目标数据, 根据预先配置的数据清洗规则, 去除所述 目标数据中的预设无用符号 和停用词, 并进行去重处理, 以对所述采集代理模块采集到的数据进 行清洗; 根据预设的字 段映射规则, 将清洗后的数据映射至预设的结构化数据字段, 得到所述预设形式数据; 数据标签管理模块, 用于采用基于字符串 匹配的分词方法、 基于统计的分词方法、 基于 理解的分词 方法中的至少一者, 对所述预设形式数据进行分词处理, 得到所述预设形式数 据的分词结果, 并根据所述分词结果, 为所述预设形式数据设置数据标签, 得到所述目标暗 网节点对应的带 标签数据。 7.根据权利要求6所述的数据信息服 务系统, 其特 征在于, 所述数据分析模块包括: 语义识别模块, 用于采用基于Skip ‑gram模型的方法或者LSA算法中的至少一者, 对所 述带标签数据进行语义识别, 得到语义识别结果; 命名实体识别模块, 用于采用基于长短期记忆网络的命名实体识别模型, 对所述带标 签数据进 行命名实体识别, 得到命名实体识别结果, 其中, 所述基于长 短期记忆网络的命名 实体识别模型包括 lookup层、 双向LSTM层和CRF层;权 利 要 求 书 2/3 页 3 CN 115296892 A 3

PDF文档 专利 数据信息服务系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据信息服务系统 第 1 页 专利 数据信息服务系统 第 2 页 专利 数据信息服务系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:27:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。