金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111475705.5 (22)申请日 2021.12.0 6 (71)申请人 中国电子科技 集团公司第三十 研究 所 地址 610000 四川省成 都市高新区创业路6 号 (72)发明人 刘志洁 丁建伟 李航 陈周国  (74)专利代理 机构 成都九鼎天元知识产权代理 有限公司 51214 代理人 刘世权 (51)Int.Cl. G06F 16/906(2019.01) G06F 16/903(2019.01) G06F 16/2458(2019.01) G06Q 10/04(2012.01)G06Q 50/26(2012.01) (54)发明名称 一种基于标注体系的暗网站点用户画像方 法 (57)摘要 本发明公开了一种基于标注体系的暗网站 点用户画 像方法, 包括以下步骤: S1、 从暗网用户 发布商品中抽取用户联系方式; S2、 利用商品标 注技术对暗网商品进行分类; S3、 基于用户发布 商品类别, 完善用户兴趣点和犯罪类型; S4、 根据 用户基本信息、 联系方式、 兴趣点和犯罪类型对 用户进行画像。 本发明结合暗网数据特性, 提供 一套通用的暗网交易站点用户画 像方案, 利用文 本分类模型、 统计方法等手段对暗网用户的相关 信息进行分析, 从用户基本信息、 联系方式、 兴趣 点、 涉案类型维度对暗网用户进行全方位刻画。 权利要求书1页 说明书4页 附图3页 CN 113886670 A 2022.01.04 CN 113886670 A 1.一种基于标注体系的暗网站点用户画像方法, 其特 征在于, 包括以下步骤: S1、 从暗网用户发布商品中抽取用户联系方式; S2、 利用商品标注技 术对暗网商品进行分类; S3、 基于用户发布商品类别, 完 善用户兴趣点和犯罪类型; S4、 根据用户基本信息、 联系方式、 兴趣点和犯罪类型对用户进行画像。 2.根据权利要求1所述的基于标注体系的暗网站点用户画像方法, 其特征在于, 所述步 骤S1的具体步骤为: S11、 对暗网商品名称、 商品描述文本数据的异常字符、 错误文本以及字符大小写进行 规范化处 理; S12、 针对暗网商品数据中隐含的联系方式类型, 分别设计正则表达式从文本中匹配符 合预定义格式的联系方式类型, 通过Pat tern模块获取文本中符合预定义模式的字串; S13、 基于Pattern模块获取的字串, 根据 其上下文判断其是否为真实联系方式, 将非联 系方式的字串 进行过滤, 得到用户联系方式。 3.根据权利要求2所述的基于标注体系的暗网站点用户画像方法, 其特征在于, 所述步 骤S13中的判断依据为符合格式的字串左侧文本内容和字串右侧文本内容。 4.根据权利要求1所述的基于标注体系的暗网站点用户画像方法, 其特征在于, 所述步 骤S2具体为: 采用FastText模型对商品进行一 二级分类。 5.根据权利要求4所述的基于标注体系的暗网站点用户画像方法, 其特征在于, 所述 FastText模型包括依次连接的输入层X1 ‑Xn、 中间层Hid den和输出层Output。 6.根据权利要求1所述的基于标注体系的暗网站点用户画像方法, 其特征在于, 所述步 骤S3具体为: 基于 分类生成的商品类别数据, 对用户发布的商品类别进 行统计, 将统计结果 商品数量多的商品类别作为用户兴趣点, 构建犯罪类型预测模型, 根据用户发布商品类别 分布特征, 推断用户犯罪类型。权 利 要 求 书 1/1 页 2 CN 113886670 A 2一种基于 标注体系 的暗网站点用户画像方 法 技术领域 [0001]本发明属于 互联网技术领域, 具体涉及一种基于标注体系的暗网站点用户画像方 法。 背景技术 [0002]暗网市场 (或 “暗网”) 是专门从事非法商品交易的商业网站, 如丝绸之路、 暗网中 文交易市场等站点, 此类网站中的交易商品包含武器、 假身份证、 被盗信用卡、 泄露数据等 内容。 目前用户画像的方法多基于人物属性信息收集、 机器学习、 人物社交关系分析等策 略, 主要针对普通用户, 实现对明网人物的刻画。 暗网交易市场中的用户画像维度和明网有 所不同, 无法直接利用明网的用户画像构建方案 。 [0003]目前明网中用户画像构建方案包含基于深度学习的用户画像构建、 基于社交网络 数据的人物画像构建等。 暗网中由于用户属性缺 失、 数据量少等原因, 暂无通用的用户画像 构建方案 。 [0004]基于深度学习的用户画像构建方案通过人工标注的用户画像数据集对用户画像 各维度进行训练和预测。 该方案需要大量的人工标注和用户基本属 性信息, 无法直接应用 于暗网。 [0005]基于社交网络数据的人物画像对人物的隐形属性和人物关系属性等进行挖掘, 从 而形成人物画像。 该方案需要用户关系信息、 用户基本属性信息等, 暗网中由于此类数据缺 失, 无法直接使用该 方案。 发明内容 [0006]本发明的目的在于, 为克服现有技术缺陷, 提供了一种基于标注体系的暗网站点 用户画像方法。 [0007]本发明目的通过下述技术方案来实现: 一种基于标注体系的暗网站点用户画像方 法, 包括以下步骤: S1、 从暗网用户发布商品中抽取用户联系方式; S2、 利用商品标注技 术对暗网商品进行分类; S3、 基于用户发布商品类别, 完 善用户兴趣点和犯罪类型; S4、 根据用户基本信息、 联系方式、 兴趣点和犯罪类型对用户进行画像。 [0008]进一步地: 所述步骤S1的具体步骤为: S11、 对暗网商品名称、 商品描述文本数据的异常字符、 错误文本以及字符大小写 进行规范化处 理; S12、 针对暗网商品数据中隐含的联系方式类型, 分别设计正则表达式从文本中匹 配符合预定义格式的联系方式类型, 通过Pat tern模块获取文本中符合预定义模式的字串; S13、 基于Patt ern模块获取的字串, 根据其上下文判断其是否为真实联系方式, 将 非联系方式的字串 进行过滤, 得到用户联系方式。说 明 书 1/4 页 3 CN 113886670 A 3

.PDF文档 专利 一种基于标注体系的暗网站点用户画像方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于标注体系的暗网站点用户画像方法 第 1 页 专利 一种基于标注体系的暗网站点用户画像方法 第 2 页 专利 一种基于标注体系的暗网站点用户画像方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:04:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。