金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210902478.8 (22)申请日 2022.07.29 (71)申请人 哈尔滨工业大 学 (威海) 地址 264200 山东省威海市环翠区文化西 路2号 (72)发明人 张兆心 王路恒 赵东 黄俊凯  胡文聪  (74)专利代理 机构 威海中智弈航专利代理事务 所(普通合伙) 3738 8 专利代理师 唐晓刚 唐宇 (51)Int.Cl. H04L 9/40(2022.01) H04L 61/4511(2022.01) G06F 16/35(2019.01) G06F 16/955(2019.01)G06V 20/62(2022.01) (54)发明名称 基于文本和图像的多模态色情和赌博域名 自动检测方法 (57)摘要 本发明提供一种基于文本和图像多模态色 情和赌博域名自动检测方法, 其针对色情、 赌博 网页的识别, 利用深度学习和统计学习相结合的 方法来实现对网页数据进行特征抽取, 使用基于 稀疏多头自注意力的文本图像多模态模型的方 法对网页进行识别, 其针对网页所显示的内容丰 富且包含大量图片与超长文本的特点进行多模 态信息融合, 从 网页文本和网页截图两个维度对 网页进行特征抽取。 本发明可广泛用于基于文本 和图像多 模态色情和赌博域名自动检测中。 权利要求书3页 说明书7页 附图2页 CN 115277211 A 2022.11.01 CN 115277211 A 1.一种基于文本和图像多模态色情和赌博域名自动检测方法, 其特征是: 包括以下步 骤: 步骤(一): 训练数据获取; 以国内多个知名导航网站为起点, 使用爬虫爬取各种类型的 URL对应的网页文本与网页快照作为数据集; 步骤(二): 模型训练与测试; 构建适用于含有长文本和图像特征的网页数据的深度学 习模型, 通过掩蔽语 言模型(MLM)和图文匹配(ITM)的预训练任务进 行训练并通过下游分类 任务微调, 使模型达 到识别色情和赌 博网页准确率召回率均超过9 9%的性能; 步骤(三): 系统部署进行DNS不良域名阻断; 建立服务器与DNS服务器的通信进行旁路 监听, 获取用户的DNS请求日志中的域名信息, 根据域名以及域名对应的URL进 行判断, 阻断 含有色情、 赌 博域名的恶意DNS请求。 2.根据权利要求1所述的一种基于文本和图像多模态色情和赌博域名自动检测方法, 其特征在于: 所述 步骤(一)包括以下步骤: 步骤(1‑1): 爬取多种类型一定数量的互联网可以浏览的违规和合规网站的URL为数据 集; 步骤(1‑2): 以概率P=0.68删除HTML  DOM中所有字符数小于50的文本元素的子树, 滤 掉页眉、 页脚、 版权、 表单和iFrames并删除所有标签和CSS, 将绝大多数网页文本处理成匹 配模型输入长度的样本; 步骤(1‑3): 图像熵表示为 图像灰度级集合的比特平均数, 代表图像的信息量, 过滤掉 一元灰度熵小于1的网页快照样本 。 3.根据权利要求2所述的一种基于文本和图像多模态色情和赌博域名自动检测方法, 其特征在于: 所述步骤(1 ‑1)中, 爬取多种类型互联网可以浏览 的违规和合规网站, 包括色 情、 赌博、 生活服务、 休闲娱乐、 教育文化、 行业 企业、 网络科技、 购物网站、 新闻媒体、 交通旅 游、 医疗健康、 体育健身类型; 爬取一定数量 为不低于300万。 4.根据权利要求1所述的一种基于文本和图像多模态色情和赌博域名自动检测方法, 其特征在于: 所述 步骤(二)包括以下步骤: 步骤(2‑1): 构建基于稀疏多头自注意力的文本图像多模态模型, 设置掩蔽语言模型 (MLM)和图文匹配(ITM)的预训练任务; 步骤(2‑2): 人工标注色情、 赌博、 合规三种类型的数据分别为10万、 10万、 20万, 以5: 3: 2的比例分为训练集、 验证集和 测试集, 其中验证集和 测试集中的数据不 参与预训练。 5.根据权利要求1所述的一种基于文本和图像多模态色情和赌博域名自动检测方法, 其特征在于: 所述 步骤(三)包括以下步骤: 步骤(3‑1): 在服务器上部署训练的模型并与DNS服务器建立通讯, 并获取用户的DNS请 求日志抽取域名, 匹配黑白名单, 若没有匹配结果, 通过爬取网页信息时使用了无头浏览器 进行网页内容的爬取, 得到的文本、 网页快照信息即为用户正常访问时加载的内容; 步骤(3‑2): 分别从网站源代码和网站截图中提取文本和图像特 征; 步骤(3‑3): 从HTML代码中提取出文本数据, 删除所有HTML标签, 去除文本中的干扰信 息, 提取出来文本之后, 进 行分词, 将文本输入转换成模型可以接收的输入, 然后完成解码, 在解码时, 模 型首先产生一个wordpiece序列, 然后被转换成相应的单词序列, WordPiece的 实现目标是让合并子词后的句子的似然值变化小于一定值, 按照以下公 式(1)和公 式(2)计权 利 要 求 书 1/3 页 2 CN 115277211 A 2算似然值: 公式(1): 公式(2): 其中, 公式中, S表示由n个子词组成的句子, ti表示子词, 公式(1)表示了句子S的似然 值, 公式(2)表示了把相邻位置的x和y两个子词进行合并为子词z, 句子似然值的变化; 步骤(3‑4): 对文本进行分词并删除停止词; 使用bert ‑base‑chinese的tokenizer对输 入文本进行编码, 并压缩处 理网页快照, 输入 模型进行训练; 步骤(3‑5): 将网页快照输入两层卷积和包含两个残差块的网络中, 其中每个残差块里 有2个有相同输出通道数的3 ×3卷积层; 每个卷积层后接一个批量归一化层和ReLU激活函 数; 对于快照I∈RC*H1*W1, 采用残差网络进行预处理为I∈RC*H2*W2, 将I 分割为分辨率P*P 图片块并展平 为V∈RN*(P*P*C), 使用R(P*P*C)*H的全连接层对齐文本嵌入的维度, 在尾部 加入一个使用词嵌入矩阵T∈RN*H转化为1*H向量的CLS, 加上可学习的位置嵌入参数Pv∈R (N+1)*H, 最后v”∈R(N+1)* H; 步骤(3‑6): 使用bert ‑base‑chinese的tokenizer对输入文本进行编码; 对于输入文本 t∈RL*N, 在文本头部加入CLS, 文本尾部加入SEP, 并使用一个词嵌入矩阵T∈RN*H, 将t转化 为t’∈R(L+2)* H, 并加上 可学习的位置嵌参数Pt∈R(L+2)* H, 最后t”∈R(L+2)* H; 步骤(3‑7): 在上述文本和图像嵌入矩阵中加入相应的模态类别向量并将二者串联成 输入为Spare Multi‑head Attention  Transformer Encoder的z∈R(L+N+3)*H; 其中H 大小 为768, 层深度为4, P为32, MLP大小为3,072, 注意力机制头的数量为4; 快照图像格式为3 × 1920×9066, 即C为3, H1为1920, W1为9066; 经过残差网络处理后, 生成3 ×4048×1798是一 个图像, 其中C为3, H2为448, W2为1798; 块数n为2352, 块分辨率为32 ×32; 全连接层输出的 第二维度h为768; 步骤(3‑8): 将上述网络提取的网页文本和图像特征输入到Cat ‑Classfication ‑FC层 中进行色情、 赌博网页的分类; 为后续对色情、 赌博的域名的DNS请求进行阻断、 抢答, 更新 DNS记录黑白名单提供 数据支撑; 对判定为色情、 赌 博的域名的DNS请求进行阻断、 抢答; 步骤(3‑9): 构造DNS响应报文, 使得此恶意域名的解析请求被指向内部的告警网页, 从 而完成对于恶意 流量的阻断, 并更新 黑白名单, 提高再次阻断的速度。 6.根据权利要求5所述的一种基于文本和图像多模态色情和赌博域名自动检测方法, 其特征在于: 所述 步骤(3‑8)中, 使用Go语言作为 开发流量阻断子系统的工具。 7.根据权利要求5所述的一种基于文本和图像多模态色情和赌博域名自动检测方法, 其特征在于: 所述步骤(3 ‑8)中, 将恶意域名的数据库放在本地, 在判断一个DNS查询报文中 的域名是否是恶意域名时, 进行本地的磁盘I/O而不是远程数据库的网络I/O; 对于每个经 过检测设备网卡的DNS报文, 通过一个Go协程对于DNS报文进行处理, 判读其携带的域名是 否为恶意域名, 若为恶意域名, 则进行DNS抢答, 构造DNS响应报文, 使得此恶意域名的解析 请求被指向内部的告警网页, 从而完成对于恶意 流量的阻断。 8.根据权利要求5所述的一种基于文本和图像多模态色情和赌博域名自动检测方法, 其特征在于: 所述步骤(3 ‑9)中, 随着系统的持续运行, 处理的数据不断增加, 积累下来的数权 利 要 求 书 2/3 页 3 CN 115277211 A 3

PDF文档 专利 基于文本和图像的多模态色情和赌博域名自动检测方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于文本和图像的多模态色情和赌博域名自动检测方法 第 1 页 专利 基于文本和图像的多模态色情和赌博域名自动检测方法 第 2 页 专利 基于文本和图像的多模态色情和赌博域名自动检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:27:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。