金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210920916.3 (22)申请日 2022.08.02 (71)申请人 广州市玄武无线科技股份有限公司 地址 510000 广东省广州市天河区高普路 1021号501室6383号 (72)发明人 陈浩扬 陈鑫 徐雪芳 刘坤锐  (74)专利代理 机构 广州骏思知识产权代理有限 公司 44425 专利代理师 王晶 (51)Int.Cl. H04L 9/40(2022.01) G06V 20/62(2022.01) (54)发明名称 一种异常网页的识别方法、 装置、 设备和计 算机存储介质 (57)摘要 本发明涉及一种异常网页的识别方法、 装 置、 设备和计算机存储介质, 该异常网页的识别 方法包括如下步骤: S1: 获取待识别网页的待识 别图像, 且 所述待识别图像包括待识别网页的网 页图像和待识别网页子链接的子链接图像; S2: 获取待识别图像中的文本信息; S3: 利用文本信 息和敏感信息库对异常网页进行识别, 其通过对 待识别网页及其子链接网页的敏感信息进行识 别, 进而根据敏感信息的识别结果对异常网页进 行识别, 其可以避免敏 感信息隐藏在待识别网页 的子链接网页中而不能被识别, 提高了异常网页 识别的准确性。 权利要求书2页 说明书5页 附图1页 CN 115459946 A 2022.12.09 CN 115459946 A 1.一种异常网页的识别方法, 其特 征在于, 包括如下步骤: S1: 获取待识别网页的待识别图像, 且所述待识别图像包括待识别网页的网页图像和 待识别网页子链接的子链接图像; S2: 获取待识别图像中的文本信息; S3: 利用文本信息和敏感信息库对异常网页进行识别。 2.根据权利要求1所述的异常网页的识别方法, 其特 征在于, 步骤S1包括如下步骤: S11: 获取待识别网页网址及其子链接网址, 且子链接网址的数量 为至少一个; S12: 利用puppteer无头浏览器调用headless函数打开待识别网页网址和至少一个子 链接网址, 得到待识别网页和至少一个子链接网页; S13: 对待识别网页和至少一个子链接网页进行滚动截图, 得到网页图像和至少一个子 链接图像, 并利用网页图像和至少一个子链接图像得到待识别图像。 3.根据权利要求2所述的异常网页的识别方法, 其特征在于, 步骤S11中, 待识别网页的 子链接网址通过如下步骤获取: S111: 利用puppteer无头浏览器调用querySelectorAll函数, 获得待识别网页的超链 接标签; S112: 利用puppteer无头浏览器调用getAttribute函数, 获得超链接标签的超链接属 性; S113: 利用超链接属性获得待识别网页的子链接网址, 并利用puppteer无头浏览器调 用headles s函数打开子链接网址, 得到 子链接页面; S114: 针对子链接页面, 重复步骤S111 ‑S113, 直到满足 收敛条件时停止迭代, 得到至少 一个子链接网址 。 4.根据权利要求2所述的异常网页的识别方法, 其特征在于, 对待识别网页和至少一个 子链接网页进行滚动截图为利用puppteer无头浏览器调用页面截图函数对待识别网页和 至少一个子链接网页进行滚动截图, 且页面截图函数的ful lpage参数为t rue。 5.根据权利要求1 ‑4任一项所述的异常网页的识别方法, 其特征在于, 步骤S2包括如下 子步骤: S21: 利用OCR文字识别方法提取待识别图像的初始文本信息; S22: 利用特殊字符库去除初始文本信息中的特殊字符, 得到文本信息 。 6.根据权利要求5所述的异常网页的识别方法, 其特征在于, 步骤S22中, 利用特殊字符 库去除初始文本信息中的特殊字符为判断初始文本信息中是否包含特殊字符库中的特殊 字符, 如包 含, 则去除初始文本信息中的特殊字符。 7.根据权利要求5所述的异常网页的识别方法, 其特 征在于, 步骤S3包括如下子步骤: S31: 获取 敏感信息库, 且所述敏感信息库由多个敏感词或敏感字构成; S32: 判断文本信息是否包含敏感信 息库中的至少一个敏感字或敏感词, 且当文本信息 包含至少一个敏感字或敏感词时, 所述待识别网页为异常网页。 8.一种异常网页的识别装置, 其特 征在于, 包括: 图像获取模块, 用于获取待识别网页的待识别图像, 且所述待识别图像包括待识别网 页的网页图像和待识别网页子链接的子链接图像; 文本信息获取模块, 用于获取待识别图像中的文本信息;权 利 要 求 书 1/2 页 2 CN 115459946 A 2识别模块, 利用文本信息和敏感信息库对异常网页进行识别。 9.一种异常网页的识别设备, 其特征在于, 包括存储器、 处理器以及计算机程序, 所述 计算机程序存储在所述存储器中, 并被配置为由所述处理器执行以实现如权利要求1 ‑7任 一项所述的异常网页的识别方法。 10.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序, 所述计算机程序 被处理器执行以实现如权利要求1 ‑7任一项所述的异常网页的识别方法。权 利 要 求 书 2/2 页 3 CN 115459946 A 3

PDF文档 专利 一种异常网页的识别方法、装置、设备和计算机存储介质

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种异常网页的识别方法、装置、设备和计算机存储介质 第 1 页 专利 一种异常网页的识别方法、装置、设备和计算机存储介质 第 2 页 专利 一种异常网页的识别方法、装置、设备和计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:27:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。