金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111250138.3 (22)申请日 2021.10.26 (71)申请人 中国互联网络信息中心 地址 100190 北京市海淀区中关村南四街 4 号院2号楼5 06室 (72)发明人 张聪 张恒 杨磊  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 代理人 王宝筠 (51)Int.Cl. G06F 21/56(2013.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 网页识别模型训练方法、 网页识别方法、 装 置及设备 (57)摘要 本申请公开了一种网页 识别模型训练方法、 网页识别方法、 装置及设备, 获取网页中的网页 文本数据, 网页的类别包括不良网页和/或非不 良网页。 对网页文本数据进行文本特征提取, 获 取网页文本数据对应的训练文本特征向量。 网页 文本数据对应有网页类别标签。 根据训练文本特 征向量和网页文本数据对应的网页类别标签对 网页识别模型进行训练, 获取训练完成的网页 识 别模型。 网页识别模型用于识别网页的类别。 本 申请中的网页识别模型采用机器学习算法实现。 通过网页文本数据以及训练完成的网页识别模 型来识别网页类别的准确率和可靠性更高。 权利要求书3页 说明书12页 附图3页 CN 113987491 A 2022.01.28 CN 113987491 A 1.一种网页识别模型训练方法, 其特 征在于, 所述方法包括: 获取所述网页中的网页文本数据; 所述网页的类别包括 不良网页和/或非不良网页; 对所述网页文本数据进行文本特征提取, 获取所述网页文本数据对应的训练文本特征 向量; 所述网页文本数据对应有网页类别标签; 根据所述训练文本特征向量和所述网页文本数据对应的网页类别标签对网页识别模 型进行训练, 获取训练完成的所述网页识别模型; 所述网页识别模型用于识别所述网页的 类别; 所述网页识别模型采用机器学习算法实现。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述训练文本特征向量和所述训 练文本特征向量对应的网页类别标签对网页识别模型进行训练, 获取训练完成的所述网页 识别模型, 包括: 将所述训练文本特征向量输入到所述网页识别模型中, 获取所述网页识别模型输出的 所述网页文本数据对应的各个网页类别概 率; 比较各个所述网页类别概率, 将所述网页类别概率最大的网页类别作为所述网页文本 数据对应的预测网页类别; 根据所述网页文本数据对应的预测网页类别和所述网页文本数据对应的网页类别标 签, 对所述网页识别模型进行训练, 获取训练完成的所述网页识别模型。 3.根据权利要求1所述的方法, 其特征在于, 所述对所述网页文本数据进行文本特征提 取, 获取所述网页文本数据对应的训练文本特 征向量, 包括: 对所述网页文本数据进行分词处 理, 获取分词处 理后的网页文本数据; 基于N‑Gram语言模型对所述分词处理后的网页文本数据进行模型处理, 获取模型处理 后的网页文本数据; 基于词频 ‑逆文档词频模型对所述模型处理后的网页文本数据进行文本特征提取, 获 取所述网页文本数据对应的训练文本特 征向量。 4.根据权利要求3所述的方法, 其特征在于, 所述对所述网页文本数据进行分词处理, 获取分词处 理后的网页文本数据, 包括: 对所述网页文本数据进行文本清理, 获取清理后的网页文本数据; 对所述清理后的网页文本数据进行分词处 理, 获取分词处 理后的网页文本数据。 5.根据权利要求4所述的方法, 其特征在于, 所述对所述清理后的网页文本数据进行分 词处理, 获取分词处 理后的网页文本数据, 包括: 设置停用词和自定义词; 结合所述停用词和所述自定义词, 对所述清理后的网页文本数据进行文本分词, 获取 分词处理后的网页文本数据。 6.根据权利要求1 ‑5任一项所述的方法, 其特 征在于, 所述方法还 包括: 获取网页文本测试 数据; 对所述网页文本测试数据进行文本特征提取, 获取所述网页文本测试数据对应的测试 文本特征向量; 所述网页文本测试 数据对应有网页类别标签; 将所述测试文本特征向量输入到所述训练完成的网页识别模型中, 获取所述网页识别 模型输出的所述网页文本测试 数据对应的各个网页类别概 率; 基于所述网页文本测试数据对应的各个网页类别概率, 确定所述网页文本测试数据对权 利 要 求 书 1/3 页 2 CN 113987491 A 2应的预测网页类别; 根据所述网页文本测试数据对应的预测网页类别和所述网页文本测试数据对应的网 页类别标签, 对所述训练完成的网页识别模型进行评价。 7.根据权利要求6所述的方法, 其特征在于, 所述根据所述网页文本测试数据对应的预 测类别和所述网页文本测试数据对应的标签, 对所述训练完成的网页识别模型进行评价, 包括: 根据所述网页文本测试数据对应的预测类别和所述网页文本测试数据对应的网页类 别标签, 计算所述网页文本测试数据的评价值; 所述评价值包括准确率、 精确 率、 召回率和 F1分值中的一项或多 项; 基于所述评价 值对所述训练完成的网页识别模型进行评价。 8.一种网页识别方法, 其特 征在于, 所述方法包括: 获取所述网页中的待测网页文本数据; 对所述待测网页文本数据进行分词处 理, 获取分词处 理后的待测网页文本数据; 对所述分词处理后的待测网页文本数据进行文本特征提取, 获取所述预处理后的待测 网页文本数据对应的待测文本特 征向量; 将所述待测文本特征向量输入到网页识别模型中, 获取所述待测网页识别模型输出的 所述待测网页文本数据对应的网页类别概率; 所述网页识别模型由权利要求1 ‑7任一项所 述的网页识别模型训练方法训练得到; 基于所述待测文本特征向量对应的网页类别概率, 确定所述待测文本特征向量对应的 网页类别。 9.一种网页识别模型训练装置, 其特 征在于, 所述装置包括: 第一获取单元, 用于获取所述网页中的网页文本数据; 所述网页的类别包括不良网页 和/或非不良网页; 第一特征提取单元, 用于对所述网页文本数据进行文本特征提取, 获取所述网页文本 数据对应的训练文本特 征向量; 所述网页文本数据对应有网页类别标签; 训练单元, 用于根据 所述训练文本特征向量和所述网页文本数据对应的网页类别标签 对网页识别模型进行训练, 获取训练完成的所述网页识别模型; 所述网页识别模型用于识 别所述网页的类别; 所述网页识别模型采用机器学习算法实现。 10.一种网页识别装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取 所述网页中的待测网页文本数据; 处理单元, 用于对所述待测网页文本数据进行分词处理, 获取分词处理后的待测网页 文本数据; 特征提取单元, 用于对所述分词处理后的待测网页文本数据进行文本特征提取, 获取 所述预处 理后的待测网页文本数据对应的待测文本特 征向量; 输入单元, 用于将所述待测文本特征向量输入到网页识别模型中, 获取所述待测网页 识别模型输出的所述待测网页文本数据对应的网页类别概率; 所述网页识别模型由权利要 求1‑7任一项所述的网页识别模型训练方法训练得到; 确定单元, 用于基于所述待测文本特征向量对应的网页类别概率, 确定所述待测文本 特征向量对应的网页类别。权 利 要 求 书 2/3 页 3 CN 113987491 A 3

.PDF文档 专利 网页识别模型训练方法、网页识别方法、装置及设备

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网页识别模型训练方法、网页识别方法、装置及设备 第 1 页 专利 网页识别模型训练方法、网页识别方法、装置及设备 第 2 页 专利 网页识别模型训练方法、网页识别方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:03:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。