专利网页识别模型训练方法、网页识别方法、装置及设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111250138.3 (22)申请日 2021.10.26 (71)申请人中国互联网络信息中心地址 100190 北京市海淀区中关村南四街 4 号院2号楼5 06室 (72)发明人张聪　张恒　杨磊　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 代理人王宝筠 (51)Int.Cl. G06F 21/56(2013.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称网页识别模型训练方法、网页识别方法、装置及设备 (57)摘要本申请公开了一种网页识别模型训练方法、网页识别方法、装置及设备，获取网页中的网页文本数据，网页的类别包括不良网页和/或非不良网页。对网页文本数据进行文本特征提取，获取网页文本数据对应的训练文本特征向量。网页文本数据对应有网页类别标签。根据训练文本特征向量和网页文本数据对应的网页类别标签对网页识别模型进行训练，获取训练完成的网页识别模型。网页识别模型用于识别网页的类别。本申请中的网页识别模型采用机器学习算法实现。通过网页文本数据以及训练完成的网页识别模型来识别网页类别的准确率和可靠性更高。权利要求书3页说明书12页附图3页 CN 113987491 A 2022.01.28 CN 113987491 A 1.一种网页识别模型训练方法，其特征在于，所述方法包括：获取所述网页中的网页文本数据；所述网页的类别包括不良网页和/或非不良网页；对所述网页文本数据进行文本特征提取，获取所述网页文本数据对应的训练文本特征向量；所述网页文本数据对应有网页类别标签；根据所述训练文本特征向量和所述网页文本数据对应的网页类别标签对网页识别模型进行训练，获取训练完成的所述网页识别模型；所述网页识别模型用于识别所述网页的类别；所述网页识别模型采用机器学习算法实现。 2.根据权利要求1所述的方法，其特征在于，所述根据所述训练文本特征向量和所述训练文本特征向量对应的网页类别标签对网页识别模型进行训练，获取训练完成的所述网页识别模型，包括：将所述训练文本特征向量输入到所述网页识别模型中，获取所述网页识别模型输出的所述网页文本数据对应的各个网页类别概率；比较各个所述网页类别概率，将所述网页类别概率最大的网页类别作为所述网页文本数据对应的预测网页类别；根据所述网页文本数据对应的预测网页类别和所述网页文本数据对应的网页类别标签，对所述网页识别模型进行训练，获取训练完成的所述网页识别模型。 3.根据权利要求1所述的方法，其特征在于，所述对所述网页文本数据进行文本特征提取，获取所述网页文本数据对应的训练文本特征向量，包括：对所述网页文本数据进行分词处理，获取分词处理后的网页文本数据；基于N‑Gram语言模型对所述分词处理后的网页文本数据进行模型处理，获取模型处理后的网页文本数据；基于词频 ‑逆文档词频模型对所述模型处理后的网页文本数据进行文本特征提取，获取所述网页文本数据对应的训练文本特征向量。 4.根据权利要求3所述的方法，其特征在于，所述对所述网页文本数据进行分词处理，获取分词处理后的网页文本数据，包括：对所述网页文本数据进行文本清理，获取清理后的网页文本数据；对所述清理后的网页文本数据进行分词处理，获取分词处理后的网页文本数据。 5.根据权利要求4所述的方法，其特征在于，所述对所述清理后的网页文本数据进行分词处理，获取分词处理后的网页文本数据，包括：设置停用词和自定义词；结合所述停用词和所述自定义词，对所述清理后的网页文本数据进行文本分词，获取分词处理后的网页文本数据。 6.根据权利要求1 ‑5任一项所述的方法，其特征在于，所述方法还包括：获取网页文本测试数据；对所述网页文本测试数据进行文本特征提取，获取所述网页文本测试数据对应的测试文本特征向量；所述网页文本测试数据对应有网页类别标签；将所述测试文本特征向量输入到所述训练完成的网页识别模型中，获取所述网页识别模型输出的所述网页文本测试数据对应的各个网页类别概率；基于所述网页文本测试数据对应的各个网页类别概率，确定所述网页文本测试数据对权　利　要　求　书 1/3 页 2 CN 113987491 A 2应的预测网页类别；根据所述网页文本测试数据对应的预测网页类别和所述网页文本测试数据对应的网页类别标签，对所述训练完成的网页识别模型进行评价。 7.根据权利要求6所述的方法，其特征在于，所述根据所述网页文本测试数据对应的预测类别和所述网页文本测试数据对应的标签，对所述训练完成的网页识别模型进行评价，包括：根据所述网页文本测试数据对应的预测类别和所述网页文本测试数据对应的网页类别标签，计算所述网页文本测试数据的评价值；所述评价值包括准确率、精确率、召回率和 F1分值中的一项或多项；基于所述评价值对所述训练完成的网页识别模型进行评价。 8.一种网页识别方法，其特征在于，所述方法包括：获取所述网页中的待测网页文本数据；对所述待测网页文本数据进行分词处理，获取分词处理后的待测网页文本数据；对所述分词处理后的待测网页文本数据进行文本特征提取，获取所述预处理后的待测网页文本数据对应的待测文本特征向量；将所述待测文本特征向量输入到网页识别模型中，获取所述待测网页识别模型输出的所述待测网页文本数据对应的网页类别概率；所述网页识别模型由权利要求1 ‑7任一项所述的网页识别模型训练方法训练得到；基于所述待测文本特征向量对应的网页类别概率，确定所述待测文本特征向量对应的网页类别。 9.一种网页识别模型训练装置，其特征在于，所述装置包括：第一获取单元，用于获取所述网页中的网页文本数据；所述网页的类别包括不良网页和/或非不良网页；第一特征提取单元，用于对所述网页文本数据进行文本特征提取，获取所述网页文本数据对应的训练文本特征向量；所述网页文本数据对应有网页类别标签；训练单元，用于根据所述训练文本特征向量和所述网页文本数据对应的网页类别标签对网页识别模型进行训练，获取训练完成的所述网页识别模型；所述网页识别模型用于识别所述网页的类别；所述网页识别模型采用机器学习算法实现。 10.一种网页识别装置，其特征在于，所述装置包括：获取单元，用于获取所述网页中的待测网页文本数据；处理单元，用于对所述待测网页文本数据进行分词处理，获取分词处理后的待测网页文本数据；特征提取单元，用于对所述分词处理后的待测网页文本数据进行文本特征提取，获取所述预处理后的待测网页文本数据对应的待测文本特征向量；输入单元，用于将所述待测文本特征向量输入到网页识别模型中，获取所述待测网页识别模型输出的所述待测网页文本数据对应的网页类别概率；所述网页识别模型由权利要求1‑7任一项所述的网页识别模型训练方法训练得到；确定单元，用于基于所述待测文本特征向量对应的网页类别概率，确定所述待测文本特征向量对应的网页类别。权　利　要　求　书 2/3 页 3 CN 113987491 A 3

专利 网页识别模型训练方法、网页识别方法、装置及设备

专利网页识别模型训练方法、网页识别方法、装置及设备