金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210891923.5 (22)申请日 2022.07.27 (71)申请人 方盈金泰科技 (北京) 有限公司 地址 102300 北京市门头沟区龙西路58号 永定镇政 府办公楼YD169 (72)发明人 郑海  (74)专利代理 机构 北京棘龙知识产权代理有限 公司 11740 专利代理师 杨培芳 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 基于知识增强BERT的字粒度中文语义近似 对抗样本生成方法 (57)摘要 基于知识增强BERT的字粒度中文语义近似 对抗样本生成方法包括: 将预处理后的文本数据 集按照比例划分为训练集、 验证集和测试集, 将 训练集中的数据输入目标模型中得到目标中文 文本分类模型; 生成字重要度列表; 训练知识增 强BERT模型; 使用知识增强BERT模型, 依次为字 重要度列表中的每个字 符生成一个候选字列表; 选取一个候选字列表中的字符替换当次选取的 候选字列表对应的字重要度列表中的字符生成 一个当次对抗样本, 使用当次对抗样本攻击目标 中文文本分类模 型。 本方法通过设计自动化的对 抗样本生 成方法, 使生成的语义近似对抗样本有 较好的可读性和较高的攻击成功率, 以达到针对 不同种类的中文文本分类模型生成高质量中文 语义近似 对抗样本的目的。 权利要求书2页 说明书5页 附图2页 CN 115309898 A 2022.11.08 CN 115309898 A 1.基于知识增强BERT的字粒度中文语义近似对抗样本生成方法, 其特征在于, 所述方 法包括: 步骤一: 对文本数据集进行预处理: 对文本数据集进行分词, 根据停用词表过滤停用 词; 将预处理后的文本数据集按照比例划分为训练集、 验证集和测试集; 将所述训练集中的 文本数据训练生成文本词向量, 将所述文本词向量输入到目标模型中, 经训练后得到目标 中文文本分类模型; 步骤二: 将测试集中的文本数据作为原语句, 依次删除原语句中每个字符来确定原语 句中每个字符的重要度, 对所述重要度排序得到 字重要度列表; 步骤三: 将先验知识融入BERT模型 得到知识增强BERT模型; 步骤四: 使用通过步骤三得到的知识增 强BERT模型, 依次为所述字重要度列表中的每 个字符生成一个候选 字列表; 步骤五: 选取一个候选字列表中的字符替换当次选取的候选字列表对应的字重要度列 表中的字符生成一个当次对抗样本, 使用当次对抗样本攻击步骤一中训练得到的目标中文 文本分类模型; 步骤六: 若所述目标中文文本分类模型的输出发生改变, 则攻击成功, 以当次对抗样本 作为最终对抗样 本; 若所述目标中文文本 分类模型的输出不 发生改变, 则攻击不成功, 将当 前选取的字符排除出字 重要度列表后, 执 行步骤五; 其中, 所述 步骤四具体包括以下步骤: 将字重要度列表中的每个字符依次替换为知识增强BERT模型中的特殊标记[MASK], 并 在原语句的开始和结尾处加入 特殊分类记 号[CLS]和停止记 号[SEP], 把原语句变为如下形 式: Slm=[CLS],c ’1,...,c’j‑1,[MASK],c ’j+1,…[SEP]; 其中, Slm为改变后的句子, 其中, c ’j 为字重要度列表中第j个字符; 将Slm输入到知识增强BERT模型中, 知识增强BERT模型根据上下文语义对特殊标记 [MASK]处的字符进行 预测, 取预测出的前k个字符生成初次候选 字符列表; 对初次候选字符列表中的每个字符使用其对应的word2vec向量计算其与c ’j的余弦相 似度, 并过 滤余弦相似度小于预设阈值的字符, 生成字 重要度列表中字符的候选 字列表。 2.如权利要求1所述的方法, 其特征在于, 所述步骤二中的字重要度列表生成方法具体 包括以下步骤: 将原语句中的每 个单词依次删除, 得到 重要度查询 句子; 使用步骤一中训练得到的目标中文文本分类模型预测重要度查询句子所属类别, 并按 公式: 计算重要度查询句子中每个字符能改变当前句子所属类别的概率, 所述概率即为所述 字符的重要度, 对所述重要度排序得到字重要度列表; 其中, PF为模型的类别预测, y1为原类 别, y2为模型预测的类别; S ’为目标语句, c ’j为字重要度列表中第j个字符, S ’\c’j为去除原 语句中第j个字符后得到的句子 。权 利 要 求 书 1/2 页 2 CN 115309898 A 23.如权利要求1所述的方法, 其特征在于, 所述步骤三训练知识增强BERT模型的方法包 括以下步骤: 选取第二文本数据集, 对所述第 二文本数据集进行预处理: 对文本数据集进行分词, 根 据停用词表过滤停用词; 使用第二文本数据集中语句的剩余单词在同义词词库和反义词词 库中分别查询其同义词和反义词, 分别构成每句话的同义句和反义句; 改造损失函数, 并使用改造后的损失函数训练BERT模型, 使损失函数的值降为最低, 得 到知识增强BERT模型。 4.如权利要求3所述的方法, 其特 征在于, 基于对比学习改造损失函数。 5.如权利要求1所述的方法, 其特征在于, 根据公式选取字重要列表能使当次预测类别 改变概率最大的一个字符: 6.如权利 要求1所述的方法, 其特征在于, 使用python  jieba工具对文本数据 集进行预 处理。 7.如权利 要求1所述的方法, 其特征在于, 所述步骤一中使用word2vec方法将所述训练 集中一半的文本数据训练生成文本词向量。 8.如权利要求1所述的方法, 其特征在于, 所述目标模型是CNN模型、 LSTM模型、 BERT模 型的一种。 9.如权利要求1所述的方法, 其特 征在于, 训练集、 验证集和 测试集的比例为8 :1:1。权 利 要 求 书 2/2 页 3 CN 115309898 A 3

PDF文档 专利 基于知识增强BERT的字粒度中文语义近似对抗样本生成方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识增强BERT的字粒度中文语义近似对抗样本生成方法 第 1 页 专利 基于知识增强BERT的字粒度中文语义近似对抗样本生成方法 第 2 页 专利 基于知识增强BERT的字粒度中文语义近似对抗样本生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:14:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。