专利训练命名实体识别模型的方法和装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111329188.0 (22)申请日 2021.11.10 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 申请人蚂蚁区块链科技（上海）有限公司 (72)发明人鲍梦瑶　刘佳伟　章鹏　张谦　贾茜　 (74)专利代理机构北京亿腾知识产权代理事务所(普通合伙) 11309 代理人孙欣欣　周良玉 (51)Int.Cl. G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称训练命名实体识别模型的方法和装置 (57)摘要本说明书实施例提供一种训练命名实体识别模型的方法和装置，方法包括：获取第一文本集合和第二文本集合，第一文本集合中的文本具有标注信息，标注信息包括隐私类别及其位置，第二文本集合中的文本不具有标注信息；利用第一文本集合中包括的文本及其标注信息对命名实体识别模型进行初步训练；利用初步训练后的命名实体识别模型评估第二文本集合中的各文本，根据评估结果和预先设置的挑选策略，从第二文本集合中挑选补充文本；获取补充文本的标注信息；将补充文本及其标注信息添加到第一文本集合，以扩充第一文本集合；利用扩充后的第一文本集合对命名实体识别模型进行继续训练，得到继续训练后的命名实体识别模型。能够降低人工标注成本。权利要求书3页说明书15页附图5页 CN 114091457 A 2022.02.25 CN 114091457 A 1.一种训练命名实体识别模型的方法，所述命名实体识别模型用于确定目标文本中包括的隐私信息的隐私类别及其位置，所述方法包括：获取第一文本集合和第二文本集合，所述第一文本集合中的文本具有标注信息，所述标注信息包括隐私类别及其位置，所述第二文本集合中的文本不具有标注信息；利用所述第一文本集合中包括的文本及其标注信息对所述命名实体识别模型进行初步训练，得到初步训练后的命名实体识别模型；利用所述初步训练后的命名实体识别模型评估所述第二文本集合中的各文本，根据评估结果和预先设置的挑选策略，从所述第二文本集合中挑选补充文本；获取所述补充文本的标注信息；将所述补充文本及其标注信息添加到所述第一文本集合，以扩充所述第一文本集合；利用扩充后的所述第一文本集合对所述命名实体识别模型进行继续训练，得到继续训练后的命名实体识别模型。 2.如权利要求1所述的方法，其中，所述获取所述补充文本的标注信息，包括：利用所述初始训练后的命名实体识别模型确定所述补充文本中包括的隐私信息的预测类别及其预测位置；对所述补充文本中包括的隐私信息的预测类别及其预测位置进行人工校验后，得到所述标注信息。 3.如权利要求1所述的方法，其中，所述目标文本为应用程序的隐私声明文本，所述命名实体识别模型用于确定隐私声明文本中声明采集的隐私信息的隐私类别及其位置。 4.如权利要求1所述的方法，其中，所述标注信息采用BIOE标记法，所述BIOE标记法用于标记文本中属于隐私信息的若干连续字符的隐私类别，其起始位置、中间位置和结束位置，以及标记文本中不属于隐私信息的字符。 5.如权利要求1所述的方法，其中，所述评估结果包括，对各文本进行预测的置信度；所述挑选策略包括，选择置信度最低的文本作为所述补充文本。 6.如权利要求1所述的方法，其中，所述评估结果包括，对文本中的各字符进行预测的置信度；所述挑选策略包括，选择置信度最低的字符所在的文本作为所述补充文本。 7.如权利要求1所述的方法，其中，所述评估结果包括，对文本中的字符预测为任一标记类别的置信度；所述挑选策略包括，选择包含的各字符的平均信息熵最大的文本作为所述补充文本。 8.如权利要求1所述的方法，其中，所述继续训练具有终止条件，所述终止条件为继续训练后的命名实体识别模型的效果评估符合要求，所述效果评估通过准确率、召回率中的至少一个指标来衡量。 9.一种应用程序的合规性判别方法，所述方法基于权利要求1所述的方法得到的继续训练后的命名实体识别模型实现，包括：获取应用程序的代码分析结果，所述代码分析结果指示出所述应用程序实际采集的隐私信息的隐私类别构成的第一类别集合；利用所述继续训练后的命名实体识别模型，确定所述应用程序的隐私声明文本声明采集的隐私信息的隐私类别构成的第二类别集合；当所述第一类别集合与所述第二类别集合一致，且包括的隐私类别均属于法律法规中权　利　要　求　书 1/3 页 2 CN 114091457 A 2允许所述应用程序采集的隐私信息的隐私类别时，确定所述应用程序合规。 10.如权利要求9所述的方法，其中，所述利用所述继续训练后的命名实体识别模型，确定所述应用程序的隐私声明文本声明采集的隐私信息的隐私类别构成的第二类别集合，包括：将所述应用程序的隐私声明文本以句子为单位进行拆分，得到多个分句；将所述多个分句分别输入所述继续训练后的命名实体识别模型，得到各分句中分别包括的隐私信息的隐私类别；合并各分句中分别包括的隐私类别，得到所述应用程序的隐私声明文本声明采集的隐私信息的隐私类别构成的第二类别集合。 11.一种训练命名实体识别模型的装置，所述命名实体识别模型用于确定目标文本中包括的隐私信息的隐私类别及其位置，所述装置包括：第一获取单元，用于获取第一文本集合和第二文本集合，所述第一文本集合中的文本具有标注信息，所述标注信息包括隐私类别及其位置，所述第二文本集合中的文本不具有标注信息；第一训练单元，用于利用所述第一获取单元获取的第一文本集合中包括的文本及其标注信息对所述命名实体识别模型进行初步训练，得到初步训练后的命名实体识别模型；选择单元，用于利用所述第一训练单元得到的初步训练后的命名实体识别模型评估所述第一获取单元获取的第二文本集合中的各文本，根据评估结果和预先设置的挑选策略，从所述第二文本集合中挑选补充文本；第二获取单元，用于获取所述选择单元挑选的补充文本的标注信息；扩充单元，用于将所述选择单元挑选的补充文本及所述第二获取单元获取的其标注信息添加到所述第一文本集合，以扩充所述第一文本集合；第二训练单元，用于利用所述扩充单元扩充后的所述第一文本集合对所述第一训练单元得到的命名实体识别模型进行继续训练，得到继续训练后的命名实体识别模型。 12.如权利要求1 1所述的装置，其中，所述第二获取单元包括：预测子单元，用于利用所述初始训练后的命名实体识别模型确定所述补充文本中包括的隐私信息的预测类别及其预测位置；校验子单元，用于对所述预测子单元得到的所述补充文本中包括的隐私信息的预测类别及其预测位置进行人工校验后，得到所述标注信息。 13.如权利要求11所述的装置，其中，所述目标文本为应用程序的隐私声明文本，所述命名实体识别模型用于确定隐私声明文本中声明采集的隐私信息的隐私类别及其位置。 14.如权利要求11所述的装置，其中，所述标注信息采用BIOE标记法，所述BIOE标记法用于标记文本中属于隐私信息的若干连续字符的隐私类别，其起始位置、中间位置和结束位置，以及标记文本中不属于隐私信息的字符。 15.如权利要求11所述的装置，其中，所述评估结果包括，对各文本进行预测的置信度；所述挑选策略包括，选择置信度最低的文本作为所述补充文本。 16.如权利要求11所述的装置，其中，所述评估结果包括，对文本中的各字符进行预测的置信度；所述挑选策略包括，选择置信度最低的字符所在的文本作为所述补充文本。 17.如权利要求11所述的装置，其中，所述评估结果包括，对文本中的字符预测为任一权　利　要　求　书 2/3 页 3 CN 114091457 A 3

专利 训练命名实体识别模型的方法和装置

专利训练命名实体识别模型的方法和装置