专利一种模型处理方法、装置和用于模型处理的装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111301382.8 (22)申请日 2021.11.04 (71)申请人北京搜狗科技发展有限公司地址 100084 北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间 (72)发明人凡子威　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 代理人苏培华 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) (54)发明名称一种模型处理方法、装置和用于模型处理的装置 (57)摘要本发明实施例提供了一种模型处理方法、装置和用于模型处理的装置。所述方法包括：获取业务数据；将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出；将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符；根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。本发明实施例可以避免知识蒸馏过程中信息的丢失，提升业务模型的模型性能。权利要求书3页说明书13页附图3页 CN 114154395 A 2022.03.08 CN 114154395 A 1.一种模型处理方法，其特征在于，所述方法包括：获取业务数据；将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出；其中，所述预训练模型的建模单元为单个字符，所述初始业务模型的建模单元为分词，一个所述预训练模型的建模单元对应一个全连接层输出，一个所述初始业务模型的建模单元对应一个全连接层输出；将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符；根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。 2.根据权利要求1所述的方法，其特征在于，所述将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出，包括：将所述业务数据输入至预训练模型的自注意力网络层进行处理，得到所述业务数据对应的第一隐层向量；将所述第一隐层向量输入至所述预训练模型的全连接层进行计算，得到所述预训练模型的全连接层输出；将所述业务数据输入至初始业务模型的自注意力网络层进行处理，得到所述业务数据对应的第二隐层向量；将所述第二隐层向量输入至所述初始业务模型的全连接层进行计算，得到所述预训练模型的全连接层输出。 3.根据权利要求1所述的方法，其特征在于，所述将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符，包括：若第一字符集合构成第一分词，则确定所述第一字符集合的最后一个字符为目标字符，其中，所述第一字符集合包括多个字符，所述多个字符均为所述预训练模型的建模单元，所述第一分词为所述初始业务模型的任一建模单元。 4.根据权利要求1所述的方法，其特征在于，所述初始业务模型和所述目标业务模型用于为文本添加标点符号。 5.根据权利要求4所述的方法，其特征在于，所述业务数据包括待处理的文本数据以及所述文本数据对应的标点符号标签；所述根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型，包括：根据所述初始业务模型的全连接层输出和所述目标字符对应的全连接层输出，计算所述预训练模型的第一损失值；根据所述初始业务模型的全连接层输出和所述文本数据对应的标点符号标签，计算所述初始业务模型的第二损失值；对所述第一损失值和所述第二损失值进行加权求和，得到所述预训练模型和所述初始业务模型的联合损失值；权　利　要　求　书 1/3 页 2 CN 114154395 A 2根据所述联合损失值对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。 6.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取语音数据；对所述语音数据进行语音识别处理，得到所述语音数据对应的文本数据；利用所述目标业务模型，为所述语音数据对应的文本数据添加标点符号；输出添加标点符号后的文本数据。 7.根据权利要求1至6任一所述的方法，其特征在于，所述业务数据包括对语音数据进行语音识别处理后得到的文本数据。 8.一种模型处理装置，其特征在于，所述装置包括：业务数据获取模块，用于获取业务数据；业务数据处理模块，用于将所述业务数据分别输入至预训练模型和初始业务模型，通过自注意力机制对所述业务数据进行处理，得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出；其中，所述预训练模型的建模单元为单个字符，所述初始业务模型的建模单元为分词，一个所述预训练模型的建模单元对应一个全连接层输出，一个所述初始业务模型的建模单元对应一个全连接层输出；建模单元匹配模块，用于将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配，确定所述预训练模型的建模单元中的目标字符；知识蒸馏模块，用于根据所述初始业务模型的全连接层输出、所述目标字符对应的全连接层输出，对所述预训练模型和所述初始业务模型进行知识蒸馏，得到目标业务模型。 9.根据权利要求8所述的装置，其特征在于，所述业务数据处理模块，包括：第一隐层向量确定子模块，用于将所述业务数据输入至预训练模型的自注意力网络层进行处理，得到所述业务数据对应的第一隐层向量；第一全连接层输出子模块，用于将所述第一隐层向量输入至所述预训练模型的全连接层进行计算，得到所述预训练模型的全连接层输出；第二隐层向量确定子模块，用于将所述业务数据输入至初始业务模型的自注意力网络层进行处理，得到所述业务数据对应的第二隐层向量；第二全连接层输出子模块，用于将所述第二隐层向量输入至所述初始业务模型的全连接层进行计算，得到所述预训练模型的全连接层输出。 10.根据权利要求8所述的装置，其特征在于，所述建模单元匹配模块，包括：建模单元匹配子模块，用于若第一字符集合构成第一分词，则确定所述第一字符集合的最后一个字符为目标字符，其中，所述第一字符集合包括多个字符，所述多个字符均为所述预训练模型的建模单元，所述第一分词为所述初始业务模型的任一建模单元。 11.根据权利要求8所述的装置，其特征在于，所述初始业务模型和所述目标业务模型用于为文本添加标点符号。 12.根据权利要求11所述的装置，其特征在于，所述业务数据包括待处理的文本数据以及所述文本数据对应的标点符号标签；所述知识蒸馏模块，包括：第一损失值计算子模块，用于根据所述初始业务模型的全连接层输出和所述目标字符对应的全连接层输出，计算所述预训练模型的第一损失值；权　利　要　求　书 2/3 页 3 CN 114154395 A 3

专利 一种模型处理方法、装置和用于模型处理的装置

专利一种模型处理方法、装置和用于模型处理的装置