金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111301382.8 (22)申请日 2021.11.04 (71)申请人 北京搜狗科技发展 有限公司 地址 100084 北京市海淀区中关村东路1号 院9号楼搜狐网络大厦9层01房间 (72)发明人 凡子威  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 代理人 苏培华 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) (54)发明名称 一种模型处理方法、 装置和用于模 型处理的 装置 (57)摘要 本发明实施例提供了一种模 型处理方法、 装 置和用于模型处理的装置。 所述方法包括: 获取 业务数据; 将所述业务数据分别输入至预训练模 型和初始业务模 型, 通过自注 意力机制对所述业 务数据进行处理, 得到所述预训练模 型的全连接 层输出以及所述初始业务模型的全 连接层输出; 将所述预训练模型的建模单元与所述初始业务 模型的建模 单元进行匹配, 确定所述预训练模型 的建模单元中的目标字 符; 根据所述初始业务模 型的全连接层输出、 所述目标字符对应的全 连接 层输出, 对 所述预训练模型和所述初始业务模型 进行知识蒸馏, 得到目标业务模型。 本发明实施 例可以避免知识蒸馏过程中信息的丢失, 提升业 务模型的模型性能。 权利要求书3页 说明书13页 附图3页 CN 114154395 A 2022.03.08 CN 114154395 A 1.一种模型处 理方法, 其特 征在于, 所述方法包括: 获取业务数据; 将所述业务数据分别 输入至预训练模型和初始业务模型, 通过自注意力 机制对所述业 务数据进 行处理, 得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层 输出; 其中, 所述预训练模型的建模单元为单个字符, 所述初始业务模型的建模单元为分 词, 一个所述预训练模型 的建模单元对应一个全连接层输出, 一个所述初始业务模型 的建 模单元对应一个全连接层输出; 将所述预训练模型的建模单元与 所述初始业务模型的建模单元进行匹配, 确定所述预 训练模型的建模单 元中的目标字符; 根据所述初始业务模型的全连接层输出、 所述目标字符对应的全连接层输出, 对所述 预训练模型和所述初始业 务模型进行知识蒸馏, 得到目标业 务模型。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述业务数据分别 输入至预训练模 型和初始业务模型, 通过自注意力机制对所述业务数据进行处理, 得到所述预训练模型 的 全连接层输出以及所述初始业 务模型的全连接层输出, 包括: 将所述业务数据输入至预训练模型的自注意力网络层进行处理, 得到所述业务数据对 应的第一隐层向量; 将所述第一隐层向量输入至所述预训练模型的全连接层进行计算, 得到所述预训练模 型的全连接层输出; 将所述业务数据输入至初始业务模型的自注意力网络层进行处理, 得到所述业务数据 对应的第二隐层向量; 将所述第二隐层向量输入至所述初始业务模型的全连接层进行计算, 得到所述预训练 模型的全连接层输出。 3.根据权利要求1所述的方法, 其特征在于, 所述将所述预训练模型的建模单元与 所述 初始业务模型的建模单 元进行匹配, 确定所述预训练模型的建模单 元中的目标字符, 包括: 若第一字符集合构成第一分词, 则确定所述第一字符集合的最后一个字符为目标字 符, 其中, 所述第一字符集合包括多个字符, 所述多个字符均为所述预训练模型的建模单 元, 所述第一分词为所述初始业 务模型的任一建模单 元。 4.根据权利要求1所述的方法, 其特征在于, 所述初始业务模型和所述目标业务模型用 于为文本添加标点符号。 5.根据权利要求4所述的方法, 其特征在于, 所述业务数据包括待处理 的文本数据以及 所述文本数据对应的标点符号标签; 所述根据所述初始业务模型 的全连接层输出、 所述 目 标字符对应的全连接层输出, 对所述预训练模型和所述初始业务模型进行知识蒸馏, 得到 目标业务模型, 包括: 根据所述初始业务模型的全连接层输出和所述目标字符对应的全连接层输出, 计算所 述预训练模型的第一损失值; 根据所述初始业务模型的全连接层输出和所述文本数据对应的标点符号标签, 计算所 述初始业 务模型的第二损失值; 对所述第一损失值和所述第 二损失值进行加权求和, 得到所述预训练模型和所述初始 业务模型的联合损失值;权 利 要 求 书 1/3 页 2 CN 114154395 A 2根据所述联合损失值对所述预训练模型和所述初始业务模型进行知识蒸馏, 得到目标 业务模型。 6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取语音数据; 对所述语音数据进行语音识别处 理, 得到所述语音数据对应的文本数据; 利用所述目标业 务模型, 为所述语音数据对应的文本数据添加标点符号; 输出添加标点符号后的文本数据。 7.根据权利要求1至6任一所述的方法, 其特征在于, 所述业务数据包括对语音数据进 行语音识别处 理后得到的文本数据。 8.一种模型处 理装置, 其特 征在于, 所述装置包括: 业务数据获取模块, 用于获取业 务数据; 业务数据处理模块, 用于将所述业务数据分别输入至预训练模型和初始业务模型, 通 过自注意力机制对所述业务数据进行 处理, 得到所述预训练模型的全连接层输出以及所述 初始业务模型的全连接层输出; 其中, 所述预训练模型的建模 单元为单个字符, 所述初始 业 务模型的建模单元为分词, 一个所述预训练模型 的建模单元对应一个全连接层输出, 一个 所述初始业 务模型的建模单 元对应一个全连接层输出; 建模单元匹配模块, 用于将所述预训练模型的建模单元与所述初始业务模型的建模单 元进行匹配, 确定所述预训练模型的建模单 元中的目标字符; 知识蒸馏模块, 用于根据所述初始业务模型的全连接层输出、 所述目标字符对应的全 连接层输出, 对所述预训练模型和所述初始业 务模型进行知识蒸馏, 得到目标业 务模型。 9.根据权利要求8所述的装置, 其特 征在于, 所述 业务数据处 理模块, 包括: 第一隐层向量确定子模块, 用于将所述业务数据输入至预训练模型的自注意力网络层 进行处理, 得到所述 业务数据对应的第一隐层向量; 第一全连接层输出子模块, 用于将所述第 一隐层向量输入至所述预训练模型的全连接 层进行计算, 得到所述预训练模型的全连接层输出; 第二隐层向量确定子模块, 用于将所述业务数据输入至初始业务模型的自注意力网络 层进行处 理, 得到所述 业务数据对应的第二隐层向量; 第二全连接层输出子模块, 用于将所述第 二隐层向量输入至所述初始业务模型的全连 接层进行计算, 得到所述预训练模型的全连接层输出。 10.根据权利要求8所述的装置, 其特 征在于, 所述建模单 元匹配模块, 包括: 建模单元匹配子模块, 用于若第一字符集合构成第一分词, 则确定所述第一字符集合 的最后一个字 符为目标字 符, 其中, 所述第一字符集合包括多个字 符, 所述多个字符均为所 述预训练模型的建模单 元, 所述第一分词为所述初始业 务模型的任一建模单 元。 11.根据权利要求8所述的装置, 其特征在于, 所述初始业务模型和所述目标业务模型 用于为文本添加标点符号。 12.根据权利要求11所述的装置, 其特征在于, 所述业务数据包括待处理 的文本数据以 及所述文本数据对应的标点符号标签; 所述知识蒸馏模块, 包括: 第一损失值计算子模块, 用于根据 所述初始业务模型的全连接层输出和所述目标字符 对应的全连接层输出, 计算所述预训练模型的第一损失值;权 利 要 求 书 2/3 页 3 CN 114154395 A 3

.PDF文档 专利 一种模型处理方法、装置和用于模型处理的装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种模型处理方法、装置和用于模型处理的装置 第 1 页 专利 一种模型处理方法、装置和用于模型处理的装置 第 2 页 专利 一种模型处理方法、装置和用于模型处理的装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:15:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。