金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210071314.5 (22)申请日 2022.01.21 (71)申请人 上海易康源医疗健康科技有限公司 地址 200120 上海市浦东 新区中国(上海) 自由贸易试验区临港新片区新杨公路 860号10幢 (72)发明人 曾祥云 朱姬渊  (74)专利代理 机构 上海硕力知识产权代理事务 所(普通合伙) 31251 专利代理师 王法男 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/10(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称 基于Swin Transformer的手写文字识别方 法及系统 (57)摘要 本申请涉及一种基于Swin  Transformer的 手写文字识别方法及系统, 包括获取待识别手写 图片; 基于Swin  Transformer建立Swin ‑T编码结 构, 并基于 所述Swin ‑T编码结构对所述待识别手 写图片进行特征抽取, 并获取当前图像特征; 将 所述当前图像特征输入至预设的设定解码器, 并 基于所述设定解码器获取解码器特征, 其中, 所 述设定解码器采用3个串联的tran sformer; 将所 述解码器特征放进softmax分类器进行文字预 测 ,并 获 取 当 前 预 测 文 字 ,采 用 S w i n   Transformer建立Swin ‑T编码结构, 通过Swin ‑T 编码结构, 作为编码器来抽取图像的特征, 有助 于降低模型的计算复杂 度, 让特征具备全局感受 野, 另, 利用Swin  Transformer作为骨干网络, 能 够更好的抽取手写文字背后隐藏的特征, 进而极 大提高文字识别准确率。 权利要求书2页 说明书6页 附图3页 CN 114445808 A 2022.05.06 CN 114445808 A 1.一种基于Sw in Transformer的手写 文字识别方法, 其特 征在于, 所述方法包括: 步骤S100: 获取待识别手写图片; 步骤S200: 基于Swin  Transformer建立Swin ‑T编码结构, 并基于所述Swin ‑T编码结构 对所述待识别手写图片进行 特征抽取, 并获取当前图像特 征; 步骤S300: 将所述当前图像特征输入至预设的设定解码器, 并基于所述设定解码器获 取解码器特 征, 其中, 所述设定解码器采用3个串联的t ransformer; 步骤S400: 将所述解码器特征放进softmax分类器进行文字预测, 并获取当前预测文 字。 2.根据权利要求1所述的基于Swin  Transformer的手写文字识别方法, 其特征在于, 步 骤S200: 基于Swin  Transformer建立Swin ‑T编码结构, 并基于所述Swin ‑T编码结构对所述 待识别手写图片进行 特征抽取, 并获取当前图像特 征, 具体包括: 步骤S210: 基于Multi ‑head Self‑Attention和Shifted  Window based Multi‑head  Self‑attention建立第一sta getransformer层; 步骤S220: 根据所述第一stagetransformer层建立预设特定数量 的层数, 并形成所述 Swin‑T编码结构; 步骤S230: 基于所述Sw in‑T编码结构对所述待识别手写图片进行 特征抽取。 3.根据权利要求1所述的基于Swin  Transformer的手写文字识别方法, 其特征在于, 步 骤S300: 将所述当前图像特征输入至预设的设定解码器, 并基于所述设定解码器获取解码 器特征, 其中, 所述设定解码器采用3个串联的t ransformer, 具体包括: 步骤S310: 基于t ransformer预 先设定设定解码器; 步骤S320: 将所述当前图像特征输入至预设的设定解码器, 并将所述当前图像特征与 预设的第一设定矩阵、 第二设定矩阵和第三设定矩阵分别相乘, 并获取原 始解码特 征; 步骤S330: 基于self ‑attention注意力机制对原始解码特征进行提炼, 并获取所述解 码器特征。 4.根据权利要求1 ‑3任一项所述的基于Swin  Transformer的手写文字识别方法, 其特 征在于, 步骤S400: 将所述解码器特征放进softmax分类器进行文字预测, 并获取当前预测 文字, 之前还 包括: 在训练阶段, 根据所述 解码器特 征计算交叉熵损失。 5.一种基于Sw in Transformer的手写 文字识别系统, 其特 征在于, 所述系统包括: 图片获取模块, 用于获取待识别手写图片; 特征抽取模块, 用于基于Swin  Transformer建立Swin ‑T编码结构, 并基于所述Swin ‑T 编码结构对所述待识别手写图片进行 特征抽取, 并获取当前图像特 征; 特征输入模块, 用于将所述当前图像特征输入至预设的设定解码器, 并基于所述设定 解码器获取解码器特 征, 其中, 所述设定解码器采用3个串联的t ransformer; 文字预测模块, 用于将所述解码器特征放进softmax分类器进行文字预测, 并获取当前 预测文字 。 6.根据权利要求6所述的基于Swin  Transformer的手写文字识别系统, 其特征在于, 所 述特征抽取模块还 包括: 编码层构建模块, 用 于基于Multi ‑head Self‑Attention和Shifted  Window based 权 利 要 求 书 1/2 页 2 CN 114445808 A 2Multi‑head Self‑attention建立第一sta getransformer层; 编码结构模块, 用于根据所述第一stagetransformer层建立预设特定数量的层数, 并 形成所述Sw in‑T编码结构; 编码抽取模块, 用于基于所述Sw in‑T编码结构对所述待识别手写图片进行 特征抽取。 7.根据权利要求6所述的基于Swin  Transformer的手写文字识别系统, 其特征在于, 所 述特征输入模块还包括: 解码设定模块, 用于基于t ransformer预 先设定设定解码器; 矩阵相乘模块, 用于将所述当前图像特征输入至预设的设定解码器, 并将所述当前图 像特征与预设的第一设定矩阵、 第二设定矩阵和第三设定矩阵分别相乘, 并获取原始解码 特征; 注意机制模块, 用于基于self ‑attention注意力机制对原始解码特征进行提炼, 并获 取所述解码器特 征。 8.根据权利要求6所述的基于Sw in Transformer的手写 文字识别系统, 其特 征在于, 所述文字预测模块还用于: 在训练阶段, 根据所述 解码器特 征计算交叉熵损失。 9.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序 被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 114445808 A 3

PDF文档 专利 基于Swin Transformer的手写文字识别方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Swin Transformer的手写文字识别方法及系统 第 1 页 专利 基于Swin Transformer的手写文字识别方法及系统 第 2 页 专利 基于Swin Transformer的手写文字识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。