金融行业标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111358341.2 (22)申请日 2021.11.17 (65)同一申请的已公布的文献号 申请公布号 CN 113792529 A (43)申请公布日 2021.12.14 (73)专利权人 北京华云安信息技 术有限公司 地址 100094 北京市海淀区丰豪东路9号2 号楼10层4单 元1001 (72)发明人 郝伟 沈传宝 刘加瑞  (74)专利代理 机构 北京华专卓 海知识产权代理 事务所(普通 合伙) 11664 专利代理师 王一 (51)Int.Cl. G06F 40/126(2020.01) G06N 20/00(2019.01)(56)对比文件 CN 109740151 A,2019.0 5.10 CN 101350624 A,20 09.01.21 CN 113033200 A,2021.0 6.25 CN 111600609 A,2020.08.28 CN 112131865 A,2020.12.25 US 2013262490 A1,2013.10.0 3 审查员 吴少鸿 (54)发明名称 用于机器学习的文本字 符编码方法、 装置及 电子设备 (57)摘要 本公开的实施例提供了一种用 于机器学习 的文本字符编码方法、 装置及电子设备。 所述方 法包括: 统计训练样本中每个字符的出现频率, 所述训练样 本为文本文件; 对每个字符进行权重 分配; 按照出现频率降序和权重降序对每个字 符 进行排序并对字符进行两字节编码; 根据所述两 字节编码对待编码文本文件进行编码转换。 以此 方式, 可以在使用两字节编码进行高效运算的同 时, 保证了机器多语言学习能力。 权利要求书1页 说明书8页 附图2页 CN 113792529 B 2022.05.06 CN 113792529 B 1.一种用于 机器学习的文本 字符编码方法, 其特 征在于, 包括: 统计训练样本中每 个字符的出现频率, 所述训练样本为文本文件; 按照每个字符与机器学习目标的关联度进行权 重分配; 先按照权重降序对字符进行排序, 若字符权重相同则按照出现频率降序进行排序, 并 对字符进行两 字节编码; 根据所述两 字节编码对待编码文本文件进行编码转换; 当两字节字符数达 到65556时, 超出部分不进行编码转换; 当机器学习目标发生变化时, 重新对每个字符进行权重分配, 然后按照出现频率降序 和权重降序对每个字符进 行排序并对字符进 行两字节编 码; 根据所述两字节编 码对待编码 文本文件进行编码转换。 2.根据权利要求1所述的用于机器学习的文本字符编码方法, 其特征在于, 按照机器学 习目标与字符的关联度进行权 重值标记, 未被标记的权 重值默认为0 。 3.根据权利要求1所述的用于机器学习的文本字符编码方法, 其特征在于, 还包括机器 按照机器学习目标对新的文本文件进行学习, 包括: 按照已生成的字符编码对新的文本文 件进行编码转换。 4.根据权利要求1所述的用于机器学习的文本字符编码方法, 其特征在于, 还包括扩充 训练样本, 包括: 向训练样本中加入新的文本文件, 与原始文本文件结合形成新的训练样本, 根据新的 训练样本按照 编码规则进行编码转换。 5.一种电子设备, 包括: 至少一个处理器; 以及与 所述至少一个处理器通信连接的存储 器; 其特征在于, 所述存储器存储有 可被所述至少一个处理器执行的指令, 所述指令被所述 至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑4中任一项所述的用 于机器学习的文本 字符编码方法。权 利 要 求 书 1/1 页 2 CN 113792529 B 2用于机器学习的文本字符编码方 法、 装置及电子 设备 技术领域 [0001]本公开涉及计算机领域, 尤其涉及计算机编码技术领域, 具体提供一种用于机器 学习的文本 字符编码方法、 装置及电子设备。 背景技术 [0002]在机器学习中, 为了加快学习速度, 通用的做法是将文本内容转换为某种更加高 效的编码 格式, 如Label编码或One ‑Hot编码, 但 这些常用的编码都存在字长不固定的问题, 在很多场合下计算仍不方便。 而Unicode编码虽然定长, 但其长度为4字节, 计算量较大, 计 算效率低。 发明内容 [0003]本公开提供了一种用于机器学习的文本字符编码方法、 装置及电子设备, 在使用 两字节编码可进行高效运 算的同时, 保证了 机器多语言学习能力。 [0004]根据本公开的第一方面, 提供了一种用于机器学习的文本字符编码方法。 该方法 包括: [0005]统计训练样本中每 个字符的出现频率, 所述训练样本为文本文件; [0006]对每个字符进行权 重分配; [0007]按照出现频率降序和权 重降序对每 个字符进行排序并对字符进行两 字节编码; [0008]根据所述两 字节编码对待编码文本文件进行编码转换。 [0009]在第一方面的一些 可实现方式 中, 对每个字符进行权 重分配包括: [0010]按照每个字符与机器学习目标的关联度进行权 重分配。 [0011]在第一方面的一些可实现方式中, 按照出现频率降序和权重降序对每个字符进行 排序包括: [0012]先按照权重降序对字符进行排序, 若字符权重相同则按照出现频率降序进行排 序。 [0013]在第一方面的一些可实现方式中, 按照机器学习目标与字符的关联度进行权重值 标记, 未被标记的权 重值默认为0 。 [0014]在第一方面的一些可实现方式中, 当机器学习目标发生变化时, 重新对每个字符 进行权重分配, 然后按照出现频率降序和权重降序对每个字符进 行排序并对字符进行两字 节编码; 根据所述两 字节编码对待编码文本文件进行编码转换。 [0015]在第一方面的一些可实现方式中, 还包括机器按照机器学习目标对新的文本文件 进行学习, 包括: 按照已生成的字符编码对新的文本文件进行编码转换。 [0016]在第一方面的一些 可实现方式 中, 还包括扩充训练样本, 包括: [0017]向训练样本中加入新的文本文件, 与原始文本文件结合形成新的训练样本, 根据 新的训练样本按照 编码规则进行编码转换。 [0018]在第一方面的一些可实现方式中, 当两字节字符数达到65556时, 超出部分不进行说 明 书 1/8 页 3 CN 113792529 B 3

.PDF文档 专利 用于机器学习的文本字符编码方法、装置及电子设备

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于机器学习的文本字符编码方法、装置及电子设备 第 1 页 专利 用于机器学习的文本字符编码方法、装置及电子设备 第 2 页 专利 用于机器学习的文本字符编码方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:03:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。