金融行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210071744.7 (22)申请日 2022.01.21 (71)申请人 朱旭龙 地址 200001 上海市黄浦区合肥路148弄59 号 (72)发明人 朱旭龙  (74)专利代理 机构 合肥市科融知识产权代理事 务所(普通 合伙) 34126 代理人 施红生 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/958(2019.01) G06F 21/60(2013.01) G06K 9/62(2022.01) G06V 10/20(2022.01)G06V 10/44(2022.01) G06V 10/74(2022.01) (54)发明名称 一种基于大数据的数据处 理方法 (57)摘要 本发明涉及大数据处理技术领域, 具体公开 了一种基于大数据的数据处理方法, 所述方法包 括接收用户发送的含有用户信息的上传数据, 对 所述上传数据进行数据转换, 得到待检数据; 对 所述待检数据进行内容识别, 根据内容识别结果 对所述待检数据进行加密; 根据所述用户信息确 定上传数据的预测传播值, 根据所述预测传播值 确定脱敏级别, 根据所述脱 敏级别对加密后的待 检数据进行解密。 本发明对用户上传的数据进行 加密, 然后根据用户的传播能力, 对所述数据进 行解密, 适应力强, 对于不同的用户有着不同的 评判标准, 因人而异, 极大地降低了 “误伤”的概 率。 权利要求书2页 说明书8页 附图2页 CN 114417162 A 2022.04.29 CN 114417162 A 1.一种基于大 数据的数据处 理方法, 其特 征在于, 所述方法包括: 接收用户发送 的含有用户信息的上传数据, 对所述上传数据进行数据转换, 得到待检 数据; 其中, 所述待检数据包括含有时间项的文本数据和含有时间项的图像数据; 对所述待检数据进行内容识别, 根据内容识别结果对所述待检数据进行加密; 根据所述用户信息确定上传数据的预测传播值, 根据所述预测传播值确定脱敏级别, 根据所述脱敏级别对加密后的待检数据进行解密; 将解密后的待检数据上传至云端并开放下载端口, 实时监测下载指数, 根据所述下载 指数修正所述脱敏级别。 2.根据权利要求1所述的基于大数据的数据处理方法, 其特征在于, 所述接收用户发送 的含有用户信息的上传数据, 对所述上传数据进行 数据转换, 得到待检数据的步骤 包括: 统计所述上传数据的格 式信息, 根据所述格 式信息确定数据类型; 其中, 所述数据类型 包括文本数据、 音频 数据、 图像数据和视频 数据; 当所述数据类型为音频 数据时, 将所述音频 数据转换为文本数据; 当所述数据类型为图像数据时, 对所述图像数据进行文本检测, 得到文本数据和剔除 文本数据的图像数据; 当所述数据类型为视频数据时, 将所述视频数据转换为音频数据和图像数据组, 将相 应的音频数据转换为文本数据, 将相应的图像数据组转换为文本数据组和剔除文本数据的 图像数据组。 3.根据权利要求2所述的基于大数据的数据处理方法, 其特征在于, 所述当所述数据类 型为音频 数据时, 将所述音频 数据转换为文本数据的步骤 包括: 将所述音频 数据输入训练好的解压缩 模型, 得到纯波形文件; 将所述纯波形文件静音切除并分帧, 生成多段语音; 对所述多段语音 进行纯声学特征提取, 生成特 征矩阵; 基于所述特 征矩阵确定文本数据。 4.根据权利要求2所述的基于大数据的数据处理方法, 其特征在于, 所述当所述数据类 型为图像数据时, 对所述图像数据进行文本检测, 得到文本数据和剔除文本数据的图像数 据的步骤 包括: 对图片进行文本检测, 获得标识所述图片中文本行位置的候选框, 以及各所述候选框 对应的原 始置信度; 根据所述原 始置信度将所述 候选框标记为识别框; 其中, 所述识别框包括端点 参数; 基于所述识别框对所述图像数据进行文本检测, 得到文本数据; 拷贝所述图像数据, 根据所述端点参数在拷贝后的图像数据中删除识别框区域, 得到 剔除文本数据的图像数据。 5.根据权利要求4所述的基于大数据的数据处理方法, 其特征在于, 所述根据 所述原始 置信度将所述 候选框标记为识别框的步骤 包括: 在存在交集区域的所述候选框中选取所述原始置信度最大的所述候选框作为第一候 选框, 其他任一所述候选框作为第二候选框, 根据所述第一候选框与所述第二候选框的所 述交集区域的尺寸以及闭包区域的尺寸, 计算所述第二 候选框的损失参数; 计算所述第 一候选框与所述第 二候选框的原始交并比, 根据所述第 二候选框的损失参权 利 要 求 书 1/2 页 2 CN 114417162 A 2数修正所述原 始交并比, 获得修 正交并比; 根据所述修正交并比和所述第二候选框的原始置信度计算所述第二候选框的修正置 信度; 判断所述第二候选框的修正置信度是否满足置信度条件, 若满足, 则将所述第一候选 框及所述第二 候选框均作为识别文本 框。 6.根据权利要求5所述的基于大数据的数据处理方法, 其特征在于, 所述根据 所述第一 候选框与所述第二候选框的所述交集区域的尺寸以及闭包区域的尺寸, 计算所述第二候选 框的损失参数的步骤 包括: 获取所述交集区域的宽度和高度, 以及所述闭包区域的宽度和高度; 根据所述交集区域与 所述闭包区域的高度比, 以及所述交集区域与 所述闭包区域的宽 度比, 计算所述第二 候选框的损失参数。 7.根据权利要求5所述的基于大数据的数据处理方法, 其特征在于, 所述根据 所述修正 交并比和所述第二 候选框的原始置信度计算所述第二 候选框的修正置信度的步骤 包括: 根据所述 修正交并比计算所述第二 候选框的衰减权值; 根据所述第 二候选框的衰减权值修正所述第 二候选框的原始置信度, 获得所述第 二候 选框的修正置信度。 8.根据权利要求1所述的基于大数据的数据处理方法, 其特征在于, 所述对所述待检数 据进行内容识别, 根据内容识别结果对所述待检数据进行加密的步骤 包括: 当所述待检数据为文本数据时, 建立与预设的敏感字库之间的连接通道; 剔除所述文本数据中的分隔符, 得到文本内容, 依次提取所述文本内容中的单字, 以所 述单字为单位遍历所述敏感字库, 确定敏感字及其敏感地址; 基于敏感地址获取待检词汇, 建立与敏感词汇库的连接通道, 基于敏感词汇库判断所 述待检词汇是否为敏感词; 当所述待检词汇为敏感词时, 获取敏感词的敏感度, 根据所述敏感度对文本数据进行 含有加密级别的加密。 9.根据权利要求1所述的基于大数据的数据处理方法, 其特征在于, 所述对所述待检数 据进行内容识别, 根据内容识别结果对所述待检数据进行加密的步骤 包括: 当所述待检数据为图像数据时, 对所述图像数据进行轮廓识别, 得到物体 轮廓; 对所述物体 轮廓进行完整度分析, 得到轮廓完整度; 当所述轮廓完整度达到预设的完整度阈值时, 将相应的物体轮廓标记为前景物体, 当 所述轮廓完整度小于预设的完整度阈值时, 将相应的物体 轮廓标记为背景物体; 根据所述背景物体确定 图像数据的类别, 基于类别对所述前景物体进行内容识别, 根 据内容识别结果对图像数据进行加密。 10.根据权利要求1至9任一项所述的基于大数据的数据处理方法, 其特征在于, 所述方 法还包括: 当内容识别过程发生 错误时, 向用户发送预设的文件评价表, 获取用户评价信息; 根据所述用户评价信息查询 相似内容, 基于所述相似内容确定参 考数据库; 基于所述 参考数据库对所述待检数据进行二次识别。权 利 要 求 书 2/2 页 3 CN 114417162 A 3

PDF文档 专利 一种基于大数据的数据处理方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于大数据的数据处理方法 第 1 页 专利 一种基于大数据的数据处理方法 第 2 页 专利 一种基于大数据的数据处理方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。