金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211121406.6 (22)申请日 2022.09.15 (71)申请人 电子科技大 学中山学院 地址 528402 广东省中山市石岐区学院路1 号 (72)发明人 陈述 张昕卓 梁烨韬 陈思佳  (74)专利代理 机构 中山市粤捷信知识产权代理 事务所(普通 合伙) 44583 专利代理师 张谦 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/70(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01)G06V 10/20(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) G06F 40/289(2020.01) (54)发明名称 一种用于短视频智能分类的方法 (57)摘要 本发明公开了一种用于短视频智能分类的 方法, 包括以下步骤: a、 对原始 视频加载; b、 数据 预处理; c、 视 频数据特征提取; d、 Bert Model语义 标签特征融合训练; e、 视频自动智能分类。 发明 是基于BiLSTM模型融合特征训练, 并运用 NeXtVLAD和SENet网络模型聚合局部特征, 通过 FGM、 PGD相结合的算法在训练时加入对抗训练, 着重计算梯度引起的扰动, 达到更泛化的模型分 类效果, 基于BiLSTM网络, 实现了通过原始视频 的智能分类, 将感官上的原始视频理性地评判为 一个分类的模型概 率准确率与损失度之间关系。 权利要求书1页 说明书5页 附图2页 CN 115410131 A 2022.11.29 CN 115410131 A 1.一种用于短视频智能分类的方法, 其特 征在于, 包括以下步骤: a、 对原始视频加载: 形成You Tube‑8M数据集和Ki netics‑400数据集; b、 数据预处理: 对步骤a中数据集中的图像数据增强, 利用已存在的数据集,进行翻转、 缩放或降噪等操作来创建更多数据, 同时提高网络健壮性, 能让网络从视频中学习 更多的 信息; c、 视频数据特征提取: 分别输入上述两个数据集中的视频数据, 对图片预处理使用卷 积神经网络CNN提取, 提取的单帧图像作为TSN的空间域输入, 然后对片段建模, 对文本预 处 理选择NeXtVLAD和SENet网络模型结构, 使用Bert ‑wwn‑ext‑Chinese预训练模型输出对应 的词向量, 同时进行 FGM和PGD对抗训练; d、 BertModel语义标签特征融合训练: 根据注意力机制结合对抗训练对图像标签和语 义特征进行多模态融合训练; e、 视频自动智能分类: 根据分类器的全连接层SoftMax进行预测, 输出平均 概率最高的 模态标签。 2.根据权利要求1所述的一种用于短视频智能分类的方法, 其特 征在于: 所述该步骤c中所述的视频 数据特征的预处 理的步骤如下: 对图片特 征提取: 1.输入视频, 计算 其总帧数, 之后将视频均匀分段; 2.CNN特征提取, 计算每段中每帧的信息熵, 选择其中最大的信息熵作为提取的关键帧 保存; 3.TSN网络训练只选择空间流网络, 模型输入为上述提取的关键帧图像; 采用批量随机 梯度下降算法来学习网络参数。 即批量处 理数据, 多次迭代梯度直至算法收敛; TSN通过段共识函数将被分割的短片段进行信 息融合, 采用聚合函数平均池化, 即将所 有的片段基于共识的响应识别, 对其进行平均激活; 计算对应的得分概率即计算在相同类 别的得分下, 推算 其分支下的类别得分。 3.根据权利要求1所述的一种用于短视频智能分类的方法, 其特 征在于: 所述该步骤c中所述的视频 数据特征的预处 理的步骤如下: 对文本特 征提取: 1.文本分词: 使用Transformer下的BertTokenizer进行分词, 直接提取视频标题的特 征; 2.中文预训练模型: Bert中文预训练模型训练, 继而根据词义上下文推断被随机mask 掉的单词, 输出对应词向量; 3.网络组件模型: 所得特征分别输入到NeXtVLAD网络和SENet网络得到聚类特征, 然后 通过Concat方式形成了一个整体的特征向量, 根据全局的SoftAttention注意力机制, 使其 更加有效的表征整个文本特 征; 加入对抗训练模型: FGM与PGD相结合, 不断迭代 找到最优扰动, 逼近 。权 利 要 求 书 1/1 页 2 CN 115410131 A 2一种用于短 视频智能分类的方 法 技术领域 [0001]本发明涉及视频处 理技术领域, 特别是一种用于短视频智能分类的方法。 背景技术 [0002]如今, 短视频以指数型的方式快速发展, 其类别信息越来越具有关键性的作用。 传 统长视频一般被分类为特定的类型, 如Youtube中的视频分类有 “时尚”、“综艺”、“喜剧”等, 能够更深度更具体地记录生活, 而短视频主要以碎片化的形式, 他们的侧重点有 所不同, 短 视频有着比较突出且独特的特点: 一、 短视频时间短, 传达的信息通常主要是一个或几个主 题。 二、 短视频分类结构体系中的类别利用日益成熟 的人工智能技术实现更为精准的自动 分类划分。 国内的抖音、 快手、 小红书、 今日头条等短视频平台的简洁性, 真实性, 可传播性, 低成本, 参与性强等特点受到我们广大群众的厚爱。 [0003]而现有短视频的自动分类方案存在条件限制, 仅使用单模型单场景的卷积网络, 存在泛化能力不强与过拟合等不足, 无法应用于更为复杂场景下的全局特征提取, 如CNN, 区别如下: 需要采用降维和增加非线性多次的特征提取再通过调整权重进行分类, 仅用特 定应用场景; 同时, 受屏幕限制, 电子输入设备 的成像效果与真实反馈存在差异, 影响着用 户体验。 [0004]现有技术方案及其 缺陷包括: [0005]当前对短视频智能分类主要采用是人为设计的特征和典型的机器学习的方案, 这 一方案一方面需耗费较多 人力, 另一方面容易收到用户的体验不理想的反馈等主观因素影 响。 [0006]已有一种应用于短视频拍照软件的短视频分类方案, 使用KNN模型, 根据预测的数 据点和已训练好的数据点之间的距离, 找出距离目标点最近样本得出分类结果, 经过分类 算法计算得出预测的目标样 本的分类。 KNN分类计算量 非常大, 特别是运用在特征数据非常 多的情况 下是不适宜的, 是一种慵散学习法, 在对 稀有类别的分类中的预测准确率比较低。 [0007]已有一种应用于4G网络的短视频分类方案, 使用Markov模型, 是一种基于时间序 列的分类, 他在可定变量的特征范围, 对数据进行二维到三维的随机模拟计算得出分类结 果。 Markov使用时的时间和状态都是离 散的, 具有粗 糙的非确定性特 征。 发明内容 [0008]针对现有技术中存在的问题, 本发明的目的在于提供一种用于短视频智能分类的 方法。 [0009]为解决上述问题, 本发明采用如下的技 术方案。 [0010]一种用于短视频智能分类的方法, 包括以下步骤: [0011]a、 对原始视频加载: 形成You Tube‑8M数据集和Ki netics‑400数据集; [0012]b、 数据预处理: 对步骤a中数据集中的图像数据增强, 利用已存在的数据集,进行 翻转、 缩放或降噪等操作来创建更多 数据, 同时提高网络健壮性, 能让网络从视频中学习更说 明 书 1/5 页 3 CN 115410131 A 3

PDF文档 专利 一种用于短视频智能分类的方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于短视频智能分类的方法 第 1 页 专利 一种用于短视频智能分类的方法 第 2 页 专利 一种用于短视频智能分类的方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:58:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。