金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210080054.8 (22)申请日 2022.01.24 (71)申请人 西北大学 地址 710069 陕西省西安市太白北路2 29号 (72)发明人 范建平 宋乔 张晓丹 彭先霖  王珺 赵万青 李斌 彭进业  (74)专利代理 机构 西安恒泰知识产权代理事务 所 61216 专利代理师 王孝明 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种解决模态缺失问题的多模态图像美学 质量评价方法 (57)摘要 本发明提供了一种解决模态缺失问题的多 模态图像美 学质量评价方法, 步骤1, 获取美 学数 据集, 对数据集进行数据清洗和预处理, 获得每 张图像的图像ID、 文本评论信息和标签; 步骤2, 使用DPC数据集预训练缺失模态重建网络, 利用 图像的视觉特征重建缺失的文本模态信息; 步骤 3, 建立多模态美学预测网络, 所述的多模态美学 预测网络包括图像编码器、 embedding模型、 多模 态编码器和美 学评分单元; 步骤4, 将美学数据集 中每张图像的图像ID、 文本评论信息和真实标签 作为训练集, 对多模态美学预测 网络进行训练, 训练好的多模态美学预测网络作为美学评分分 布预测模型, 实现多模态图像美学质量评价。 使 图像信息和文本信息不同模态的信息在多个不 同的层次上相互作用。 权利要求书7页 说明书15页 附图4页 CN 114549850 A 2022.05.27 CN 114549850 A 1.一种解决模态缺失问题的多模态图像美学质量评价方法, 其特征在于, 该方法包括 以下步骤: 步骤1, 获取美学数据集, 对数据集进行数据清洗和预处理, 获得每张图像的图像ID、 文 本评论信息和标签; 步骤2, 使用DPC数据集预训练缺失模态重建网络, 利用图像的视觉特征重建缺失的文 本模态信息; 步骤3, 建立多模态美学预测网络, 所述的多模态美学预测网络包括图像编码器、 embedding模型、 多模态编码器和美学评分单 元; 所述的图像编码器用于提取美学 数据集中的图像的特 征; 所述的embed ding模型用于计算多模态编码器的输入; 所述的多模态编码器用于多模态特征融合, 将视觉特征和文本特征进行融合, 得到多 模态的联合表示向量; 所述的美学评分单 元, 用于基于多模态的联合表示向量计算美学 预测概率分布; 步骤4, 将美学数据集中每张图像的图像ID、 文本评论信息和真实标签作为训练集, 对 多模态美学预测网络进行训练, 训练好的多模态美学预测网络作为美学评分分布预测模 型, 实现多模态图像美学质量评价。 2.如权利要求1所述的解决模态缺失问题的多模态图像美学质量评价方法, 其特征在 于, 步骤2包括以下步骤: 步骤2.1, 统计D PC数据集中出现的不同的单词的数量, 做成词汇 表; 步骤2.2, 对于缺少文本模态数据的美学数据集中的样本, 基于可用的图像模态重建缺 少的文本模态; 给定可观测的图像模态, 采用卷积神经网络提取视觉特征集x={x1,x2..., xL|xi∈RD}; 式中: i表示图像特 征的顺序, i =1,2,..,L, L表示总共L个位置; xi表示第i个位置的图像特 征; L表示总共L个位置; RD表示视觉特征的维度为D维向量; 步骤2.3, 计算第i个位置的注意力权重αt,i, 注意力权重就是衡量在t时刻生成第t个单 词时, 第i个位置的图像特 征所占的权 重; eti=fatt(xi,ht‑1)                             式1; 式中: fatt表示计算 位置i和时间t的耦合信息的函数; ht‑1表示上一时刻的隐藏状态; eti表示在t时刻i 位置上的耦合信息; etk表示计算t时刻和共L个位置上第k个位置的耦合信息, 是一个中间变量; k表示第k个位置;权 利 要 求 书 1/7 页 2 CN 114549850 A 2步骤2.4, 得到注意力权 重之后, 进 而计算上 下文向量, 计算方式如下 所示: 式中: 表示上下文向量; ψ表示一个函数, 在给定一组标注向量及其相应权值的情况 下, 返回单个向量; 步骤2.5, 使用LSTM模型作为解码器, 将步骤2.4得到的上下文向量和先前生成的单词 还有上一时刻的隐藏状态ht‑1输入LSTM网络中, LSTM网络通过在每个时刻生成一个单词来 生成文本注释, 以重建缺失的文本模态信息y; y={y1,y2,...,yM|yj∈RA}; 式中: j表示生成文本模态信息中单词的顺序, j=1,2,. ..,M, M表示 生成单词的数量; yj表示生成的第j个单词; M表示生成单词的数量; A表示词汇 表的大小; RA表示生成的单词的维度; 所述的LSTM网络中: 式中: it表示LSTM网络的输入状态; ft表示LSTM网络的遗 忘状态; ot表示LSTM网络的输出状态; ct表示LSTM网络的记 忆状态; ht表示LSTM网络的隐藏状态; gt表示LSTM网络的输入调制器; σ 表示sigmo id激活函数; tanh表示tanh 激活函数; T表示维度转换操作; D表示视觉特征的维度;权 利 要 求 书 2/7 页 3 CN 114549850 A 3

PDF文档 专利 一种解决模态缺失问题的多模态图像美学质量评价方法

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种解决模态缺失问题的多模态图像美学质量评价方法 第 1 页 专利 一种解决模态缺失问题的多模态图像美学质量评价方法 第 2 页 专利 一种解决模态缺失问题的多模态图像美学质量评价方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:12:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。