金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210504224.0 (22)申请日 2022.05.10 (71)申请人 西安电子科技大 学 地址 710071 陕西省西安市太白南路2号 (72)发明人 郭洁 王孟瀛 周妍 高雅 宋彬  池育浩  (74)专利代理 机构 西安嘉思特知识产权代理事 务所(普通 合伙) 6123 0 专利代理师 勾慧敏 (51)Int.Cl. G06F 16/532(2019.01) G06F 16/583(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/40(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) (54)发明名称 基于分层对齐和广义池化图注意力机制的 图文检索方法 (57)摘要 本发明涉及一种基于分层对齐和广义池化 图注意力机制的图文检索方法, 包括: 分别提取 预设图像的初始 图像特征向量和预设文本的初 始文本特征向量; 根据初始图像特征向量和初始 文本特征向量中不同节点的级联关系得到图像 特征图和文本特征图; 分别将图像特征图和文本 特征图输入至图注意力和广义池化联合模块得 到最终的图像和文本特征向量; 基于第一相似 度、 第二相似度、 第三相似度, 得到综合相似度, 用综合相似度计算损失函数, 将损失函数反向传 播更新网络参数; 利用综合相似度得到检索匹配 结果。 本发明改善了检索任务 “对齐难”的问题, 可以得到 更完备的、 更能表征图像文本匹配关系 的图像特征向量和文本特征向量, 从而提高了检 索的准确度。 权利要求书5页 说明书15页 附图2页 CN 114896438 A 2022.08.12 CN 114896438 A 1.一种基于分层对齐和广义池化图注意力机制的图文检索方法, 其特征在于, 所述图 文检索方法包括: 步骤1、 分别提取预设图像的初始图像特征向量和预设文本的初始文本特征向量, 所述 初始图像特 征向量通过级联全局特 征向量和 局部特征向量得到; 步骤2、 根据所述初始图像特征向量和所述初始文本特征向量中不同节点的级联关系, 对应得到图像特 征图和文本特 征图; 步骤3、 分别将所述图像特征图和所述文本特征图输入至 图注意力和广义池化联合模 块, 以得到最终的图像特 征向量和文本特 征向量; 步骤4、 基于所述全局特征向量和所述初始文本特征向量的第 一相似度、 所述局部特征 向量和所述初始文本特征向量的第二相似度、 最 终的图像特征向量和最 终的文本特征向量 的第三相似度, 得到所述预设图像和所述预设文本之间的综合相似度, 用综合相似度计算 损失函数, 将损失函数反向传播更新网络参数, 网络参数分别位于图像特征向量提取部 分、 文本特征向量提取部分、 图注意力和广义池化联合模块; 步骤5、 利用更新网络参数后的模型输出的最终的所述综合相似度得到检索匹配结果。 2.根据权利要求1所述的基于分层对齐和广义池化图注意力机制的图文检索方法, 其 特征在于, 所述 步骤1包括: 步骤1.1、 提取 所述预设图像的全局特 征向量VG和局部特征向量VL; 步骤1.2、 级联所述全局特征向量VG和所述局部特征向量VL得到所述初始图像特征向 量; 步骤1.3、 提取 所述预设文本的初始文本特 征向量TS。 3.根据权利要求2所述的基于分层对齐和广义池化图注意力机制的图文检索方法, 其 特征在于, 所述全局特 征向量VG为: VG=WgG+bg, 其中, VG表示所述预设图像的全局特征向量, Wg表示第一权重矩阵, 表 示第一权重矩阵的尺寸大小, D表示输出图像的特征向量的维度, D0表示每个像素的尺寸, G 表示第一输出特征且满足 表示第一输出特征 的尺寸大小, m表示重构后的特 征图大小, bg表示第一偏置常数; 所述局部特 征向量VL为: VL=WlL+bl, 其中, VL表示所述预设图像的局部特 征向量, Wl表示第二权 重矩阵, 表 示第二权重矩阵的尺寸大小, Dk表示每个区域特征的维数, L表示第二输出特征且满足 表示第二输出特征的尺寸大小, k表示从所述预设 图像中检测到区域的个数, bl表示第二偏置常数; 所述初始图像特 征向量为: VU=VG||VL, 其中, VU表示所述初始图像特征向量, ||表示级联操作, VU可表示为 表示图像特 征向量的尺寸大小, DU表示图像特 征向量的维数;权 利 要 求 书 1/5 页 2 CN 114896438 A 2所述初始文本特 征向量为: TS=WSS+bS 其中, TS表示初始文本特征向量, S表示输出特征且满足 表示文本特征向量的尺寸大小, D1表示文本特征的维度, l表示文本内单词的数量, WS表 示权重矩阵, bS表示第三偏置常数。 4.根据权利要求1所述的基于分层对齐和广义池化图注意力机制的图文检索方法, 其 特征在于, 所述 步骤2包括: 步骤2.1、 从所述初始图像特征向量中提取第i节点的第一图像特征向量 和第j节点 的第二图像特 征向量 步骤2.2、 对所述第一图像特征向量 和所述第二图像特征向量 进行点积操作得到 第一关系EU; 步骤2.3、 根据所述初始图像特 征向量和所述第一关系EU构建所述图像特 征图; 步骤2.4、 从所述初始文本特征向量中提取第i1节点的第一文本特征向量 和第j1节 点的第二文本特 征向量 步骤2.5、 对所述第一文本特征向量 和所述第二文本特征向量 进行点积操作得到 第二关系ES; 步骤2.6、 根据所述初始文本特 征向量和所述第二关系ES构建所述文本特 征图。 5.根据权利要求4所述的基于分层对齐和广义池化图注意力机制的图文检索方法, 其 特征在于, 所述第一关系EU为: 其中,⊙表示点积操作; 所述图像特 征图为: GV=(VU,EU) 其中, GV表示图像特征图, 将所述初始图像特征向量中的特征作为节点, 将所述第一关 系EU作为边; 所述第二关系ES为: 所述文本特 征图为: GT=(TS,ES) 其中, GT表示文本特征图, 将所述初始文本特征向量中的特征作为节点, 将所述第二关 系ES作为边。 6.根据权利要求1所述的基于分层对齐和广义池化图注意力机制的图文检索方法, 其 特征在于, 所述 步骤3包括: 步骤3.1、 将所述图像特征图输入图注意力网络模块中, 通过多头图注意力机制算法对 所述初始图像特 征向量进行传播, 以得到更新后的图像特 征向量;权 利 要 求 书 2/5 页 3 CN 114896438 A 3

PDF文档 专利 基于分层对齐和广义池化图注意力机制的图文检索方法

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于分层对齐和广义池化图注意力机制的图文检索方法 第 1 页 专利 基于分层对齐和广义池化图注意力机制的图文检索方法 第 2 页 专利 基于分层对齐和广义池化图注意力机制的图文检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。