金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210477320.0 (22)申请日 2022.05.04 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 朱飞达 朱俊伟 储文青 邰颖  汪铖杰  (74)专利代理 机构 深圳翼盛智成知识产权事务 所(普通合伙) 44300 专利代理师 李玉婷 (51)Int.Cl. G06V 40/16(2022.01) G06T 15/00(2011.01) G10L 25/03(2013.01) G10L 25/63(2013.01)G06K 9/62(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01) (54)发明名称 图像生成方法以及相关 设备 (57)摘要 本申请公开了一种图像生成方法以及相关 设备, 相关实施例可应用于云技术、 人工智能、 智 慧交通、 辅助驾驶等各种场景; 可 以获取目标对 象的原始面部图像帧和待生成的目标面部图像 帧的音频驱动信息; 对原始面部图像帧进行空间 特征提取, 得到原始面部空间特征; 对音频驱动 信息进行时序特征提取, 得到面部局部姿态特 征; 基于原始面部空间特征和面部局部姿态特征 对目标对象进行面部重建处理, 生成目标面部图 像帧。 本申请可以通过对音 频驱动信息进行特征 提取, 捕捉到目标对象部分的面部姿态细节信 息, 进而基于捕捉到的信息来对原始面部图像帧 进行面部调整, 从而获取音 频驱动信息对应的目 标面部图像帧, 这样有利于提高目标面部图像帧 的生成效率和准确性。 权利要求书3页 说明书28页 附图6页 CN 115131849 A 2022.09.30 CN 115131849 A 1.一种图像生成方法, 其特 征在于, 包括: 获取目标对象的原 始面部图像帧和待生成的目标面部图像帧对应的音频驱动信息; 对所述原始面部图像帧进行空间特征提取, 得到所述原始面部图像帧对应的原始面部 空间特征; 对所述音频驱动信 息进行时序 特征提取, 得到所述目标面部图像帧对应的面部局部姿 态特征; 基于所述原始面部空间特征和所述面部局部姿态特征, 对所述目标对象进行面部重建 处理, 生成所述目标面部图像帧。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述音频驱动信 息进行时序 特征提 取, 得到所述目标面部图像帧对应的面部局部姿态特 征, 包括: 对所述音频驱动信 息中的各个音频帧进行特征提取, 得到各个音频帧的音频语义特征 信息; 基于各个音频帧的前后音频帧的音频语义特征信 息, 对所述各个音频帧的音频语义特 征信息进行处 理; 将处理后的各个音频帧的音频语义特征信 息进行融合, 得到所述目标面部图像帧对应 的面部局部姿态特 征。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述原始面部空间特征和所述面 部局部姿态特 征, 对所述目标对象进行面部 重建处理, 生成所述目标面部图像帧, 包括: 将所述原始面部空间特征和所述面部局部姿态特征进行融合, 得到 融合后面部空间特 征; 基于所述融合后面部空间特征, 对所述目标对象进行面部重建处理, 得到所述目标对 象对应的参 考面部图像帧; 基于所述原始面部 图像帧、 所述融合后面部空间特征和所述参考面部 图像帧, 生成所 述目标面部图像帧。 4.根据权利要求3所述的方法, 其特征在于, 所述基于所述融合后面部空间特征, 对所 述目标对象进行面部 重建处理, 得到所述目标对象对应的参 考面部图像帧, 包括: 基于所述融合后面部空间特征, 对所述目标对象进行面部重建处理, 得到所述目标对 象对应的重建后三维面部图像; 对所述重建后三维面部图像进行渲染映射处理, 得到所述目标对象对应的参考面部图 像帧。 5.根据权利要求3所述的方法, 其特征在于, 所述基于所述原始面部 图像帧、 所述融合 后面部空间特 征和所述 参考面部图像帧, 生成所述目标面部图像帧, 包括: 对所述原始面部图像帧进行多尺度的特征提取, 得到所述原始面部图像帧对应的多个 尺度下的原 始面部特 征图; 对所述参考面部图像帧进行多尺度的特征提取, 得到所述参考面部图像帧对应的多个 尺度下的参 考面部特征图; 对所述融合后面部空间特征进行编码映射处理, 得到所述融合后 面部空间特征对应的 隐特征信息; 将所述多个尺度 下的原始面部特征图、 所述多个尺度下的参考面部特征图以及所述隐权 利 要 求 书 1/3 页 2 CN 115131849 A 2特征信息进行融合, 得到所述目标面部图像帧。 6.根据权利要求5所述的方法, 其特征在于, 所述将所述多个尺度下的原始面部特征 图、 所述多个尺度下 的参考面部特征图以及所述隐特征信息进行融合, 得到所述 目标面部 图像帧, 包括: 将所述隐特征信 息、 目标尺度 下的原始面部特征图和所述目标尺度下的参考面部特征 图进行融合, 得到所述 目标尺度下对应的融合面部特征图, 所述 目标尺度为从所述多个尺 度中选取的尺度; 将所述目标尺度 下对应的融合面部特征图、 相邻尺度下的原始面部特征图以及所述相 邻尺度下的参 考面部特征图进行融合, 得到所述目标面部图像帧。 7.根据权利要求6所述的方法, 其特征在于, 所述将所述目标尺度 下对应的融合面部特 征图、 相邻尺度下 的原始面部特征图以及所述相邻尺度下 的参考面部特征图进行融合, 得 到所述目标面部图像帧, 包括: 基于所述 隐特征信息, 对所述目标尺度下对应的融合面部特征图进行风格调制处理, 得到调制后风格特 征; 将所述调制后风格特征、 相邻尺度 下的原始面部特征图以及所述相邻尺度下的参考面 部特征图进行融合, 得到所述目标面部图像帧。 8.根据权利要求1所述的方法, 其特征在于, 所述对所述原始面部图像帧进行空间特征 提取, 得到所述原 始面部图像帧对应的原 始面部空间特 征, 包括: 通过图像生成模型, 对所述原始面部 图像帧进行空间特征提取, 得到所述原始面部 图 像帧对应的原 始面部空间特 征; 所述对所述音频驱动信 息进行时序 特征提取, 得到所述目标面部图像帧对应的面部局 部姿态特 征, 包括: 通过所述图像生成模型, 对所述音频驱动信息进行时序特征提取, 得到所述目标面部 图像帧对应的面部局部姿态特 征; 所述基于所述原始面部空间特征和所述面部局部姿态特征, 对所述目标对象进行面部 重建处理, 生成所述目标面部图像帧, 包括: 通过所述图像生成模型, 基于所述原始面部空间特征和所述面部局部姿态特征, 对所 述目标对象进行面部 重建处理, 生成所述目标面部图像帧。 9.根据权利要求8所述的方法, 其特征在于, 所述通过图像生成模型, 对所述原始面部 图像帧进行空间特征提取, 得到所述原始面部图像 帧对应的原始面部空间特征之前, 还包 括: 获取训练数据, 所述训练数据包括样本对象的原始面部 图像帧样本、 目标驱动面部 图 像帧样本、 以及所述目标驱动面部图像帧样本对应的音频驱动信息样本; 通过预设图像生成模型, 对所述原始面部 图像帧样本进行空间特征提取, 得到所述原 始面部图像帧样本对应的原 始面部空间特 征; 对所述音频驱动信 息样本进行时序 特征提取, 得到所述目标驱动 面部图像帧样本对应 的面部局部姿态特 征; 基于所述原始面部空间特征和所述面部局部姿态特征, 对所述样本对象进行面部重建 处理, 得到预测驱动面部图像帧;权 利 要 求 书 2/3 页 3 CN 115131849 A 3

PDF文档 专利 图像生成方法以及相关设备

文档预览
中文文档 38 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像生成方法以及相关设备 第 1 页 专利 图像生成方法以及相关设备 第 2 页 专利 图像生成方法以及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。