金融行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211192163.5 (22)申请日 2022.09.28 (71)申请人 西安交通大 学 地址 710049 陕西省西安市碑林区咸宁西 路28号 (72)发明人 杨旸 李宗赟 高学浩  (74)专利代理 机构 西安智大知识产权代理事务 所 61215 专利代理师 何会侠 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/82(2022.01) G06N 5/04(2006.01) G06V 10/26(2022.01) G06V 10/80(2022.01) (54)发明名称 一种三维空间内场景感知的人体动作预测 方法 (57)摘要 本发明公开了一种三维空间内场景感知的 人体动作预测方法, 针对由传感器或游戏引擎获 取到的人体骨架数据, 首先使用自学习邻接矩阵 的时空图卷积神经网络提取运动特征, 在空间上 利用邻接矩 阵考虑人体骨架节点之间的自然连 接, 在时间上通过一维卷积来建模不同时间步上 相同关节的联系; 然后 在三维场景点云上构建深 度卷积网络, 获得对应时间RGB图像的语义分割 结果作为场景特征; 之后通过跨通道的自注意力 模型实现运动特征和场景特征的特征融合; 最后 使用融合后的特征进行三维场景下的人体动作 预测。 该方法相对于传统动作预测方法, 综合考 虑人体运动与场景的关系, 提高了预测的准确 率, 可用于人机交互、 自动驾驶和一些场景下监 控系统的运动预测问题。 权利要求书2页 说明书5页 附图5页 CN 115482585 A 2022.12.16 CN 115482585 A 1.一种三维空间内场景感知的人体动作预测方法, 其特征在于: 将场景信息融入到预 测人体未来的运动中, 具体包括以下步骤: 步骤1: 对于由传感器或游戏引擎获取到的人体运动骨架数据, 在每个时间步t内, 将人 体运动骨架数据建模为时空图Gt=(Vt, Et); 其中Vt是时空图的点, Et是时空图的边; 点集Vt 包含一个骨架动作序列的所有关节点; 形式上, 边集Et由两个子集组成, 邻 接矩阵At定义了 时空图的边的权值, 表示人体关节的自然连接, Ef表示连续时间的相同关节, 那么对于一个 特定的关节i, Ef中的所有边代 表其随时间的轨 迹; 步骤2: 利用步骤1对人体运动骨架数据的处理, 在空间上利用邻接矩阵考虑人体关节 的自然连接, 在时间上通过一维卷积来建模不同时间上相同关节的联系, 通过构建时空图 卷积神经网络提取 人体运动特 征fm; 步骤3: 为了将场景信息融入到预测人体未来的运动中, 使用基于PointConv的视觉特 征提取器ψ来编码视觉特征fs=ψ(X1: n), 其中X1: n={X1, X2, ..., Xn}表示时刻1到时刻n的点 云流, 具体操作是通过n个时刻的点云, 将对应时刻的RGB图像进 行语义分割, 将 语义分割结 果作为视 觉特征fs; 步骤4: 通过步骤2、 步骤3分别获得的人体运动特征和视觉特征进行注意力感知的多模 态特征融合, 以便于利用来自不同模态的信息; 部署一个跨模态的自注意力模型用于捕获 输入的人体运动特征fm和视觉特征fs的相关性并且建立多模态信息之间的通信, 基于注意 力机制, 融合特 征f表示如下: f=cross_trans(fs, fm) 步骤5: 利用步骤4得到的融合特征预测人体未来的运动, MH+F=cross_trans(h, f); MH+F 表示预测获得的整个运动序列, 其中H代表历史运动的时间, F代表预测的未来运动的时间, f代表运动和场景 的融合特征, h是一个包含了输出时间空间编码的隐向量, 方便输出为所 需形状的数组; 同时为了使预测获得的运动序列更加自然, 引入骨架 一致性损失L来衡量预 测获得的运动序列与真实运动序列的差距; 骨架一致性损失L主要对骨骼的正常长度和关 节之间的角度进 行约束; 对于骨骼的正常长度, 使用均方误差L2进 行约束, 对于 关节之间的 角度, 使用余弦相似度Lc进行约束, 令L = λ1L2+λ2Lc, 其中λ1, λ2为两种约束的权 重。 2.根据权利要求1所述的一种三维空间内场景感知的人体动作 预测方法, 其特征在于: 步骤1所述的表示人体 关节自然连接的邻接矩阵, 其权重不固定, 而 是让模型自学习发现其 最佳权重; 具体方法为: 由于邻接矩阵的形状为J*J, 其中J为人体关节的个数, 在时间T内, 将邻接矩阵看作具有T个通道的二 维图像, 即T*J*J, 并输入到一个卷积神经网络, 能够学习 到人体运动中各个关节点之 间的联系, 使用自学习的邻接矩阵能够更好 发现关节点之 间的 交互性。 3.根据权利要求1所述的一种三维空间内场景感知的人体动作 预测方法, 其特征在于: 步骤3所述的视觉特征, 能够将场景信息融入到预测人体未来的运动中, 为预测过程提供了 场景信息的指导, 使预测的人体运动受到场景的约束, 预测结果更加可信。 4.根据权利要求1所述的一种三维空间内场景感知的人体动作 预测方法, 其特征在于: 步骤3所述的视觉特征, 是通过n个时刻的点云, 将对应时刻的RGB图像进行语义分割得来 的; 将语义分割结果作为视觉特征, 相对于直接输入RGB图像得到的特征, 学习到的特征更 加直观。权 利 要 求 书 1/2 页 2 CN 115482585 A 25.根据权利要求1所述的一种三维空间内场景感知的人体动作 预测方法, 其特征在于: 步骤4融合了人体运动特征与视觉特征, 具体操作为: 部署一个跨模态的自注 意力模型来融 合运动特征以及视觉特征, 而不是只进 行简单的连接或堆叠, 有助于两种特征的交互, 能够 更好发挥视 觉特征对人体运动的指导作用。权 利 要 求 书 2/2 页 3 CN 115482585 A 3

PDF文档 专利 一种三维空间内场景感知的人体动作预测方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种三维空间内场景感知的人体动作预测方法 第 1 页 专利 一种三维空间内场景感知的人体动作预测方法 第 2 页 专利 一种三维空间内场景感知的人体动作预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:59:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。