基于异步多时域特征的动态手势识别方法

(整期优先)网络出版时间:2023-04-19
/ 2

 基于异步多时域特征的动态手势识别方法

杨希 ,尹家旺 ,王子阳 ,李丛序,刘泽华

南京工程学院  211167

摘 要:准确及时地手势识别在增强现实技术中具有重要的意义。针对表征复杂手势序列的时空特征,提出了一种基于异步多时域时空特征的手势识别方法。该方法通过轻量级三维卷积网络提取视频序列的不同时间步态的短期时空特征,通过改进的卷积长短期记忆网络学习长期时空特征,将不同步态的时空特征融合为异步多时域特征,以此来对手势进行分类识别。通过与其他主流方法进行比较,实验结果证明了提出的方法具有较高的动态手势识别率。

关键词:增强现实;动态手势识别;时空特征;异步特征;融合预测

目前主流手势与动作识别的工作都是基于 RGB图像、Depth图像、光流图以及骨骼关键点信息。提出了一种双流网络模型来对动态手势和行为进行识别,核心思想是用 RGB 信息流来表达动态手势的空间特征,用光流信息流来表示手势动作的运动特征,然而该方法并未考虑空间信息流和运动信息流间的内在关系。对双流网络模型进行了改进,应用光流来指引 RGB 信息流网络分支的特征提取,使 RGB 流特征拥有部分运动信息,但是该方法本质上还是双流模型,而光流本身无法表达完整的运动信息。提出了一种分段手势识别方法,首先通过子神经网络估计手势图像深度,然后将深度信息与RGB信息结合,用来识别手势,该方法同样存在运动信息不完整的缺点。

1 相关工作

动态手势识别的关键和难点在于对手势动作的时空信息处理,处理方法可以分为传统手工特征提取方法和深度学习方法。传统手工特征提取方法大多采用动态时间规整算法、时间金字塔。其中 DTW 方法是对捕捉到手势的关键点轨迹应用动态时间规整进行模板匹配,捕捉手势关键点坐标轨迹和形状数据则需要专门的传感器,模板匹配也需要设置特定的匹配模板;时间金字塔方法对完整的手势帧进行不同时间长度采样来处理手势的时空特征;HMM 则只能关注较短时间内的手势历史信息,从而忽略了手势的连续性和完整性等特点。3DRestNet进行结构调整,用来提取手势的短期时空特征,然后应用改进的ConvLSTM对短期时空特征进行长期关系建模,从而得到多时域的时空特征。为了提高模型对不同运行状态手势的鲁棒性,网络采用了异步结构,最终模型对不同速率和不同时间长度的手势均能准确的检测与识别。

2 本文提出的异步多时域网络模型

异步多时域网络总体架构 ,网络特征提取部分由短期时空特征抽取模块和长期时空关系构建模块组成,预测解码部分则由主要由微调后的MobileNetV2 网络构成。其中短期时空特征抽取模块由轻量级三维卷积网络构成,负责进行短期异步时空特征的提取,长期时空关系构建模块由改进的ConvLSTM网络构成,负责对短期特征进行长期关系建模,使模型提取的手势动作特征包含丰富的运动信息,如:手势快慢、动作长度等信息。

2.1 短期异步时空特征抽取

2.1.1 三维卷积视频序列特征

二维卷积用来对单幅图像的空间特征的提取,在对视频图像序列处理的过程中,处理对象也是单个独立的帧,并未考虑帧与帧之间的相关性,如图1所示。

当时间维度卷积次数越多,所得到的特征图中的历史信息则越多,其数学表达如公式(1)所示:

              

                   图1 二维卷积对视频序列的特征提取

        

其中,x,y 为图像坐标,∗ 表示卷积运算,Ft(x,y) 为单通道输入图像,ω 为二维卷积核,G(x,y) 为运算后的特征图,V2d(x,y,t) 为整体的时空序列图,从 V2d(x,y,t) 的结果可以看出整个视频序列的各帧图像的特征是时间无关的,而事实上视频中的动作序列是紧密相关的,正因为这种相关性才构成了人眼所见的不同的动态行为。三维卷积是将二维卷积从空间尺度扩展到时间尺度的卷积。三维卷积是将视频序列整体当做运算对象,其数学

表达如公式(2)所示:

                

其中,ω 此时为三维卷积核,F 为整个视频序列输入,V3d(x,y,t) 为 F 的时空特征,G3d(x,y,t) 为 t 时刻的局部时空特征,kt 为卷积核时间维度大小,可以看出,当kt = 3 时,G3d 是与前后相邻帧有关的局部时空特征,这种具有时间维度相关性的视频序列特征与一个动作的前后连续表达的性质是相符合的。

2.2 长期时空关系构建

对于一般用途的序列建模,LSTM 作为一种特殊的RNN 结构,在以往的研究中已经被证明是稳定且有效的,它用来对序列进行长期依赖关系建模,在其基础上的 FC-LSTM、ConvLSTM等模型则专门用来对视频序列的长期依赖关系进行建模。FC-LSTM、ConvLSTM等模型是直接应用于原始视频序列数据,而本文的时间序列网络的对象则是短期异步时空特征网络的输出,因此对ConvLSTM的内部结构进行了调整和改进,以使序列预测模型部分更加高效和便捷。 FC-LSTM 和 ConvLSTM 模型均是 LSTM 与 CNN的结合,所不同的是前者为串联结合,后者则为内部结构融合,图2为LSTM内部结构。

                      

                              图2     LSTM内部结构示意图

ConvLSTM中的各个门控运算均为卷积运算,其内部结构如公式(3)所示:

                        

其中,∘ 表示哈达玛乘积,∗ 表示卷积运算,σ 表示sigmoid 激活函数,tanh 表示 tanh 激活函数,it 表示输入门,ft 表示过滤门,ot 为输出门,Wx~ 和Wc~ 表示各个门与输入向量权重,ht - 1 和 ht 表示历史隐藏状态和当前隐藏状态,xt 表示输入序列,ConvLSTM结构中 xt与 Xt 相同,表示视频序列或者特征图序列的第 t 个帧,因为ConvLSTM内部的运算均为卷积运算,所以可以自动对图像进行特征提取。

3  结束语

本文提出了异步多时域手势识别方法,应用轻量级 3DCNN 网络提取动态手势的短期异步时空特征,FC-ConvLSTM建立长短期异步时空特征。同时也发现对于训练数据不均衡的相似动作未能得到较好的识别率。在未来工作中,将计划在更多的模态上进行类似实验,并尝试结合提升方法来处理样本不均衡问题。

参考文献:

[1] 余思泉,曹江涛,李平,等.基于空间金字塔特征包的手势识别算法[J].智能系统学报,2015,10(3):429-435.YU S Q,CAO J T,LI P,et al.Hand gesture recognitionbased on the spatial pyramid bag of features[J].CAAI

Transactions on Intelligent Systems,2015,10(3):429-435.

[2] 胡敦利,柯浩然,张维.基于 Kinect和 ROS的骨骼轨迹人体姿态识别研究[J].高技术通讯,2020,30(2):177-184.HU D L,High Technology Letters,2020,30(2):177-184.

[3] 杨世强,罗晓宇,李小莉,等. 基于 DBN-HMM 的人体动作识别[J].计算机工程与应用,2019,55(15):169-176.