Skateformer

 

2024年ECCV文章

 

Motivation:

1.传感器提供的3D骨骼点能够提供紧凑而稳定的表达能力。

2.GCNS难以捕捉到长距离关节相互作用以及长时间动态信息。

Conclusion: Transformer can capture all joints relation but can be efficient.

紧接着,问题来了,对于特定的动作,是否要对全部帧的全部关节点做自注意力呢?

Conclusion: Specific joints in specific frames are more critical.

 

Method:

作者提出了一个关节和帧分区策略以及分区自注意力策略

其中分区自注意力策略有效捕捉骨骼及时态间的信息。由此有了分区的策略,总共有四种分法,是基于两种骨骼关系两种时态关系

Model architecture:

Skate-Embedding:

在原时间帧上进行裁剪率,裁剪率为1-P,利用固定的(不可学习的)时间索引特征和可学习的(不可固定的,可学习)骨架特征。

Skate-MSA:

基于四种分区策略,将特征维度平分四份进行自注意力计算,结果再进行特征维度的拼接。总体来说,以上过程主体流程由下表达式呈现

Partition and Reverse:

基于四种分区策略进行划分和重组,将计算复杂度降低为原来的48x

Experiment results:

总结:这篇文章其实是swim-transformer类似思路,分区后做自注意力,这种迁移的思想值得学习。

发表评论