Learning Correlation Structures for Vision Transformers

Manjin Kim, Paul Hongsuck Seo, Cordelia Schmid, Minsu Cho

2024-04-05CVPR 2024 1Action Classification Video Classification Action Recognition

Abstract

We introduce a new attention mechanism, dubbed structural self-attention (StructSA), that leverages rich correlation patterns naturally emerging in key-query interactions of attention. StructSA generates attention maps by recognizing space-time structures of key-query correlations via convolution and uses them to dynamically aggregate local contexts of value features. This effectively leverages rich structural patterns in images and videos such as scene layouts, object motion, and inter-object relations. Using StructSA as a main building block, we develop the structural vision transformer (StructViT) and evaluate its effectiveness on both image and video classification tasks, achieving state-of-the-art results on ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48, and FineGym.

Results

Task	Dataset	Metric	Value	Model
Video	Kinetics-400	Acc@1	83.4	StructViT-B-4-1
Activity Recognition	Diving-48	Accuracy	88.3	StructVit-B-4-1
Activity Recognition	Something-Something V1	Top 1 Accuracy	61.3	StructVit-B-4-1
Activity Recognition	Something-Something V2	Top-1 Accuracy	71.5	StructVit-B-4-1
Action Recognition	Diving-48	Accuracy	88.3	StructVit-B-4-1
Action Recognition	Something-Something V1	Top 1 Accuracy	61.3	StructVit-B-4-1
Action Recognition	Something-Something V2	Top-1 Accuracy	71.5	StructVit-B-4-1

Related Papers

A Real-Time System for Egocentric Hand-Object Interaction Detection in Industrial Domains2025-07-17 Zero-shot Skeleton-based Action Recognition with Prototype-guided Feature Alignment2025-07-01 ActAlign: Zero-Shot Fine-Grained Video Classification via Language-Guided Sequence Alignment2025-06-28 EgoAdapt: Adaptive Multisensory Distillation and Policy Learning for Efficient Egocentric Perception2025-06-26 Feature Hallucination for Self-supervised Action Recognition2025-06-25 CARMA: Context-Aware Situational Grounding of Human-Robot Group Interactions by Combining Vision-Language Models with Object and Action Recognition2025-06-25 Including Semantic Information via Word Embeddings for Skeleton-based Action Recognition2025-06-23 Adapting Vision-Language Models for Evaluating World Models2025-06-22