Revisiting 3D ResNets for Video Recognition

Xianzhi Du, Yeqing Li, Yin Cui, Rui Qian, Jing Li, Irwan Bello

2021-09-03Action Classification Video Recognition Contrastive Learning

Paper PDF Code Code Code(official)Code Code

Abstract

A recent work from Bello shows that training and scaling strategies may be more significant than model architectures for visual recognition. This short note studies effective training and scaling strategies for video recognition models. We propose a simple scaling strategy for 3D ResNets, in combination with improved training strategies and minor architectural changes. The resulting models, termed 3D ResNet-RS, attain competitive performance of 81.0 on Kinetics-400 and 83.8 on Kinetics-600 without pre-training. When pre-trained on a large Web Video Text dataset, our best model achieves 83.5 and 84.3 on Kinetics-400 and Kinetics-600. The proposed scaling rule is further evaluated in a self-supervised setup using contrastive learning, demonstrating improved performance. Code is available at: https://github.com/tensorflow/models/tree/master/official.

Results

Task	Dataset	Metric	Value	Model
Video	Kinetics-400	Acc@1	80.4	R3D-RS-200
Video	Kinetics-400	Acc@5	94.4	R3D-RS-200
Video	Kinetics-600	Top-1 Accuracy	83.1	R3D-RS-200

Related Papers

SemCSE: Semantic Contrastive Sentence Embeddings Using LLM-Generated Summaries For Scientific Abstracts2025-07-17 HapticCap: A Multimodal Dataset and Task for Understanding User Experience of Vibration Haptic Signals2025-07-17 Overview of the TalentCLEF 2025: Skill and Job Title Intelligence for Human Capital Management2025-07-17 SGCL: Unifying Self-Supervised and Supervised Learning for Graph Recommendation2025-07-17 DVFL-Net: A Lightweight Distilled Video Focal Modulation Network for Spatio-Temporal Action Recognition2025-07-16 Similarity-Guided Diffusion for Contrastive Sequential Recommendation2025-07-16 LLM-Driven Dual-Level Multi-Interest Modeling for Recommendation2025-07-15 Latent Space Consistency for Sparse-View CT Reconstruction2025-07-15