Video Classification with Channel-Separated Convolutional Networks

Du Tran, Heng Wang, Lorenzo Torresani, Matt Feiszli

2019-04-04ICCV 2019 10Image Classification Action Classification Video Classification General Classification Action Recognition

Paper PDF Code Code Code Code Code(official)Code Code

Abstract

Group convolution has been shown to offer great computational savings in various 2D convolutional architectures for image classification. It is natural to ask: 1) if group convolution can help to alleviate the high computational cost of video classification networks; 2) what factors matter the most in 3D group convolutional networks; and 3) what are good computation/accuracy trade-offs with 3D group convolutional networks. This paper studies the effects of different design choices in 3D group convolutional networks for video classification. We empirically demonstrate that the amount of channel interactions plays an important role in the accuracy of 3D group convolutional networks. Our experiments suggest two main findings. First, it is a good practice to factorize 3D convolutions by separating channel interactions and spatiotemporal interactions as this leads to improved accuracy and lower computational cost. Second, 3D channel-separated convolutions provide a form of regularization, yielding lower training accuracy but higher test accuracy compared to 3D convolutions. These two empirical findings lead us to design an architecture -- Channel-Separated Convolutional Network (CSN) -- which is simple, efficient, yet accurate. On Sports1M, Kinetics, and Something-Something, our CSNs are comparable with or better than the state-of-the-art while being 2-3 times more efficient.

Results

Task	Dataset	Metric	Value	Model
Video	Kinetics-400	Acc@1	82.6	ir-CSN-152 (IG-65M pretraining)
Video	Kinetics-400	Acc@1	82.5	ip-CSN-152 (IG-65M pretraining)
Video	Kinetics-400	Acc@5	95.3	ip-CSN-152 (IG-65M pretraining)
Video	Kinetics-400	Acc@1	81.3	R[2+1]D-152 (IG-65M pretraining)
Video	Kinetics-400	Acc@5	95.1	R[2+1]D-152 (IG-65M pretraining)
Video	Kinetics-400	Acc@1	79.2	ip-CSN-152 (Sports-1M pretraining)
Video	Kinetics-400	Acc@5	93.8	ip-CSN-152 (Sports-1M pretraining)
Video	Kinetics-400	Acc@1	77.8	ip-CSN-152
Video	Kinetics-400	Acc@5	92.8	ip-CSN-152
Activity Recognition	Sports-1M	Video hit@1	75.5	ip-CSN-152 (RGB)
Activity Recognition	Sports-1M	Video hit@5	92.8	ip-CSN-152 (RGB)
Activity Recognition	Sports-1M	Video hit@1	74.9	ip-CSN-101 (RGB)
Activity Recognition	Sports-1M	Video hit@5	92.6	ip-CSN-101 (RGB)
Activity Recognition	Something-Something V1	Top 1 Accuracy	53.3	ip-CSN-152 (IG-65M pretraining)
Activity Recognition	Something-Something V1	Top 1 Accuracy	52.1	ir-CSN-152 (IG-65M pretraining)
Activity Recognition	Something-Something V1	Top 1 Accuracy	51.6	R(2+1)D-152 (IG-65M pretraining)
Activity Recognition	Something-Something V1	Top 1 Accuracy	49.3	ir-CSN-152
Activity Recognition	Something-Something V1	Top 1 Accuracy	48.4	ir-CSN-101
Action Recognition	Sports-1M	Video hit@1	75.5	ip-CSN-152 (RGB)
Action Recognition	Sports-1M	Video hit@5	92.8	ip-CSN-152 (RGB)
Action Recognition	Sports-1M	Video hit@1	74.9	ip-CSN-101 (RGB)
Action Recognition	Sports-1M	Video hit@5	92.6	ip-CSN-101 (RGB)
Action Recognition	Something-Something V1	Top 1 Accuracy	53.3	ip-CSN-152 (IG-65M pretraining)
Action Recognition	Something-Something V1	Top 1 Accuracy	52.1	ir-CSN-152 (IG-65M pretraining)
Action Recognition	Something-Something V1	Top 1 Accuracy	51.6	R(2+1)D-152 (IG-65M pretraining)
Action Recognition	Something-Something V1	Top 1 Accuracy	49.3	ir-CSN-152
Action Recognition	Something-Something V1	Top 1 Accuracy	48.4	ir-CSN-101

Video Classification with Channel-Separated Convolutional Networks

Abstract

Results

Related Papers

Video Classification with Channel-Separated Convolutional Networks

Abstract

Results

Related Papers