Continual 3D Convolutional Neural Networks for Real-time Processing of Videos

Lukas Hedegaard, Alexandros Iosifidis

2021-05-31Action Classification Video Recognition

Abstract

We introduce Continual 3D Convolutional Neural Networks (Co3D CNNs), a new computational formulation of spatio-temporal 3D CNNs, in which videos are processed frame-by-frame rather than by clip. In online tasks demanding frame-wise predictions, Co3D CNNs dispense with the computational redundancies of regular 3D CNNs, namely the repeated convolutions over frames, which appear in overlapping clips. We show that Continual 3D CNNs can reuse preexisting 3D-CNN weights to reduce the per-prediction floating point operations (FLOPs) in proportion to the temporal receptive field while retaining similar memory requirements and accuracy. This is validated with multiple models on Kinetics-400 and Charades with remarkable results: CoX3D models attain state-of-the-art complexity/accuracy trade-offs on Kinetics-400 with 12.1-15.3x reductions of FLOPs and 2.3-3.8% improvements in accuracy compared to regular X3D models while reducing peak memory consumption by up to 48%. Moreover, we investigate the transient response of Co3D CNNs at start-up and perform extensive benchmarks of on-hardware processing characteristics for publicly available 3D CNNs.

Results

Task	Dataset	Metric	Value	Model
Video	Charades	MAP	25.2	Co Slow_64
Video	Charades	MAP	24.1	Slow-8×8
Video	Charades	MAP	21.5	Co Slow_8
Video	Kinetics-400	Acc@1	73.05	Co Slow_64
Video	Kinetics-400	Parameters (M)	32.45	Co Slow_64
Video	Kinetics-400	Acc@1	71.61	Co X3D-L_64
Video	Kinetics-400	Parameters (M)	6.15	Co X3D-L_64
Video	Kinetics-400	Acc@1	71.03	Co X3D-M_64
Video	Kinetics-400	Parameters (M)	3.79	Co X3D-M_64
Video	Kinetics-400	Acc@1	69.29	X3D-L
Video	Kinetics-400	Parameters (M)	6.15	X3D-L
Video	Kinetics-400	Acc@1	68.45	SlowFast-8×8-R50
Video	Kinetics-400	Parameters (M)	66.25	SlowFast-8×8-R50
Video	Kinetics-400	Acc@1	67.42	Slow-8x8-R50
Video	Kinetics-400	Parameters (M)	32.45	Slow-8x8-R50
Video	Kinetics-400	Acc@1	67.33	Co X3D-S_64
Video	Kinetics-400	Parameters (M)	3.79	Co X3D-S_64
Video	Kinetics-400	Acc@1	67.24	X3D-M
Video	Kinetics-400	Parameters (M)	3.79	X3D-M
Video	Kinetics-400	Acc@1	67.06	SlowFast-4×16-R50
Video	Kinetics-400	Parameters (M)	34.48	SlowFast-4×16-R50
Video	Kinetics-400	Acc@1	65.9	Co Slow_8
Video	Kinetics-400	Parameters (M)	32.45	Co Slow_8
Video	Kinetics-400	Acc@1	64.71	X3D-S
Video	Kinetics-400	Parameters (M)	3.79	X3D-S
Video	Kinetics-400	Acc@1	63.98	I3D-R50
Video	Kinetics-400	Parameters (M)	28.04	I3D-R50
Video	Kinetics-400	Acc@1	63.03	Co X3D-L_16
Video	Kinetics-400	Parameters (M)	6.15	Co X3D-L_16
Video	Kinetics-400	Acc@1	62.8	Co X3D-M_16
Video	Kinetics-400	Parameters (M)	3.79	Co X3D-M_16
Video	Kinetics-400	Acc@1	60.18	Co X3D-S_13
Video	Kinetics-400	Parameters (M)	3.79	Co X3D-S_13
Video	Kinetics-400	Acc@1	59.58	Co I3D_8
Video	Kinetics-400	Parameters (M)	28.04	Co I3D_8
Video	Kinetics-400	Acc@1	59.52	R(2+1)D-18_16
Video	Kinetics-400	Parameters (M)	31.51	R(2+1)D-18_16
Video	Kinetics-400	Acc@1	59.37	X3D-XS
Video	Kinetics-400	Parameters (M)	3.79	X3D-XS
Video	Kinetics-400	Acc@1	56.86	Co I3D_64
Video	Kinetics-400	Parameters (M)	28.04	Co I3D_64
Video	Kinetics-400	Acc@1	53.52	R(2+1)D-18_8
Video	Kinetics-400	Parameters (M)	31.51	R(2+1)D-18_8
Video	Kinetics-400	Acc@1	53.4	RCU_8
Video	Kinetics-400	Parameters (M)	12.8	RCU_8

Continual 3D Convolutional Neural Networks for Real-time Processing of Videos

Abstract

Results

Related Papers

Continual 3D Convolutional Neural Networks for Real-time Processing of Videos

Abstract

Results

Related Papers