TadML: A fast temporal action detection with Mechanics-MLP

Bowen Deng, Dongchang Liu

2022-06-07Action Detection Optical Flow Estimation Temporal Localization Temporal Action Localization

Abstract

Temporal Action Detection(TAD) is a crucial but challenging task in video understanding.It is aimed at detecting both the type and start-end frame for each action instance in a long, untrimmed video.Most current models adopt both RGB and Optical-Flow streams for the TAD task. Thus, original RGB frames must be converted manually into Optical-Flow frames with additional computation and time cost, which is an obstacle to achieve real-time processing. At present, many models adopt two-stage strategies, which would slow the inference speed down and complicatedly tuning on proposals generating.By comparison, we propose a one-stage anchor-free temporal localization method with RGB stream only, in which a novel Newtonian Mechanics-MLP architecture is established. It has comparable accuracy with all existing state-of-the-art models, while surpasses the inference speed of these methods by a large margin. The typical inference speed in this paper is astounding 4.44 video per second on THUMOS14. In applications, because there is no need to convert optical flow, the inference speed will be faster.It also proves that MLP has great potential in downstream tasks such as TAD. The source code is available at https://github.com/BonedDeng/TadML

Results

Task	Dataset	Metric	Value	Model
Video	THUMOS’14	Avg mAP (0.3:0.7)	59.7	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.3	73.29	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.4	69.73	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.5	62.53	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.6	53.36	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.7	39.6	TadML(two-stream)
Video	THUMOS’14	Avg mAP (0.3:0.7)	53.46	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.3	68.78	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.4	64.66	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.5	56.61	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.6	45.4	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.7	31.88	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	59.7	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	73.29	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	69.73	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	62.53	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	53.36	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	39.6	TadML(two-stream)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	53.46	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	68.78	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	64.66	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	56.61	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	45.4	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	31.88	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	59.7	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	73.29	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	69.73	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	62.53	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	53.36	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	39.6	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	53.46	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	68.78	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	64.66	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	56.61	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	45.4	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	31.88	TadML(rgb-only)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	59.7	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.3	73.29	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.4	69.73	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.5	62.53	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.6	53.36	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.7	39.6	TadML(two-stream)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	53.46	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.3	68.78	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.4	64.66	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.5	56.61	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.6	45.4	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.7	31.88	TadML(rgb-only)
Action Detection	THUMOS' 14	mAP	59.7	TadML-two stream
Action Detection	THUMOS' 14	mAP	53.46	TadML-rgb

Abstract

Results

Task	Dataset	Metric	Value	Model
Video	THUMOS’14	Avg mAP (0.3:0.7)	59.7	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.3	73.29	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.4	69.73	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.5	62.53	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.6	53.36	TadML(two-stream)
Video	THUMOS’14	mAP IOU@0.7	39.6	TadML(two-stream)
Video	THUMOS’14	Avg mAP (0.3:0.7)	53.46	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.3	68.78	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.4	64.66	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.5	56.61	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.6	45.4	TadML(rgb-only)
Video	THUMOS’14	mAP IOU@0.7	31.88	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	59.7	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	73.29	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	69.73	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	62.53	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	53.36	TadML(two-stream)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	39.6	TadML(two-stream)
Temporal Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	53.46	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.3	68.78	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.4	64.66	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.5	56.61	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.6	45.4	TadML(rgb-only)
Temporal Action Localization	THUMOS’14	mAP IOU@0.7	31.88	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	59.7	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	73.29	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	69.73	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	62.53	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	53.36	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	39.6	TadML(two-stream)
Zero-Shot Learning	THUMOS’14	Avg mAP (0.3:0.7)	53.46	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.3	68.78	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.4	64.66	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.5	56.61	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.6	45.4	TadML(rgb-only)
Zero-Shot Learning	THUMOS’14	mAP IOU@0.7	31.88	TadML(rgb-only)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	59.7	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.3	73.29	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.4	69.73	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.5	62.53	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.6	53.36	TadML(two-stream)
Action Localization	THUMOS’14	mAP IOU@0.7	39.6	TadML(two-stream)
Action Localization	THUMOS’14	Avg mAP (0.3:0.7)	53.46	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.3	68.78	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.4	64.66	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.5	56.61	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.6	45.4	TadML(rgb-only)
Action Localization	THUMOS’14	mAP IOU@0.7	31.88	TadML(rgb-only)
Action Detection	THUMOS' 14	mAP	59.7	TadML-two stream
Action Detection	THUMOS' 14	mAP	53.46	TadML-rgb

TadML: A fast temporal action detection with Mechanics-MLP

Abstract

Results

Related Papers

TadML: A fast temporal action detection with Mechanics-MLP

Abstract

Results

Related Papers