What Makes Training Multi-Modal Classification Networks Hard?

Wei-Yao Wang, Du Tran, Matt Feiszli

2019-05-29CVPR 2020 6Multi-modal Classification Action Classification Event Detection General Classification Action Recognition Classification Action Recognition In Videos Temporal Action Localization

Paper PDF Code Code Code

Abstract

Consider end-to-end training of a multi-modal vs. a single-modal network on a task with multiple input modalities: the multi-modal network receives more information, so it should match or outperform its single-modal counterpart. In our experiments, however, we observe the opposite: the best single-modal network always outperforms the multi-modal network. This observation is consistent across different combinations of modalities and on different tasks and benchmarks. This paper identifies two main causes for this performance drop: first, multi-modal networks are often prone to overfitting due to increased capacity. Second, different modalities overfit and generalize at different rates, so training them jointly with a single optimization strategy is sub-optimal. We address these two problems with a technique we call Gradient Blending, which computes an optimal blend of modalities based on their overfitting behavior. We demonstrate that Gradient Blending outperforms widely-used baselines for avoiding overfitting and achieves state-of-the-art accuracy on various tasks including human action recognition, ego-centric action recognition, and acoustic event detection.

Results

Task	Dataset	Metric	Value	Model
Video	Kinetics-400	Acc@1	78.9	G-Blend (Sports-1M pretrain)
Video	Kinetics-400	Acc@1	77.7	G-Blend
Activity Recognition	miniSports	Clip Hit@1	49.7	G-Blend
Activity Recognition	miniSports	Video hit@1	62.8	G-Blend
Activity Recognition	miniSports	Video hit@5	85.5	G-Blend
Activity Recognition	Sports-1M	Video hit@1	74.8	G-Blend
Activity Recognition	Sports-1M	Video hit@5	92.4	G-Blend
Action Recognition	miniSports	Clip Hit@1	49.7	G-Blend
Action Recognition	miniSports	Video hit@1	62.8	G-Blend
Action Recognition	miniSports	Video hit@5	85.5	G-Blend
Action Recognition	Sports-1M	Video hit@1	74.8	G-Blend
Action Recognition	Sports-1M	Video hit@5	92.4	G-Blend
Action Recognition In Videos	miniSports	Clip Hit@1	49.7	G-Blend
Action Recognition In Videos	miniSports	Video hit@1	62.8	G-Blend
Action Recognition In Videos	miniSports	Video hit@5	85.5	G-Blend
Action Recognition In Videos	Sports-1M	Video hit@1	74.8	G-Blend
Action Recognition In Videos	Sports-1M	Video hit@5	92.4	G-Blend

What Makes Training Multi-Modal Classification Networks Hard?

Abstract

Results

Related Papers

What Makes Training Multi-Modal Classification Networks Hard?

Abstract

Results

Related Papers