Omnivore: A Single Model for Many Visual Modalities

Rohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin, Ishan Misra

2022-01-20CVPR 2022 1Image Classification Action Classification Scene Recognition Semantic Segmentation Action Recognition

Paper PDF Code(official)Code

Abstract

Prior work has studied different visual modalities in isolation and developed separate architectures for recognition of images, videos, and 3D data. Instead, in this paper, we propose a single model which excels at classifying images, videos, and single-view 3D data using exactly the same model parameters. Our 'Omnivore' model leverages the flexibility of transformer-based architectures and is trained jointly on classification tasks from different modalities. Omnivore is simple to train, uses off-the-shelf standard datasets, and performs at-par or better than modality-specific models of the same size. A single Omnivore model obtains 86.0% on ImageNet, 84.1% on Kinetics, and 67.1% on SUN RGB-D. After finetuning, our models outperform prior work on a variety of vision tasks and generalize across modalities. Omnivore's shared visual representation naturally enables cross-modal recognition without access to correspondences between modalities. We hope our results motivate researchers to model visual modalities together.

Results

Task	Dataset	Metric	Value	Model
Video	Kinetics-400	Acc@1	84.1	OMNIVORE (Swin-L)
Video	Kinetics-400	Acc@5	96.1	OMNIVORE (Swin-L)
Video	Kinetics-400	Acc@1	84	OMNIVORE (Swin-B)
Video	Kinetics-400	Acc@5	96.2	OMNIVORE (Swin-B)
Scene Parsing	SUN-RGBD	Accuracy (%)	67.2	OMNIVORE (Swin-B)
Activity Recognition	EPIC-KITCHENS-100	Action@1	49.9	OMNIVORE (Swin-B, finetuned)
Activity Recognition	EPIC-KITCHENS-100	Noun@1	61.7	OMNIVORE (Swin-B, finetuned)
Activity Recognition	EPIC-KITCHENS-100	Verb@1	69.5	OMNIVORE (Swin-B, finetuned)
Activity Recognition	Something-Something V2	Top-1 Accuracy	71.4	OMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain)
Activity Recognition	Something-Something V2	Top-5 Accuracy	93.5	OMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain)
Animation	SUN-RGBD	Accuracy (%)	67.2	OMNIVORE (Swin-B)
Action Recognition	EPIC-KITCHENS-100	Action@1	49.9	OMNIVORE (Swin-B, finetuned)
Action Recognition	EPIC-KITCHENS-100	Noun@1	61.7	OMNIVORE (Swin-B, finetuned)
Action Recognition	EPIC-KITCHENS-100	Verb@1	69.5	OMNIVORE (Swin-B, finetuned)
Action Recognition	Something-Something V2	Top-1 Accuracy	71.4	OMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain)
Action Recognition	Something-Something V2	Top-5 Accuracy	93.5	OMNIVORE (Swin-B, IN-21K+ Kinetics400 pretrain)
3D Character Animation From A Single Photo	SUN-RGBD	Accuracy (%)	67.2	OMNIVORE (Swin-B)
2D Semantic Segmentation	SUN-RGBD	Accuracy (%)	67.2	OMNIVORE (Swin-B)

Omnivore: A Single Model for Many Visual Modalities

Abstract

Results

Related Papers

Omnivore: A Single Model for Many Visual Modalities

Abstract

Results

Related Papers