Recurrent Models for Situation Recognition

Arun Mallya, Svetlana Lazebnik

2017-03-18ICCV 2017 10Human-Object Interaction Detection Grounded Situation Recognition Prediction Image Captioning

Abstract

This work proposes Recurrent Neural Network (RNN) models to predict structured 'image situations' -- actions and noun entities fulfilling semantic roles related to the action. In contrast to prior work relying on Conditional Random Fields (CRFs), we use a specialized action prediction network followed by an RNN for noun prediction. Our system obtains state-of-the-art accuracy on the challenging recent imSitu dataset, beating CRF-based models, including ones trained with additional data. Further, we show that specialized features learned from situation prediction can be transferred to the task of image captioning to more accurately describe human-object interactions.

Results

Task	Dataset	Metric	Value	Model
Situation Recognition	imSitu	Top-1 Verb	35.9	RNN + Fusion
Situation Recognition	imSitu	Top-1 Verb & Value	27.45	RNN + Fusion
Situation Recognition	imSitu	Top-5 Verbs	63.08	RNN + Fusion
Situation Recognition	imSitu	Top-5 Verbs & Value	46.88	RNN + Fusion
Situation Recognition	SWiG	Top-1 Verb	35.9	RNN + Fusion
Situation Recognition	SWiG	Top-1 Verb & Value	27.45	RNN + Fusion
Situation Recognition	SWiG	Top-5 Verbs	63.08	RNN + Fusion
Situation Recognition	SWiG	Top-5 Verbs & Value	46.88	RNN + Fusion
Grounded Situation Recognition	SWiG	Top-1 Verb	35.9	RNN + Fusion
Grounded Situation Recognition	SWiG	Top-1 Verb & Value	27.45	RNN + Fusion
Grounded Situation Recognition	SWiG	Top-5 Verbs	63.08	RNN + Fusion
Grounded Situation Recognition	SWiG	Top-5 Verbs & Value	46.88	RNN + Fusion

Related Papers

Multi-Strategy Improved Snake Optimizer Accelerated CNN-LSTM-Attention-Adaboost for Trajectory Prediction2025-07-21 Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos2025-07-16 Generative Click-through Rate Prediction with Applications to Search Advertising2025-07-15 RoHOI: Robustness Benchmark for Human-Object Interaction Detection2025-07-12 Conformation-Aware Structure Prediction of Antigen-Recognizing Immune Proteins2025-07-11 Bilateral Collaboration with Large Vision-Language Models for Open Vocabulary Human-Object Interaction Detection2025-07-09 Foundation models for time series forecasting: Application in conformal prediction2025-07-09 Predicting Graph Structure via Adapted Flux Balance Analysis2025-07-08