FiLM: Visual Reasoning with a General Conditioning Layer

Ethan Perez, Florian Strub, Harm de Vries, Vincent Dumoulin, Aaron Courville

2017-09-22Image Retrieval with Multi-Modal Query Visual Question Answering (VQA) Split B Visual Reasoning Visual Question Answering (VQA) Split A Visual Question Answering (VQA)

Paper PDF Code Code Code(official)Code Code Code Code

Abstract

We introduce a general-purpose conditioning method for neural networks called FiLM: Feature-wise Linear Modulation. FiLM layers influence neural network computation via a simple, feature-wise affine transformation based on conditioning information. We show that FiLM layers are highly effective for visual reasoning - answering image-related questions which require a multi-step, high-level process - a task which has proven difficult for standard deep learning methods that do not explicitly model reasoning. Specifically, we show on visual reasoning tasks that FiLM layers 1) halve state-of-the-art error for the CLEVR benchmark, 2) modulate features in a coherent manner, 3) are robust to ablations and architectural modifications, and 4) generalize well to challenging, new data from few examples or even zero-shot.

Results

Task	Dataset	Metric	Value	Model
Visual Question Answering (VQA)	CLEVR	Accuracy	97.7	CNN+GRU+FiLM
Visual Question Answering (VQA)	CLEVR-Humans	Accuracy	75.9	CNN+GRU+FiLM
Image Retrieval with Multi-Modal Query	MIT-States	Recall@1	10.1	FiLM
Image Retrieval with Multi-Modal Query	MIT-States	Recall@10	38.3	FiLM
Image Retrieval with Multi-Modal Query	MIT-States	Recall@5	27.7	FiLM

Related Papers

LaViPlan : Language-Guided Visual Path Planning with RLVR2025-07-17 VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning2025-07-17 MGFFD-VLM: Multi-Granularity Prompt Learning for Face Forgery Detection with VLM2025-07-16 Describe Anything Model for Visual Question Answering on Text-rich Images2025-07-16 Beyond Task-Specific Reasoning: A Unified Conditional Generative Framework for Abstract Visual Reasoning2025-07-15 PyVision: Agentic Vision with Dynamic Tooling2025-07-10 Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning2025-07-09 MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning2025-07-09