A Better Variant of Self-Critical Sequence Training

Ruotian Luo

2020-03-22Image Captioning

Abstract

In this work, we present a simple yet better variant of Self-Critical Sequence Training. We make a simple change in the choice of baseline function in REINFORCE algorithm. The new baseline can bring better performance with no extra cost, compared to the greedy decoding baseline.

Results

Task	Dataset	Metric	Value	Model
Image Captioning	COCO Captions	BLEU-1	80.7	Transformer_NSC
Image Captioning	COCO Captions	BLEU-2	65.6	Transformer_NSC
Image Captioning	COCO Captions	BLEU-3	51.3	Transformer_NSC
Image Captioning	COCO Captions	BLEU-4	39.4	Transformer_NSC
Image Captioning	COCO Captions	CIDER	129.6	Transformer_NSC
Image Captioning	COCO Captions	METEOR	28.9	Transformer_NSC
Image Captioning	COCO Captions	ROUGE-L	58.7	Transformer_NSC
Image Captioning	COCO Captions	SPICE	22.8	Transformer_NSC

Related Papers

Language-Guided Contrastive Audio-Visual Masked Autoencoder with Automatically Generated Audio-Visual-Text Triplets from Videos2025-07-16 Mask-aware Text-to-Image Retrieval: Referring Expression Segmentation Meets Cross-modal Retrieval2025-06-28 HalLoc: Token-level Localization of Hallucinations for Vision Language Models2025-06-12 ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs2025-06-11 A Novel Lightweight Transformer with Edge-Aware Fusion for Remote Sensing Image Captioning2025-06-11 Vision Matters: Simple Visual Perturbations Can Boost Multimodal Math Reasoning2025-06-11 Edit Flows: Flow Matching with Edit Operations2025-06-10 Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings2025-06-10