CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

Raman Dutt, Pedro Sanchez, Yongchen Yao, Steven McDonagh, Sotirios A. Tsaftaris, Timothy Hospedales

2025-05-15Conditional Text-to-Image Synthesis

Abstract

We introduce CheXGenBench, a rigorous and multifaceted evaluation framework for synthetic chest radiograph generation that simultaneously assesses fidelity, privacy risks, and clinical utility across state-of-the-art text-to-image generative models. Despite rapid advancements in generative AI for real-world imagery, medical domain evaluations have been hindered by methodological inconsistencies, outdated architectural comparisons, and disconnected assessment criteria that rarely address the practical clinical value of synthetic samples. CheXGenBench overcomes these limitations through standardised data partitioning and a unified evaluation protocol comprising over 20 quantitative metrics that systematically analyse generation quality, potential privacy vulnerabilities, and downstream clinical applicability across 11 leading text-to-image architectures. Our results reveal critical inefficiencies in the existing evaluation protocols, particularly in assessing generative fidelity, leading to inconsistent and uninformative comparisons. Our framework establishes a standardised benchmark for the medical AI community, enabling objective and reproducible comparisons while facilitating seamless integration of both existing and future generative models. Additionally, we release a high-quality, synthetic dataset, SynthCheX-75K, comprising 75K radiographs generated by the top-performing model (Sana 0.6B) in our benchmark to support further research in this critical domain. Through CheXGenBench, we establish a new state-of-the-art and release our framework, models, and SynthCheX-75K dataset at https://raman1121.github.io/CheXGenBench/

Results

Task	Dataset	Metric	Value	Model
Image Generation	MIMIC-CXR	FID (RadDino)	54.22	Sana
Image Generation	MIMIC-CXR	FID (RadDino)	60.15	Pixart Sigma
Image Generation	MIMIC-CXR	FID (RadDino)	69.69	RadEdit
Image Generation	MIMIC-CXR	FID (RadDino)	71.24	LLM-CXR
Image Generation	MIMIC-CXR	FID (RadDino)	74.58	SD V3.5 Medium (LoRA r128)
Image Generation	MIMIC-CXR	FID (RadDino)	88.28	Lumina 2.0 (LoRA r128)
Image Generation	MIMIC-CXR	FID (RadDino)	93.1	SD V3.5 Medium (LoRA r32)
Image Generation	MIMIC-CXR	FID (RadDino)	101.19	Lumina 2.0 (LoRA r32)
Image Generation	MIMIC-CXR	FID (RadDino)	118.93	SD V1-5
Image Generation	MIMIC-CXR	FID (RadDino)	122.4	Flux.1-Dev (LoRA r32)
Image Generation	MIMIC-CXR	FID (RadDino)	125.18	SD V1-4
Image Generation	MIMIC-CXR	FID (RadDino)	186.53	SD V2-1
Image Generation	MIMIC-CXR	FID (RadDino)	194.72	SD V2
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	54.22	Sana
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	60.15	Pixart Sigma
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	69.69	RadEdit
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	71.24	LLM-CXR
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	74.58	SD V3.5 Medium (LoRA r128)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	88.28	Lumina 2.0 (LoRA r128)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	93.1	SD V3.5 Medium (LoRA r32)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	101.19	Lumina 2.0 (LoRA r32)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	118.93	SD V1-5
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	122.4	Flux.1-Dev (LoRA r32)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	125.18	SD V1-4
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	186.53	SD V2-1
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	194.72	SD V2
10-shot image generation	MIMIC-CXR	FID (RadDino)	54.22	Sana
10-shot image generation	MIMIC-CXR	FID (RadDino)	60.15	Pixart Sigma
10-shot image generation	MIMIC-CXR	FID (RadDino)	69.69	RadEdit
10-shot image generation	MIMIC-CXR	FID (RadDino)	71.24	LLM-CXR
10-shot image generation	MIMIC-CXR	FID (RadDino)	74.58	SD V3.5 Medium (LoRA r128)
10-shot image generation	MIMIC-CXR	FID (RadDino)	88.28	Lumina 2.0 (LoRA r128)
10-shot image generation	MIMIC-CXR	FID (RadDino)	93.1	SD V3.5 Medium (LoRA r32)
10-shot image generation	MIMIC-CXR	FID (RadDino)	101.19	Lumina 2.0 (LoRA r32)
10-shot image generation	MIMIC-CXR	FID (RadDino)	118.93	SD V1-5
10-shot image generation	MIMIC-CXR	FID (RadDino)	122.4	Flux.1-Dev (LoRA r32)
10-shot image generation	MIMIC-CXR	FID (RadDino)	125.18	SD V1-4
10-shot image generation	MIMIC-CXR	FID (RadDino)	186.53	SD V2-1
10-shot image generation	MIMIC-CXR	FID (RadDino)	194.72	SD V2
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	54.22	Sana
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	60.15	Pixart Sigma
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	69.69	RadEdit
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	71.24	LLM-CXR
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	74.58	SD V3.5 Medium (LoRA r128)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	88.28	Lumina 2.0 (LoRA r128)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	93.1	SD V3.5 Medium (LoRA r32)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	101.19	Lumina 2.0 (LoRA r32)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	118.93	SD V1-5
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	122.4	Flux.1-Dev (LoRA r32)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	125.18	SD V1-4
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	186.53	SD V2-1
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	194.72	SD V2

Abstract

Results

Task	Dataset	Metric	Value	Model
Image Generation	MIMIC-CXR	FID (RadDino)	54.22	Sana
Image Generation	MIMIC-CXR	FID (RadDino)	60.15	Pixart Sigma
Image Generation	MIMIC-CXR	FID (RadDino)	69.69	RadEdit
Image Generation	MIMIC-CXR	FID (RadDino)	71.24	LLM-CXR
Image Generation	MIMIC-CXR	FID (RadDino)	74.58	SD V3.5 Medium (LoRA r128)
Image Generation	MIMIC-CXR	FID (RadDino)	88.28	Lumina 2.0 (LoRA r128)
Image Generation	MIMIC-CXR	FID (RadDino)	93.1	SD V3.5 Medium (LoRA r32)
Image Generation	MIMIC-CXR	FID (RadDino)	101.19	Lumina 2.0 (LoRA r32)
Image Generation	MIMIC-CXR	FID (RadDino)	118.93	SD V1-5
Image Generation	MIMIC-CXR	FID (RadDino)	122.4	Flux.1-Dev (LoRA r32)
Image Generation	MIMIC-CXR	FID (RadDino)	125.18	SD V1-4
Image Generation	MIMIC-CXR	FID (RadDino)	186.53	SD V2-1
Image Generation	MIMIC-CXR	FID (RadDino)	194.72	SD V2
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	54.22	Sana
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	60.15	Pixart Sigma
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	69.69	RadEdit
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	71.24	LLM-CXR
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	74.58	SD V3.5 Medium (LoRA r128)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	88.28	Lumina 2.0 (LoRA r128)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	93.1	SD V3.5 Medium (LoRA r32)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	101.19	Lumina 2.0 (LoRA r32)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	118.93	SD V1-5
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	122.4	Flux.1-Dev (LoRA r32)
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	125.18	SD V1-4
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	186.53	SD V2-1
Text-to-Image Generation	MIMIC-CXR	FID (RadDino)	194.72	SD V2
10-shot image generation	MIMIC-CXR	FID (RadDino)	54.22	Sana
10-shot image generation	MIMIC-CXR	FID (RadDino)	60.15	Pixart Sigma
10-shot image generation	MIMIC-CXR	FID (RadDino)	69.69	RadEdit
10-shot image generation	MIMIC-CXR	FID (RadDino)	71.24	LLM-CXR
10-shot image generation	MIMIC-CXR	FID (RadDino)	74.58	SD V3.5 Medium (LoRA r128)
10-shot image generation	MIMIC-CXR	FID (RadDino)	88.28	Lumina 2.0 (LoRA r128)
10-shot image generation	MIMIC-CXR	FID (RadDino)	93.1	SD V3.5 Medium (LoRA r32)
10-shot image generation	MIMIC-CXR	FID (RadDino)	101.19	Lumina 2.0 (LoRA r32)
10-shot image generation	MIMIC-CXR	FID (RadDino)	118.93	SD V1-5
10-shot image generation	MIMIC-CXR	FID (RadDino)	122.4	Flux.1-Dev (LoRA r32)
10-shot image generation	MIMIC-CXR	FID (RadDino)	125.18	SD V1-4
10-shot image generation	MIMIC-CXR	FID (RadDino)	186.53	SD V2-1
10-shot image generation	MIMIC-CXR	FID (RadDino)	194.72	SD V2
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	54.22	Sana
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	60.15	Pixart Sigma
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	69.69	RadEdit
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	71.24	LLM-CXR
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	74.58	SD V3.5 Medium (LoRA r128)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	88.28	Lumina 2.0 (LoRA r128)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	93.1	SD V3.5 Medium (LoRA r32)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	101.19	Lumina 2.0 (LoRA r32)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	118.93	SD V1-5
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	122.4	Flux.1-Dev (LoRA r32)
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	125.18	SD V1-4
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	186.53	SD V2-1
1 Image, 2*2 Stitchi	MIMIC-CXR	FID (RadDino)	194.72	SD V2

CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

Abstract

Results

Related Papers

CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs

Abstract

Results

Related Papers