Exploring CLIP for Assessing the Look and Feel of Images

Jianyi Wang, Kelvin C. K. Chan, Chen Change Loy

2022-07-25Video Quality Assessment Image Quality Assessment No-Reference Image Quality Assessment

Abstract

Measuring the perception of visual content is a long-standing problem in computer vision. Many mathematical models have been developed to evaluate the look or quality of an image. Despite the effectiveness of such tools in quantifying degradations such as noise and blurriness levels, such quantification is loosely coupled with human language. When it comes to more abstract perception about the feel of visual content, existing methods can only rely on supervised models that are explicitly trained with labeled data collected via laborious user study. In this paper, we go beyond the conventional paradigms by exploring the rich visual language prior encapsulated in Contrastive Language-Image Pre-training (CLIP) models for assessing both the quality perception (look) and abstract perception (feel) of images in a zero-shot manner. In particular, we discuss effective prompt designs and show an effective prompt pairing strategy to harness the prior. We also provide extensive experiments on controlled datasets and Image Quality Assessment (IQA) benchmarks. Our results show that CLIP captures meaningful priors that generalize well to different perceptual assessments. Code is avaliable at https://github.com/IceClear/CLIP-IQA.

Results

Task	Dataset	Metric	Value	Model
Video Understanding	MSU SR-QA Dataset	KLCC	0.52628	ClipIQA+ ResNet50
Video Understanding	MSU SR-QA Dataset	PLCC	0.65154	ClipIQA+ ResNet50
Video Understanding	MSU SR-QA Dataset	SROCC	0.65713	ClipIQA+ ResNet50
Video Understanding	MSU SR-QA Dataset	KLCC	0.49417	ClipIQA
Video Understanding	MSU SR-QA Dataset	PLCC	0.58944	ClipIQA
Video Understanding	MSU SR-QA Dataset	SROCC	0.60808	ClipIQA
Video Understanding	MSU SR-QA Dataset	KLCC	0.69774	ClipIQA+
Video Understanding	MSU SR-QA Dataset	PLCC	0.71808	ClipIQA+
Video Understanding	MSU SR-QA Dataset	SROCC	0.56875	ClipIQA+
Video Understanding	MSU SR-QA Dataset	KLCC	0.38794	ClipIQA+ ViT-L-14
Video Understanding	MSU SR-QA Dataset	PLCC	0.50379	ClipIQA+ ViT-L-14
Video Understanding	MSU SR-QA Dataset	SROCC	0.49881	ClipIQA+ ViT-L-14
Video Quality Assessment	MSU SR-QA Dataset	KLCC	0.52628	ClipIQA+ ResNet50
Video Quality Assessment	MSU SR-QA Dataset	PLCC	0.65154	ClipIQA+ ResNet50
Video Quality Assessment	MSU SR-QA Dataset	SROCC	0.65713	ClipIQA+ ResNet50
Video Quality Assessment	MSU SR-QA Dataset	KLCC	0.49417	ClipIQA
Video Quality Assessment	MSU SR-QA Dataset	PLCC	0.58944	ClipIQA
Video Quality Assessment	MSU SR-QA Dataset	SROCC	0.60808	ClipIQA
Video Quality Assessment	MSU SR-QA Dataset	KLCC	0.69774	ClipIQA+
Video Quality Assessment	MSU SR-QA Dataset	PLCC	0.71808	ClipIQA+
Video Quality Assessment	MSU SR-QA Dataset	SROCC	0.56875	ClipIQA+
Video Quality Assessment	MSU SR-QA Dataset	KLCC	0.38794	ClipIQA+ ViT-L-14
Video Quality Assessment	MSU SR-QA Dataset	PLCC	0.50379	ClipIQA+ ViT-L-14
Video Quality Assessment	MSU SR-QA Dataset	SROCC	0.49881	ClipIQA+ ViT-L-14
Image Quality Assessment	UHD-IQA	PLCC	0.709	CLIP-IQA+
Image Quality Assessment	UHD-IQA	SRCC	0.747	CLIP-IQA+
Video	MSU SR-QA Dataset	KLCC	0.52628	ClipIQA+ ResNet50
Video	MSU SR-QA Dataset	PLCC	0.65154	ClipIQA+ ResNet50
Video	MSU SR-QA Dataset	SROCC	0.65713	ClipIQA+ ResNet50
Video	MSU SR-QA Dataset	KLCC	0.49417	ClipIQA
Video	MSU SR-QA Dataset	PLCC	0.58944	ClipIQA
Video	MSU SR-QA Dataset	SROCC	0.60808	ClipIQA
Video	MSU SR-QA Dataset	KLCC	0.69774	ClipIQA+
Video	MSU SR-QA Dataset	PLCC	0.71808	ClipIQA+
Video	MSU SR-QA Dataset	SROCC	0.56875	ClipIQA+
Video	MSU SR-QA Dataset	KLCC	0.38794	ClipIQA+ ViT-L-14
Video	MSU SR-QA Dataset	PLCC	0.50379	ClipIQA+ ViT-L-14
Video	MSU SR-QA Dataset	SROCC	0.49881	ClipIQA+ ViT-L-14
No-Reference Image Quality Assessment	UHD-IQA	PLCC	0.709	CLIP-IQA+
No-Reference Image Quality Assessment	UHD-IQA	SRCC	0.747	CLIP-IQA+

Exploring CLIP for Assessing the Look and Feel of Images

Abstract

Results

Related Papers

Exploring CLIP for Assessing the Look and Feel of Images

Abstract

Results

Related Papers