SUM: Saliency Unification through Mamba for Visual Attention Modeling

Alireza Hosseini, Amirhossein Kazerouni, Saeed Akhavan, Michael Brudno, Babak Taati

2024-06-25Marketing Saliency Prediction Saliency Detection

Abstract

Visual attention modeling, important for interpreting and prioritizing visual stimuli, plays a significant role in applications such as marketing, multimedia, and robotics. Traditional saliency prediction models, especially those based on Convolutional Neural Networks (CNNs) or Transformers, achieve notable success by leveraging large-scale annotated datasets. However, the current state-of-the-art (SOTA) models that use Transformers are computationally expensive. Additionally, separate models are often required for each image type, lacking a unified approach. In this paper, we propose Saliency Unification through Mamba (SUM), a novel approach that integrates the efficient long-range dependency modeling of Mamba with U-Net to provide a unified model for diverse image types. Using a novel Conditional Visual State Space (C-VSS) block, SUM dynamically adapts to various image types, including natural scenes, web pages, and commercial imagery, ensuring universal applicability across different data types. Our comprehensive evaluations across five benchmarks demonstrate that SUM seamlessly adapts to different visual characteristics and consistently outperforms existing models. These results position SUM as a versatile and powerful tool for advancing visual attention modeling, offering a robust solution universally applicable across different types of visual content.

Results

Task	Dataset	Metric	Value	Model
Saliency Detection	CAT2000	AUC	0.888	SUM
Saliency Detection	CAT2000	NSS	2.423	SUM
Saliency Detection	CAT2000	KL	0.27	SUM
Saliency Detection	MIT300	AUC-Judd	0.913	SUM
Saliency Detection	MIT300	CC	0.768	SUM
Saliency Detection	MIT300	KLD	0.563	SUM
Saliency Detection	MIT300	NSS	2.839	SUM
Saliency Detection	MIT300	SIM	0.63	SUM
Saliency Detection	SALECI	KL	0.473	SUM
Saliency Detection	SALICON	AUC	0.876	SUM
Saliency Detection	SALICON	CC	0.909	SUM
Saliency Detection	SALICON	KLD	0.192	SUM
Saliency Detection	SALICON	NSS	1.981	SUM
Saliency Detection	SALICON	SIM	0.804	SUM
Saliency Prediction	CAT2000	KL	0.27	SUM
Saliency Prediction	MIT300	AUC-Judd	0.913	SUM
Saliency Prediction	MIT300	CC	0.768	SUM
Saliency Prediction	MIT300	KLD	0.563	SUM
Saliency Prediction	MIT300	NSS	2.839	SUM
Saliency Prediction	MIT300	SIM	0.63	SUM
Saliency Prediction	SALECI	KL	0.473	SUM
Saliency Prediction	SALICON	AUC	0.876	SUM
Saliency Prediction	SALICON	CC	0.909	SUM
Saliency Prediction	SALICON	KLD	0.192	SUM
Saliency Prediction	SALICON	NSS	1.981	SUM
Saliency Prediction	SALICON	SIM	0.804	SUM
Few-Shot Transfer Learning for Saliency Prediction	CAT2000	KL	0.27	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	AUC-Judd	0.913	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	CC	0.768	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	KLD	0.563	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	NSS	2.839	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	SIM	0.63	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALECI	KL	0.473	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	AUC	0.876	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	CC	0.909	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	KLD	0.192	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	NSS	1.981	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	SIM	0.804	SUM

Abstract

Results

Task	Dataset	Metric	Value	Model
Saliency Detection	CAT2000	AUC	0.888	SUM
Saliency Detection	CAT2000	NSS	2.423	SUM
Saliency Detection	CAT2000	KL	0.27	SUM
Saliency Detection	MIT300	AUC-Judd	0.913	SUM
Saliency Detection	MIT300	CC	0.768	SUM
Saliency Detection	MIT300	KLD	0.563	SUM
Saliency Detection	MIT300	NSS	2.839	SUM
Saliency Detection	MIT300	SIM	0.63	SUM
Saliency Detection	SALECI	KL	0.473	SUM
Saliency Detection	SALICON	AUC	0.876	SUM
Saliency Detection	SALICON	CC	0.909	SUM
Saliency Detection	SALICON	KLD	0.192	SUM
Saliency Detection	SALICON	NSS	1.981	SUM
Saliency Detection	SALICON	SIM	0.804	SUM
Saliency Prediction	CAT2000	KL	0.27	SUM
Saliency Prediction	MIT300	AUC-Judd	0.913	SUM
Saliency Prediction	MIT300	CC	0.768	SUM
Saliency Prediction	MIT300	KLD	0.563	SUM
Saliency Prediction	MIT300	NSS	2.839	SUM
Saliency Prediction	MIT300	SIM	0.63	SUM
Saliency Prediction	SALECI	KL	0.473	SUM
Saliency Prediction	SALICON	AUC	0.876	SUM
Saliency Prediction	SALICON	CC	0.909	SUM
Saliency Prediction	SALICON	KLD	0.192	SUM
Saliency Prediction	SALICON	NSS	1.981	SUM
Saliency Prediction	SALICON	SIM	0.804	SUM
Few-Shot Transfer Learning for Saliency Prediction	CAT2000	KL	0.27	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	AUC-Judd	0.913	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	CC	0.768	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	KLD	0.563	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	NSS	2.839	SUM
Few-Shot Transfer Learning for Saliency Prediction	MIT300	SIM	0.63	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALECI	KL	0.473	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	AUC	0.876	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	CC	0.909	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	KLD	0.192	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	NSS	1.981	SUM
Few-Shot Transfer Learning for Saliency Prediction	SALICON	SIM	0.804	SUM

SUM: Saliency Unification through Mamba for Visual Attention Modeling

Abstract

Results

Related Papers

SUM: Saliency Unification through Mamba for Visual Attention Modeling

Abstract

Results

Related Papers