Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition

Kai Wang, Xiaojiang Peng, Jianfei Yang, Debin Meng, Yu Qiao

2019-05-10Facial Expression Recognition Facial Expression Recognition (FER)

Abstract

Occlusion and pose variations, which can change facial appearance significantly, are two major obstacles for automatic Facial Expression Recognition (FER). Though automatic FER has made substantial progresses in the past few decades, occlusion-robust and pose-invariant issues of FER have received relatively less attention, especially in real-world scenarios. This paper addresses the real-world pose and occlusion robust FER problem with three-fold contributions. First, to stimulate the research of FER under real-world occlusions and variant poses, we build several in-the-wild facial expression datasets with manual annotations for the community. Second, we propose a novel Region Attention Network (RAN), to adaptively capture the importance of facial regions for occlusion and pose variant FER. The RAN aggregates and embeds varied number of region features produced by a backbone convolutional neural network into a compact fixed-length representation. Last, inspired by the fact that facial expressions are mainly defined by facial action units, we propose a region biased loss to encourage high attention weights for the most important regions. We validate our RAN and region biased loss on both our built test datasets and four popular datasets: FERPlus, AffectNet, RAF-DB, and SFEW. Extensive experiments show that our RAN and region biased loss largely improve the performance of FER with occlusion and variant pose. Our method also achieves state-of-the-art results on FERPlus, AffectNet, RAF-DB, and SFEW. Code and the collected test data will be publicly available.

Results

Task	Dataset	Metric	Value	Model
Facial Recognition and Modelling	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
Facial Recognition and Modelling	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
Facial Recognition and Modelling	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
Facial Recognition and Modelling	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
Face Reconstruction	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
Face Reconstruction	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
Face Reconstruction	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
Face Reconstruction	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
Facial Expression Recognition (FER)	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
Facial Expression Recognition (FER)	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
Facial Expression Recognition (FER)	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
Facial Expression Recognition (FER)	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
3D	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
3D	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
3D	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
3D	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
3D Face Modelling	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
3D Face Modelling	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
3D Face Modelling	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
3D Face Modelling	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
3D Face Reconstruction	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
3D Face Reconstruction	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
3D Face Reconstruction	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
3D Face Reconstruction	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)

Abstract

Results

Task	Dataset	Metric	Value	Model
Facial Recognition and Modelling	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
Facial Recognition and Modelling	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
Facial Recognition and Modelling	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
Facial Recognition and Modelling	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
Face Reconstruction	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
Face Reconstruction	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
Face Reconstruction	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
Face Reconstruction	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
Facial Expression Recognition (FER)	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
Facial Expression Recognition (FER)	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
Facial Expression Recognition (FER)	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
Facial Expression Recognition (FER)	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
3D	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
3D	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
3D	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
3D	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
3D Face Modelling	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
3D Face Modelling	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
3D Face Modelling	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)
3D Face Modelling	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
3D Face Reconstruction	RAF-DB	Overall Accuracy	86.9	RAN (ResNet-18)
3D Face Reconstruction	SFEW	Accuracy	56.4	RAN (VGG16+ResNet18)
3D Face Reconstruction	AffectNet	Accuracy (8 emotion)	59.5	RAN (ResNet-18+)
3D Face Reconstruction	FERPlus	Accuracy(pretrained)	89.16	RAN (VGG-16)

Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition

Abstract

Results

Related Papers

Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition

Abstract

Results

Related Papers