Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers

Jia Li, Jiantao Nie, Dan Guo, Richang Hong, Meng Wang

2022-07-22Representation Learning Disentanglement Facial Expression Recognition Facial Expression Recognition (FER)Face Generation

Paper PDF

Abstract

Representation learning and feature disentanglement have garnered significant research interest in the field of facial expression recognition (FER). The inherent ambiguity of emotion labels poses challenges for conventional supervised representation learning methods. Moreover, directly learning the mapping from a facial expression image to an emotion label lacks explicit supervision signals for capturing fine-grained facial features. In this paper, we propose a novel FER model, named Poker Face Vision Transformer or PF-ViT, to address these challenges. PF-ViT aims to separate and recognize the disturbance-agnostic emotion from a static facial image via generating its corresponding poker face, without the need for paired images. Inspired by the Facial Action Coding System, we regard an expressive face as the combined result of a set of facial muscle movements on one's poker face (i.e., an emotionless face). PF-ViT utilizes vanilla Vision Transformers, and its components are firstly pre-trained as Masked Autoencoders on a large facial expression dataset without emotion labels, yielding excellent representations. Subsequently, we train PF-ViT using a GAN framework. During training, the auxiliary task of poke face generation promotes the disentanglement between emotional and emotion-irrelevant components, guiding the FER model to holistically capture discriminative facial details. Quantitative and qualitative results demonstrate the effectiveness of our method, surpassing the state-of-the-art methods on four popular FER datasets.

Results

Task	Dataset	Metric	Value	Model
Facial Recognition and Modelling	FER+	Accuracy	90.18	Vit-base + MAE
Facial Recognition and Modelling	FER+	Accuracy	88.91	ViT-base
Facial Recognition and Modelling	FER+	Accuracy	88.56	ViT-tiny
Facial Recognition and Modelling	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
Facial Recognition and Modelling	RAF-DB	Overall Accuracy	87.22	ViT-base
Facial Recognition and Modelling	RAF-DB	Overall Accuracy	87.03	ViT-tiny
Facial Recognition and Modelling	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
Facial Recognition and Modelling	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
Facial Recognition and Modelling	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
Face Reconstruction	FER+	Accuracy	90.18	Vit-base + MAE
Face Reconstruction	FER+	Accuracy	88.91	ViT-base
Face Reconstruction	FER+	Accuracy	88.56	ViT-tiny
Face Reconstruction	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
Face Reconstruction	RAF-DB	Overall Accuracy	87.22	ViT-base
Face Reconstruction	RAF-DB	Overall Accuracy	87.03	ViT-tiny
Face Reconstruction	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
Face Reconstruction	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
Face Reconstruction	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
Facial Expression Recognition (FER)	FER+	Accuracy	90.18	Vit-base + MAE
Facial Expression Recognition (FER)	FER+	Accuracy	88.91	ViT-base
Facial Expression Recognition (FER)	FER+	Accuracy	88.56	ViT-tiny
Facial Expression Recognition (FER)	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
Facial Expression Recognition (FER)	RAF-DB	Overall Accuracy	87.22	ViT-base
Facial Expression Recognition (FER)	RAF-DB	Overall Accuracy	87.03	ViT-tiny
Facial Expression Recognition (FER)	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
Facial Expression Recognition (FER)	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
Facial Expression Recognition (FER)	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
3D	FER+	Accuracy	90.18	Vit-base + MAE
3D	FER+	Accuracy	88.91	ViT-base
3D	FER+	Accuracy	88.56	ViT-tiny
3D	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
3D	RAF-DB	Overall Accuracy	87.22	ViT-base
3D	RAF-DB	Overall Accuracy	87.03	ViT-tiny
3D	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
3D	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
3D	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
3D Face Modelling	FER+	Accuracy	90.18	Vit-base + MAE
3D Face Modelling	FER+	Accuracy	88.91	ViT-base
3D Face Modelling	FER+	Accuracy	88.56	ViT-tiny
3D Face Modelling	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
3D Face Modelling	RAF-DB	Overall Accuracy	87.22	ViT-base
3D Face Modelling	RAF-DB	Overall Accuracy	87.03	ViT-tiny
3D Face Modelling	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
3D Face Modelling	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
3D Face Modelling	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
3D Face Reconstruction	FER+	Accuracy	90.18	Vit-base + MAE
3D Face Reconstruction	FER+	Accuracy	88.91	ViT-base
3D Face Reconstruction	FER+	Accuracy	88.56	ViT-tiny
3D Face Reconstruction	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
3D Face Reconstruction	RAF-DB	Overall Accuracy	87.22	ViT-base
3D Face Reconstruction	RAF-DB	Overall Accuracy	87.03	ViT-tiny
3D Face Reconstruction	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
3D Face Reconstruction	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
3D Face Reconstruction	AffectNet	Accuracy (8 emotion)	57.99	ViT-base

Abstract

Results

Task	Dataset	Metric	Value	Model
Facial Recognition and Modelling	FER+	Accuracy	90.18	Vit-base + MAE
Facial Recognition and Modelling	FER+	Accuracy	88.91	ViT-base
Facial Recognition and Modelling	FER+	Accuracy	88.56	ViT-tiny
Facial Recognition and Modelling	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
Facial Recognition and Modelling	RAF-DB	Overall Accuracy	87.22	ViT-base
Facial Recognition and Modelling	RAF-DB	Overall Accuracy	87.03	ViT-tiny
Facial Recognition and Modelling	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
Facial Recognition and Modelling	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
Facial Recognition and Modelling	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
Face Reconstruction	FER+	Accuracy	90.18	Vit-base + MAE
Face Reconstruction	FER+	Accuracy	88.91	ViT-base
Face Reconstruction	FER+	Accuracy	88.56	ViT-tiny
Face Reconstruction	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
Face Reconstruction	RAF-DB	Overall Accuracy	87.22	ViT-base
Face Reconstruction	RAF-DB	Overall Accuracy	87.03	ViT-tiny
Face Reconstruction	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
Face Reconstruction	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
Face Reconstruction	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
Facial Expression Recognition (FER)	FER+	Accuracy	90.18	Vit-base + MAE
Facial Expression Recognition (FER)	FER+	Accuracy	88.91	ViT-base
Facial Expression Recognition (FER)	FER+	Accuracy	88.56	ViT-tiny
Facial Expression Recognition (FER)	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
Facial Expression Recognition (FER)	RAF-DB	Overall Accuracy	87.22	ViT-base
Facial Expression Recognition (FER)	RAF-DB	Overall Accuracy	87.03	ViT-tiny
Facial Expression Recognition (FER)	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
Facial Expression Recognition (FER)	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
Facial Expression Recognition (FER)	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
3D	FER+	Accuracy	90.18	Vit-base + MAE
3D	FER+	Accuracy	88.91	ViT-base
3D	FER+	Accuracy	88.56	ViT-tiny
3D	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
3D	RAF-DB	Overall Accuracy	87.22	ViT-base
3D	RAF-DB	Overall Accuracy	87.03	ViT-tiny
3D	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
3D	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
3D	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
3D Face Modelling	FER+	Accuracy	90.18	Vit-base + MAE
3D Face Modelling	FER+	Accuracy	88.91	ViT-base
3D Face Modelling	FER+	Accuracy	88.56	ViT-tiny
3D Face Modelling	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
3D Face Modelling	RAF-DB	Overall Accuracy	87.22	ViT-base
3D Face Modelling	RAF-DB	Overall Accuracy	87.03	ViT-tiny
3D Face Modelling	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
3D Face Modelling	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
3D Face Modelling	AffectNet	Accuracy (8 emotion)	57.99	ViT-base
3D Face Reconstruction	FER+	Accuracy	90.18	Vit-base + MAE
3D Face Reconstruction	FER+	Accuracy	88.91	ViT-base
3D Face Reconstruction	FER+	Accuracy	88.56	ViT-tiny
3D Face Reconstruction	RAF-DB	Overall Accuracy	91.07	ViT-base + MAE
3D Face Reconstruction	RAF-DB	Overall Accuracy	87.22	ViT-base
3D Face Reconstruction	RAF-DB	Overall Accuracy	87.03	ViT-tiny
3D Face Reconstruction	AffectNet	Accuracy (8 emotion)	62.42	Vit-base + MAE
3D Face Reconstruction	AffectNet	Accuracy (8 emotion)	58.28	ViT-tiny
3D Face Reconstruction	AffectNet	Accuracy (8 emotion)	57.99	ViT-base

Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers

Abstract

Results

Related Papers

Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers

Abstract

Results

Related Papers