Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition

Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura

2023-11-18Emotion Recognition in Conversation Multimodal Emotion Recognition Contrastive Learning Face Swapping Emotion Recognition

Paper PDF Code(official)

Abstract

Multimodal emotion recognition aims to recognize emotions for each utterance of multiple modalities, which has received increasing attention for its application in human-machine interaction. Current graph-based methods fail to simultaneously depict global contextual features and local diverse uni-modal features in a dialogue. Furthermore, with the number of graph layers increasing, they easily fall into over-smoothing. In this paper, we propose a method for joint modality fusion and graph contrastive learning for multimodal emotion recognition (Joyful), where multimodality fusion, contrastive learning, and emotion recognition are jointly optimized. Specifically, we first design a new multimodal fusion mechanism that can provide deep interaction and fusion between the global contextual and uni-modal specific features. Then, we introduce a graph contrastive learning framework with inter-view and intra-view contrastive losses to learn more distinguishable representations for samples with different sentiments. Extensive experiments on three benchmark datasets indicate that Joyful achieved state-of-the-art (SOTA) performance compared to all baselines.

Results

Task	Dataset	Metric	Value	Model
Emotion Recognition	IEMOCAP-4	Weighted F1	85.7	Joyful
Emotion Recognition	IEMOCAP-4	Accuracy	85.6	Joyful
Emotion Recognition	IEMOCAP-4	Weighted F1	85.7	Joyful
Emotion Recognition	MELD	Accuracy	62.53	Joyful
Emotion Recognition	MELD	Weighted F1	61.77	Joyful
Emotion Recognition	IEMOCAP	Accuracy	71	Joyful
Emotion Recognition	IEMOCAP	Weighted F1	70.5	Joyful
Multimodal Emotion Recognition	IEMOCAP-4	Accuracy	85.6	Joyful
Multimodal Emotion Recognition	IEMOCAP-4	Weighted F1	85.7	Joyful
Multimodal Emotion Recognition	MELD	Accuracy	62.53	Joyful
Multimodal Emotion Recognition	MELD	Weighted F1	61.77	Joyful
Multimodal Emotion Recognition	IEMOCAP	Accuracy	71	Joyful
Multimodal Emotion Recognition	IEMOCAP	Weighted F1	70.5	Joyful

Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition

Abstract

Results

Related Papers

Joyful: Joint Modality Fusion and Graph Contrastive Learning for Multimodal Emotion Recognition

Abstract

Results

Related Papers