Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition

Jiang Li, XiaoPing Wang, Zhigang Zeng

2024-07-31Emotion Recognition in Conversation Sentiment Analysis Multimodal Emotion Recognition Multimodal Sentiment Analysis Emotion Recognition

Paper PDF Code(official)

Abstract

Multimodal emotion recognition in conversation (MERC) has garnered substantial research attention recently. Existing MERC methods face several challenges: (1) they fail to fully harness direct inter-modal cues, possibly leading to less-than-thorough cross-modal modeling; (2) they concurrently extract information from the same and different modalities at each network layer, potentially triggering conflicts from the fusion of multi-source data; (3) they lack the agility required to detect dynamic sentimental changes, perhaps resulting in inaccurate classification of utterances with abrupt sentiment shifts. To address these issues, a novel approach named GraphSmile is proposed for tracking intricate emotional cues in multimodal dialogues. GraphSmile comprises two key components, i.e., GSF and SDP modules. GSF ingeniously leverages graph structures to alternately assimilate inter-modal and intra-modal emotional dependencies layer by layer, adequately capturing cross-modal cues while effectively circumventing fusion conflicts. SDP is an auxiliary task to explicitly delineate the sentiment dynamics between utterances, promoting the model's ability to distinguish sentimental discrepancies. Furthermore, GraphSmile is effortlessly applied to multimodal sentiment analysis in conversation (MSAC), forging a unified multimodal affective model capable of executing MERC and MSAC tasks. Empirical results on multiple benchmarks demonstrate that GraphSmile can handle complex emotional and sentimental patterns, significantly outperforming baseline models.

Results

Task	Dataset	Metric	Value	Model
Emotion Recognition	MELD-Sentiment	Accuracy	74.44	GraphSmile
Emotion Recognition	MELD-Sentiment	Weighted F1	74.31	GraphSmile
Emotion Recognition	CMU-MOSEI-Sentiment	Accuracy	46.82	GraphSmile
Emotion Recognition	CMU-MOSEI-Sentiment	Weighted F1	44.93	GraphSmile
Emotion Recognition	IEMOCAP-4	Accuracy	86.53	GraphSmile
Emotion Recognition	IEMOCAP-4	Weighted F1	86.52	GraphSmile
Emotion Recognition	MELD	Accuracy	67.7	GraphSmile
Emotion Recognition	MELD	Weighted-F1	66.71	GraphSmile
Emotion Recognition	CMU-MOSEI-Sentiment-3	Accuracy	67.73	GraphSmile
Emotion Recognition	CMU-MOSEI-Sentiment-3	Weighted F1	66.73	GraphSmile
Emotion Recognition	IEMOCAP	Accuracy	72.77	GraphSmile
Emotion Recognition	IEMOCAP	Weighted-F1	72.81	GraphSmile
Emotion Recognition	IEMOCAP-4	Accuracy	86.53	GraphSmile
Emotion Recognition	IEMOCAP-4	Weighted F1	86.52	GraphSmile
Emotion Recognition	CMU-MOSEI-Sentiment-3	Accuracy	67.73	GraphSmile
Emotion Recognition	CMU-MOSEI-Sentiment-3	Weighted F1	66.73	GraphSmile
Emotion Recognition	CMU-MOSEI-Sentiment	Accuracy	46.82	GraphSmile
Emotion Recognition	CMU-MOSEI-Sentiment	Weighted F1	44.93	GraphSmile
Emotion Recognition	MELD	Accuracy	67.7	GraphSmile
Emotion Recognition	MELD	Weighted F1	66.71	GraphSmile
Emotion Recognition	IEMOCAP	Accuracy	72.77	GraphSmile
Emotion Recognition	IEMOCAP	Weighted F1	72.81	GraphSmile
Emotion Recognition	MELD-Sentiment	Accuracy	74.44	GraphSmile
Emotion Recognition	MELD-Sentiment	Weighted F1	74.31	GraphSmile
Multimodal Emotion Recognition	IEMOCAP-4	Accuracy	86.53	GraphSmile
Multimodal Emotion Recognition	IEMOCAP-4	Weighted F1	86.52	GraphSmile
Multimodal Emotion Recognition	CMU-MOSEI-Sentiment-3	Accuracy	67.73	GraphSmile
Multimodal Emotion Recognition	CMU-MOSEI-Sentiment-3	Weighted F1	66.73	GraphSmile
Multimodal Emotion Recognition	CMU-MOSEI-Sentiment	Accuracy	46.82	GraphSmile
Multimodal Emotion Recognition	CMU-MOSEI-Sentiment	Weighted F1	44.93	GraphSmile
Multimodal Emotion Recognition	MELD	Accuracy	67.7	GraphSmile
Multimodal Emotion Recognition	MELD	Weighted F1	66.71	GraphSmile
Multimodal Emotion Recognition	IEMOCAP	Accuracy	72.77	GraphSmile
Multimodal Emotion Recognition	IEMOCAP	Weighted F1	72.81	GraphSmile
Multimodal Emotion Recognition	MELD-Sentiment	Accuracy	74.44	GraphSmile
Multimodal Emotion Recognition	MELD-Sentiment	Weighted F1	74.31	GraphSmile

Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition

Abstract

Results

Related Papers

Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition

Abstract

Results

Related Papers