CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI

YiRong Chen, Weiquan Fan, Xiaofen Xing, Jianxin Pang, Minlie Huang, Wenjing Han, Qianfeng Tie, Xiangmin Xu

2022-05-29Emotion Recognition in Conversation Personality Recognition in Conversation Chinese Sentiment Analysis Dialog Act Classification Personality Trait Recognition Dialogue Generation Personalized and Emotional Conversation Conversational Response Generation Emotional Dialogue Acts Open-Domain Dialog Emotion Recognition

Paper PDF Code(official)

Abstract

Human language expression is based on the subjective construal of the situation instead of the objective truth conditions, which means that speakers' personalities and emotions after cognitive processing have an important influence on conversation. However, most existing datasets for conversational AI ignore human personalities and emotions, or only consider part of them. It's difficult for dialogue systems to understand speakers' personalities and emotions although large-scale pre-training language models have been widely used. In order to consider both personalities and emotions in the process of conversation generation, we propose CPED, a large-scale Chinese personalized and emotional dialogue dataset, which consists of multi-source knowledge related to empathy and personal characteristic. These knowledge covers gender, Big Five personality traits, 13 emotions, 19 dialogue acts and 10 scenes. CPED contains more than 12K dialogues of 392 speakers from 40 TV shows. We release the textual dataset with audio features and video features according to the copyright claims, privacy issues, terms of service of video platforms. We provide detailed description of the CPED construction process and introduce three tasks for conversational AI, including personality recognition, emotion recognition in conversations as well as personalized and emotional conversation generation. Finally, we provide baseline systems for these tasks and consider the function of speakers' personalities and emotions on conversation. Our motivation is to propose a dataset to be widely adopted by the NLP community as a new open benchmark for conversational AI research. The full dataset is available at https://github.com/scutcyr/CPED.

Results

Task	Dataset	Metric	Value	Model
Emotion Recognition	CPED	Accuracy of Sentiment	51.5	BERT+AVG+MLP
Emotion Recognition	CPED	Macro-F1 of Sentiment	48.02	BERT+AVG+MLP
Conversational Response Generation	CPED	Average Embedding	0.5588	GPT-{emo}
Conversational Response Generation	CPED	BLEU	0.1342	GPT-{emo}
Conversational Response Generation	CPED	Distinct-1	0.0614	GPT-{emo}
Conversational Response Generation	CPED	Distinct-2	0.343	GPT-{emo}
Conversational Response Generation	CPED	Greedy Embedding	0.4996	GPT-{emo}
Conversational Response Generation	CPED	PPL	17.48	GPT-{emo}
Conversational Response Generation	CPED	bertscore	0.5709	GPT-{emo}
Conversational Response Generation	CPED	Average Embedding	0.5617	GPT-{per+emo}
Conversational Response Generation	CPED	BLEU	0.1403	GPT-{per+emo}
Conversational Response Generation	CPED	Distinct-1	0.0602	GPT-{per+emo}
Conversational Response Generation	CPED	Distinct-2	0.3388	GPT-{per+emo}
Conversational Response Generation	CPED	Greedy Embedding	0.5026	GPT-{per+emo}
Conversational Response Generation	CPED	PPL	17.7	GPT-{per+emo}
Conversational Response Generation	CPED	bertscore	0.5719	GPT-{per+emo}
Conversational Response Generation	CPED	Average Embedding	0.561	GPT-{da}
Conversational Response Generation	CPED	BLEU	0.1372	GPT-{da}
Conversational Response Generation	CPED	Distinct-1	0.0605	GPT-{da}
Conversational Response Generation	CPED	Distinct-2	0.3389	GPT-{da}
Conversational Response Generation	CPED	Greedy Embedding	0.5017	GPT-{da}
Conversational Response Generation	CPED	PPL	17.72	GPT-{da}
Conversational Response Generation	CPED	bertscore	0.5703	GPT-{da}
Conversational Response Generation	CPED	Average Embedding	0.5608	GPT-{per+emo+da}
Conversational Response Generation	CPED	BLEU	0.1382	GPT-{per+emo+da}
Conversational Response Generation	CPED	Distinct-1	0.0601	GPT-{per+emo+da}
Conversational Response Generation	CPED	Distinct-2	0.3404	GPT-{per+emo+da}
Conversational Response Generation	CPED	Greedy Embedding	5012	GPT-{per+emo+da}
Conversational Response Generation	CPED	PPL	17.8	GPT-{per+emo+da}
Conversational Response Generation	CPED	bertscore	0.5722	GPT-{per+emo+da}
Conversational Response Generation	CPED	Average Embedding	0.5606	GPT-{per}
Conversational Response Generation	CPED	BLEU	0.1372	GPT-{per}
Conversational Response Generation	CPED	Distinct-1	0.0592	GPT-{per}
Conversational Response Generation	CPED	Distinct-2	0.3363	GPT-{per}
Conversational Response Generation	CPED	Greedy Embedding	0.5009	GPT-{per}
Conversational Response Generation	CPED	PPL	18.08	GPT-{per}
Conversational Response Generation	CPED	bertscore	0.5715	GPT-{per}
Conversational Response Generation	CPED	Average Embedding	0.5509	GPT
Conversational Response Generation	CPED	BLEU	0.1171	GPT
Conversational Response Generation	CPED	Distinct-1	0.0482	GPT
Conversational Response Generation	CPED	Distinct-2	0.2738	GPT
Conversational Response Generation	CPED	Greedy Embedding	0.4922	GPT
Conversational Response Generation	CPED	PPL	20.07	GPT
Conversational Response Generation	CPED	bertscore	0.5629	GPT
Conversational Response Generation	CPED	Average Embedding	0.5552	{emo+da}-GPT
Conversational Response Generation	CPED	BLEU	0.1304	{emo+da}-GPT
Conversational Response Generation	CPED	Distinct-1	0.0476	{emo+da}-GPT
Conversational Response Generation	CPED	Distinct-2	0.2785	{emo+da}-GPT
Conversational Response Generation	CPED	Greedy Embedding	0.4962	{emo+da}-GPT
Conversational Response Generation	CPED	PPL	21.6	{emo+da}-GPT
Conversational Response Generation	CPED	bertscore	0.5674	{emo+da}-GPT
Conversational Response Generation	CPED	Average Embedding	0.5556	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	BLEU	0.1272	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	Distinct-1	0.0473	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	Distinct-2	0.279	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	Greedy Embedding	0.4962	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	PPL	22.09	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	bertscore	0.5669	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	Average Embedding	0.5564	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	BLEU	0.1252	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	Distinct-1	0.0451	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	Distinct-2	0.2746	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	Greedy Embedding	0.4964	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	PPL	22.84	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	bertscore	0.5666	{emo+da}-GPT w/o emo
Personality Recognition in Conversation	CPED	Accuracy (%)	67.25	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Agreeableness	85.89	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Conscientiousness	63.48	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Extraversion	78.21	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Neurotism	53.27	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Openness	55.42	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Macro-F1	74.08	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy (%)	67.23	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Agreeableness	85.76	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Conscientiousness	63.6	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Extraversion	78.08	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Neurotism	50.75	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Openness	57.93	BERT$^{s}$
Personality Recognition in Conversation	CPED	Macro-F1	72.93	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy (%)	66.32	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Agreeableness	80.98	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Conscientiousness	63.35	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Extraversion	78.08	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Neurotism	55.29	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Openness	53.9	BERT$^{c}$
Personality Recognition in Conversation	CPED	Macro-F1	72.69	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy (%)	66.02	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Agreeableness	81.99	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Conscientiousness	61.59	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Extraversion	77.71	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Neurotism	53.4	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Openness	55.42	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Macro-F1	71.89	BERT$_{senet}^{c}$

Abstract

Results

Task	Dataset	Metric	Value	Model
Emotion Recognition	CPED	Accuracy of Sentiment	51.5	BERT+AVG+MLP
Emotion Recognition	CPED	Macro-F1 of Sentiment	48.02	BERT+AVG+MLP
Conversational Response Generation	CPED	Average Embedding	0.5588	GPT-{emo}
Conversational Response Generation	CPED	BLEU	0.1342	GPT-{emo}
Conversational Response Generation	CPED	Distinct-1	0.0614	GPT-{emo}
Conversational Response Generation	CPED	Distinct-2	0.343	GPT-{emo}
Conversational Response Generation	CPED	Greedy Embedding	0.4996	GPT-{emo}
Conversational Response Generation	CPED	PPL	17.48	GPT-{emo}
Conversational Response Generation	CPED	bertscore	0.5709	GPT-{emo}
Conversational Response Generation	CPED	Average Embedding	0.5617	GPT-{per+emo}
Conversational Response Generation	CPED	BLEU	0.1403	GPT-{per+emo}
Conversational Response Generation	CPED	Distinct-1	0.0602	GPT-{per+emo}
Conversational Response Generation	CPED	Distinct-2	0.3388	GPT-{per+emo}
Conversational Response Generation	CPED	Greedy Embedding	0.5026	GPT-{per+emo}
Conversational Response Generation	CPED	PPL	17.7	GPT-{per+emo}
Conversational Response Generation	CPED	bertscore	0.5719	GPT-{per+emo}
Conversational Response Generation	CPED	Average Embedding	0.561	GPT-{da}
Conversational Response Generation	CPED	BLEU	0.1372	GPT-{da}
Conversational Response Generation	CPED	Distinct-1	0.0605	GPT-{da}
Conversational Response Generation	CPED	Distinct-2	0.3389	GPT-{da}
Conversational Response Generation	CPED	Greedy Embedding	0.5017	GPT-{da}
Conversational Response Generation	CPED	PPL	17.72	GPT-{da}
Conversational Response Generation	CPED	bertscore	0.5703	GPT-{da}
Conversational Response Generation	CPED	Average Embedding	0.5608	GPT-{per+emo+da}
Conversational Response Generation	CPED	BLEU	0.1382	GPT-{per+emo+da}
Conversational Response Generation	CPED	Distinct-1	0.0601	GPT-{per+emo+da}
Conversational Response Generation	CPED	Distinct-2	0.3404	GPT-{per+emo+da}
Conversational Response Generation	CPED	Greedy Embedding	5012	GPT-{per+emo+da}
Conversational Response Generation	CPED	PPL	17.8	GPT-{per+emo+da}
Conversational Response Generation	CPED	bertscore	0.5722	GPT-{per+emo+da}
Conversational Response Generation	CPED	Average Embedding	0.5606	GPT-{per}
Conversational Response Generation	CPED	BLEU	0.1372	GPT-{per}
Conversational Response Generation	CPED	Distinct-1	0.0592	GPT-{per}
Conversational Response Generation	CPED	Distinct-2	0.3363	GPT-{per}
Conversational Response Generation	CPED	Greedy Embedding	0.5009	GPT-{per}
Conversational Response Generation	CPED	PPL	18.08	GPT-{per}
Conversational Response Generation	CPED	bertscore	0.5715	GPT-{per}
Conversational Response Generation	CPED	Average Embedding	0.5509	GPT
Conversational Response Generation	CPED	BLEU	0.1171	GPT
Conversational Response Generation	CPED	Distinct-1	0.0482	GPT
Conversational Response Generation	CPED	Distinct-2	0.2738	GPT
Conversational Response Generation	CPED	Greedy Embedding	0.4922	GPT
Conversational Response Generation	CPED	PPL	20.07	GPT
Conversational Response Generation	CPED	bertscore	0.5629	GPT
Conversational Response Generation	CPED	Average Embedding	0.5552	{emo+da}-GPT
Conversational Response Generation	CPED	BLEU	0.1304	{emo+da}-GPT
Conversational Response Generation	CPED	Distinct-1	0.0476	{emo+da}-GPT
Conversational Response Generation	CPED	Distinct-2	0.2785	{emo+da}-GPT
Conversational Response Generation	CPED	Greedy Embedding	0.4962	{emo+da}-GPT
Conversational Response Generation	CPED	PPL	21.6	{emo+da}-GPT
Conversational Response Generation	CPED	bertscore	0.5674	{emo+da}-GPT
Conversational Response Generation	CPED	Average Embedding	0.5556	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	BLEU	0.1272	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	Distinct-1	0.0473	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	Distinct-2	0.279	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	Greedy Embedding	0.4962	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	PPL	22.09	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	bertscore	0.5669	{emo+da}-GPT w/o da
Conversational Response Generation	CPED	Average Embedding	0.5564	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	BLEU	0.1252	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	Distinct-1	0.0451	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	Distinct-2	0.2746	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	Greedy Embedding	0.4964	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	PPL	22.84	{emo+da}-GPT w/o emo
Conversational Response Generation	CPED	bertscore	0.5666	{emo+da}-GPT w/o emo
Personality Recognition in Conversation	CPED	Accuracy (%)	67.25	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Agreeableness	85.89	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Conscientiousness	63.48	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Extraversion	78.21	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Neurotism	53.27	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Openness	55.42	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Macro-F1	74.08	BERT$_{ssenet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy (%)	67.23	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Agreeableness	85.76	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Conscientiousness	63.6	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Extraversion	78.08	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Neurotism	50.75	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy of Openness	57.93	BERT$^{s}$
Personality Recognition in Conversation	CPED	Macro-F1	72.93	BERT$^{s}$
Personality Recognition in Conversation	CPED	Accuracy (%)	66.32	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Agreeableness	80.98	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Conscientiousness	63.35	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Extraversion	78.08	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Neurotism	55.29	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Openness	53.9	BERT$^{c}$
Personality Recognition in Conversation	CPED	Macro-F1	72.69	BERT$^{c}$
Personality Recognition in Conversation	CPED	Accuracy (%)	66.02	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Agreeableness	81.99	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Conscientiousness	61.59	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Extraversion	77.71	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Neurotism	53.4	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Accuracy of Openness	55.42	BERT$_{senet}^{c}$
Personality Recognition in Conversation	CPED	Macro-F1	71.89	BERT$_{senet}^{c}$

CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI

Abstract

Results

Related Papers

CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI

Abstract

Results

Related Papers