zGAN: An Outlier-focused Generative Adversarial Network For Realistic Synthetic Data Generation

Azizjon Azimi, Bonu Boboeva, Ilyas Varshavskiy, Shuhrat Khalilbekov, Akhlitdin Nizamitdinov, Najima Noyoftova, Sergey Shulgin

2024-10-28Synthetic Data Generation Binary Classification Synthetic Data Evaluation

Paper PDF

Abstract

The phenomenon of "black swans" has posed a fundamental challenge to performance of classical machine learning models. The perceived rise in frequency of outlier conditions, especially in post-pandemic environment, has necessitated exploration of synthetic data as a complement to real data in model training. This article provides a general overview and experimental investigation of the zGAN model architecture developed for the purpose of generating synthetic tabular data with outlier characteristics. The model is put to test in binary classification environments and shows promising results on realistic synthetic data generation, as well as uplift capabilities vis-\`a-vis model performance. A distinctive feature of zGAN is its enhanced correlation capability between features in the generated data, replicating correlations of features in real training data. Furthermore, crucial is the ability of zGAN to generate outliers based on covariance of real data or synthetically generated covariances. This approach to outlier generation enables modeling of complex economic events and augmentation of outliers for tasks such as training predictive models and detecting, processing or removing outliers. Experiments and comparative analyses as part of this study were conducted on both private (credit risk in financial services) and public datasets.

Results

Task	Dataset	Metric	Value	Model
Synthetic Data Generation	Titanic	AUC	0.8163	zGAN
Synthetic Data Generation	Titanic	AUC	0.8076	CopulaGAN
Synthetic Data Generation	Titanic	AUC	0.7923	CTGAN
Synthetic Data Generation	Titanic	AUC	0.7874	TVAE
Synthetic Data Generation	Titanic	AUC	0.7861	SynthPop
Synthetic Data Generation	Titanic	AUC	0.7846	Gaussian Copula
Synthetic Data Generation	Titanic	AUC	0.534	PrivBayes
Synthetic Data Generation	A9 (7.4% outliers)	AUC	0.7122	zGAN
Synthetic Data Generation	A9 (3% outliers)	AUC	0.7116	zGAN
Synthetic Data Generation	A9 (5% outliers)	AUC	0.7147	zGAN

zGAN: An Outlier-focused Generative Adversarial Network For Realistic Synthetic Data Generation

Abstract

Results

Related Papers

zGAN: An Outlier-focused Generative Adversarial Network For Realistic Synthetic Data Generation

Abstract

Results

Related Papers