[논문 리뷰] A Comparative Analysis of GAN and VAE based Synthetic Data Generators for High Dimensional, Imbalanced Tabular data

[논문]

A Comparative Analysis of GAN and VAE based Synthetic Data Generators for High Dimensional, Imbalanced Tabular data
IEEE 2023
Citations: 24
https://ieeexplore.ieee.org/document/10101315

Tabular data의 대표적인 특성인 high dimensional, highly imbalanced이 포함된 dataset을 이용하여 CTGAN과 TVAE의 실험적 성능을 비교하는 논문

[논문 리뷰] CTGAN: Modeling Tabular Data Using Conditional GAN

[논문]Modeling Tabular Data Using Conditional GANNIPS 2019Citations: 1,760https://arxiv.org/abs/1907.00503CTGAN, TVAE는 대표적인 synthetic data를 생성하는 deep generative modelGTGAN, TVAE 모두 “Modeling Tabular Data Using Conditional GAN [2

kongshin00.tistory.com

Experiments

기존 논문 - Continuous와 Discrete columns dataset에서 얼마나 잘 작동하고 generative model의 성능이 다른 방법들에 비해 얼마나 좋은지 비교
해당 논문 - high dimesion에서 2개의 generator 시간적 성능 비교 & imbalance한 target column 지정한 뒤 real data와 syn data의 minority class의 비율 비교
- Minority class ratio: Wafer anomaly - 7.14%(2000개) & Malware - 19.3%(374개)

⇒ Generation time & target columns의 minority class ratio 확인 (epoch, batch_size 다양하게 변경)

[Wafer anomaly]

[Malware]

CTGAN

pros
- 실제 샘플 크기가 작은 minority class에서 효과적으로 합성 데이터를 생성
- 범주형 데이터의 다양성과 분포를 유지하면서 데이터 생성
cons
- CTGAN은 적대적 학습과정으로 인해 TVAE보다 많은 계산 자원과 시간을 필요로 함
- 성능이 하이퍼파라미터 설정에 매우 민감하여 최적화가 필요

TVAE

pros
- 일반적으로 CTGAN보다 빠르게 작동하여 빠른 데이터 생성에 적합
- 간단한 생성 접근 방식 덕분에 더 큰 데이터셋으로 효율적으로 확장 가능
cons
- 매우 작은 minority class 경우 이를 무시하고 majority class만 생성하는 경향이 있음
  - 실제 toy data를 가지고 직접 실험했을 때, 80~90% 정도의 data에서 majority class만 생성했음
- 생성된 데이터의 성능과 유용성이 원본 데이터의 minority class 개수에 크게 의존함

Conclusion

CTGAN
- minority class 개수가 매우 작은 심각한 class 불균형이 있는 데이터셋에 적합
TVAE
- 계산 효율성이 중요하거나 원본 데이터셋에서 minority class의 개수가 충분할 때 적합

저작자표시 비영리 변경금지 (새창열림)

'Paper Review > Tabular Data' 카테고리의 다른 글

[논문 리뷰] CTGAN: Modeling Tabular Data Using Conditional GAN (0)	2025.03.21
[논문 리뷰] TabDDPM: Modelling Tabular Data with Diffusion Models (0)	2025.03.21

kongshin's Lab

[논문 리뷰] A Comparative Analysis of GAN and VAE based Synthetic Data Generators for High Dimensional, Imbalanced Tabular data

Experiments

CTGAN

TVAE

Conclusion

'Paper Review > Tabular Data' 카테고리의 다른 글

티스토리툴바

[논문 리뷰] A Comparative Analysis of GAN and VAE based Synthetic Data Generators for High Dimensional, Imbalanced Tabular data

Experiments

CTGAN

TVAE

Conclusion

'Paper Review > Tabular Data' 카테고리의 다른 글

관련글

티스토리툴바