[논문]
- A Comparative Analysis of GAN and VAE based Synthetic Data Generators for High Dimensional, Imbalanced Tabular data
- IEEE 2023
- Citations: 24
- https://ieeexplore.ieee.org/document/10101315
- Tabular data의 대표적인 특성인 high dimensional, highly imbalanced이 포함된 dataset을 이용하여 CTGAN과 TVAE의 실험적 성능을 비교하는 논문
[논문 리뷰] CTGAN: Modeling Tabular Data Using Conditional GAN
[논문 리뷰] CTGAN: Modeling Tabular Data Using Conditional GAN
[논문]Modeling Tabular Data Using Conditional GANNIPS 2019Citations: 1,760https://arxiv.org/abs/1907.00503CTGAN, TVAE는 대표적인 synthetic data를 생성하는 deep generative modelGTGAN, TVAE 모두 “Modeling Tabular Data Using Conditional GAN [2
kongshin00.tistory.com
Experiments
- 기존 논문 - Continuous와 Discrete columns dataset에서 얼마나 잘 작동하고 generative model의 성능이 다른 방법들에 비해 얼마나 좋은지 비교
- 해당 논문 - high dimesion에서 2개의 generator 시간적 성능 비교 & imbalance한 target column 지정한 뒤 real data와 syn data의 minority class의 비율 비교
- Minority class ratio: Wafer anomaly - 7.14%(2000개) & Malware - 19.3%(374개)
⇒ Generation time & target columns의 minority class ratio 확인 (epoch, batch_size 다양하게 변경)
[Wafer anomaly]
[Malware]
CTGAN
- pros
- 실제 샘플 크기가 작은 minority class에서 효과적으로 합성 데이터를 생성
- 범주형 데이터의 다양성과 분포를 유지하면서 데이터 생성
- cons
- CTGAN은 적대적 학습과정으로 인해 TVAE보다 많은 계산 자원과 시간을 필요로 함
- 성능이 하이퍼파라미터 설정에 매우 민감하여 최적화가 필요
TVAE
- pros
- 일반적으로 CTGAN보다 빠르게 작동하여 빠른 데이터 생성에 적합
- 간단한 생성 접근 방식 덕분에 더 큰 데이터셋으로 효율적으로 확장 가능
- cons
- 매우 작은 minority class 경우 이를 무시하고 majority class만 생성하는 경향이 있음
- 실제 toy data를 가지고 직접 실험했을 때, 80~90% 정도의 data에서 majority class만 생성했음
- 생성된 데이터의 성능과 유용성이 원본 데이터의 minority class 개수에 크게 의존함
- 매우 작은 minority class 경우 이를 무시하고 majority class만 생성하는 경향이 있음
Conclusion
- CTGAN
- minority class 개수가 매우 작은 심각한 class 불균형이 있는 데이터셋에 적합
- TVAE
- 계산 효율성이 중요하거나 원본 데이터셋에서 minority class의 개수가 충분할 때 적합
'Paper Review > Tabular Data' 카테고리의 다른 글
[논문 리뷰] CTGAN: Modeling Tabular Data Using Conditional GAN (0) | 2025.03.21 |
---|---|
[논문 리뷰] TabDDPM: Modelling Tabular Data with Diffusion Models (0) | 2025.03.21 |