본문 바로가기
Paper Review/Tabular Data

[논문 리뷰] A Comparative Analysis of GAN and VAE based Synthetic Data Generators for High Dimensional, Imbalanced Tabular data

by kongshin 2025. 3. 21.

[논문]


  • Tabular data의 대표적인 특성인 high dimensional, highly imbalanced이 포함된 dataset을 이용하여 CTGAN과 TVAE의 실험적 성능을 비교하는 논문

[논문 리뷰] CTGAN: Modeling Tabular Data Using Conditional GAN

 

[논문 리뷰] CTGAN: Modeling Tabular Data Using Conditional GAN

[논문]Modeling Tabular Data Using Conditional GANNIPS 2019Citations: 1,760https://arxiv.org/abs/1907.00503CTGAN, TVAE는 대표적인 synthetic data를 생성하는 deep generative modelGTGAN, TVAE 모두 “Modeling Tabular Data Using Conditional GAN [2

kongshin00.tistory.com

 

 

Experiments

  • 기존 논문 - Continuous와 Discrete columns dataset에서 얼마나 잘 작동하고 generative model의 성능이 다른 방법들에 비해 얼마나 좋은지 비교
  • 해당 논문 - high dimesion에서 2개의 generator 시간적 성능 비교 & imbalance한 target column 지정한 뒤 real data와 syn data의 minority class의 비율 비교
    • Minority class ratio: Wafer anomaly - 7.14%(2000개) & Malware - 19.3%(374개)

⇒ Generation time & target columns의 minority class ratio 확인 (epoch, batch_size 다양하게 변경)

 

 

[Wafer anomaly]

 

[Malware]

CTGAN

  • pros
    • 실제 샘플 크기가 작은 minority class에서 효과적으로 합성 데이터를 생성
    • 범주형 데이터의 다양성과 분포를 유지하면서 데이터 생성
  • cons
    • CTGAN은 적대적 학습과정으로 인해 TVAE보다 많은 계산 자원과 시간을 필요로 함
    • 성능이 하이퍼파라미터 설정에 매우 민감하여 최적화가 필요

 

TVAE

  • pros
    • 일반적으로 CTGAN보다 빠르게 작동하여 빠른 데이터 생성에 적합
    • 간단한 생성 접근 방식 덕분에 더 큰 데이터셋으로 효율적으로 확장 가능
  • cons
    • 매우 작은 minority class 경우 이를 무시하고 majority class만 생성하는 경향이 있음
      • 실제 toy data를 가지고 직접 실험했을 때, 80~90% 정도의 data에서 majority class만 생성했음
    • 생성된 데이터의 성능과 유용성이 원본 데이터의 minority class 개수에 크게 의존함

 

Conclusion

  • CTGAN
    • minority class 개수가 매우 작은 심각한 class 불균형이 있는 데이터셋에 적합
  • TVAE
    • 계산 효율성이 중요하거나 원본 데이터셋에서 minority class의 개수가 충분할 때 적합