Paper Review/Vision Transformer6 [논문 리뷰] Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer [논문]Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion TransformerNeurIPS 2024Citations: 31https://arxiv.org/abs/2405.14832Summary[기존 methods]Multi-view Diffusion model을 사용하여 다양한 view의 2D image 생성 → 3D로 변환하는 방식 사용Multi-view rendering 필요 ⇒ 계산량 증가Multi-view image의 quality에 따라 3D quality 영향SDS (Score Distillation Sampling) 최적화 과정 필요 ⇒ 추가 시간 소요 [Contibutions]Direct3D - 기존의 diffsuion +.. 2025. 4. 3. [논문 리뷰] DiT: Scalable Diffusion Models with Transformers Scalable Diffusion Models with TransformersICCV 2023Citations: 1,618https://arxiv.org/abs/2212.09748SummaryTransformer-based Diffusion Models기존 U-Net backbone이 아닌 transformer를 활용해 Diffusion model (DiT, Diffusion Transformer) 제안Vision Transformer (ViT)에서 사용된 Patch 단위 처리를 활용해 Latent Diffusion model에 적용Scalability & Compute Efficiencymodel의 Gflops(연산량)를 증가시킬수록 FID 감소하여 성능 향상 확인기존 U-Net 기반 model보다 더.. 2025. 3. 17. [논문 리뷰] ViT: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale ICLR 2021Citations: 53,519https://arxiv.org/abs/2010.11929 Transformer 복습[논문 리뷰] Transformer: Attention is All You Need [논문 리뷰] Transformer: Attention is All You Need[논문]https://arxiv.org/abs/1706.03762NeurIPS 2017Citations: 170,606Positional Encoding 이해하기2025.03.11 - [Paper Review/Transformer] - [개념 설명] Positional Encoding - Transformer 이해하기 (1) [개념 설명] Positional Encoding - Transfkongshin00.ti.. 2025. 3. 13. [논문 리뷰] Transformer: Attention is All You Need [논문]https://arxiv.org/abs/1706.03762NeurIPS 2017Citations: 170,606Positional Encoding 이해하기[개념 설명] Positional Encoding - Transformer 이해하기 (1) [개념 설명] Positional Encoding - Transformer 이해하기 (1)Transformer 구조를 이해하기 전, 다양한 기법들에 대해 하나씩 작성해볼 예정위치 정보를 입력하는 방법 중 하나인 Positional Encoding에 대해 알아볼 예정Transformer에는 위치 정보를 입력하기 위해 Positkongshin00.tistory.com Sinusoidal Encoding, Layer Normalization 이해하기[개념 설명].. 2025. 3. 11. [개념 설명] Sinusoidal encoding, Normalization - Transformer 이해하기 (2) Transformer 구조를 이해하기 전, 다양한 기법들에 알아보기 2번째Transformer에서 위치 정보를 입력하기 위해 사용되는 Sinusoidal Encoding과 Normarlization 방법을 알아볼 예정Positional Encoding에 관한 자세한 설명은 아래의 post에 작성[개념 설명] Positional Encoding - Transformer 이해하기 (1) [개념 설명] Positional Encoding - Transformer 이해하기 (1)Transformer 구조를 이해하기 전, 다양한 기법들에 대해 하나씩 작성해볼 예정위치 정보를 입력하는 방법 중 하나인 Positional Encoding에 대해 알아볼 예정Transformer에는 위치 정보를 입력하기 위해 Posit.. 2025. 3. 11. [개념 설명] Positional Encoding - Transformer 이해하기 (1) Transformer 구조를 이해하기 전, 다양한 기법들에 대해 하나씩 작성해볼 예정위치 정보를 입력하는 방법 중 하나인 Positional Encoding에 대해 알아볼 예정Transformer에는 위치 정보를 입력하기 위해 Positional Encoding 중 Sinusoida Encoding 방법을 사용함Just count숫자가 너무 빨리 증가하여 Weight가 커지고, gradient vanishing이나 gradient explosion 등 학습이 불안정 Noramlize the “Just count”x / (max len -1)0~1 사이 값으로 안정적인 학습 but encoding vector의 길이가 다른 두 vector의 동일한 position 값이 다름 Using binary0~1 사.. 2025. 3. 11. 이전 1 다음