컴퓨터에서 이미지를 생성할 때 Checkpoint, Text Encorder, VAE 는 이미지 생성의 3대 핵심 구조이다. 이 3가지는 세트 개념으로 이해하고 항상 함께 사용할 때 정상적인 이미지가 생성되기 때문이다. 서로 다른 것들을 연결하여 사용하면 정상적인 이미지 생성을 기대하기 어렵다. Checkpoint + Encorder + VAE 1. 이미지 생성에 필요한 핵심구조 이해 Checkpoint 또는 Diffusion Model : 이미지를 실제로 만들어내는 핵심 모델로 이것에 의해 이미지 생성이 가능하다. Text Encorder : 글을 번역하는 번역기로 우리가 입력하는 Text(Prompt) 를 AI가 이해하는 언어(숫자 벡터)로 바꿔주는 번역기이다. 번역된 내용(Conditioning)으로 checkpoint 에서 이미지를 생성한다. VAE : 잠재적 공간(latent)으로의 변환을 해주는 변환기. 이미지를 생성할 때 우리가 인식가능한 이미지 상태로 이미지를 생성하는 것이 아닌 AI 가 이해하는 잠재적 공간에서 이미지를 생성하는데 그 생성된 잠재적인 이미지를 우리가 실제로 알아볼 수 있는 이미지로 바꿔주는 역할을 한다. VAE Encorder : 실제 이미지 -> latent image VAE Decorder : latent Image -> 실제 이미지 2. 주요 Checkpoint 모델별 , Encorder, VAE 의 관계 Stable Diffusion (SDXL), Pony 모델 Text Encorder: CLIP 사용 , 이 모델은 단어 단위의 text 를 변환 해 주기 때문에 이 모델을 이용하여 이미지를 생성 할 때는 Prompt 를 단어 단위로 나열하여 입력하는 것이 좋다. 예) masterpiece, best quality, highly detailed, 1girl, solo, bangs, long hair, slender body,...