Checkpoint, Text Encoder, VAE — 이미지 생성 AI의 3대 핵심 구조 정리

컴퓨터에서 이미지를 생성할 때 Checkpoint, Text Encorder, VAE 는 이미지 생성의 3대 핵심 구조이다.

이 3가지는 세트 개념으로 이해하고 항상 함께 사용할 때 정상적인 이미지가 생성되기 때문이다.

서로 다른 것들을 연결하여 사용하면 정상적인 이미지 생성을 기대하기 어렵다.

1. 이미지 생성에 필요한 핵심구조 이해

Checkpoint 또는 Diffusion Model : 이미지를 실제로 만들어내는 핵심 모델로 이것에 의해 이미지 생성이 가능하다.
Text Encorder : 글을 번역하는 번역기로 우리가 입력하는 Text(Prompt) 를 AI가 이해하는 언어(숫자 벡터)로 바꿔주는 번역기이다. 번역된 내용(Conditioning)으로 checkpoint 에서 이미지를 생성한다.
VAE : 잠재적 공간(latent)으로의 변환을 해주는 변환기. 이미지를 생성할 때 우리가 인식가능한 이미지 상태로 이미지를 생성하는 것이 아닌 AI 가 이해하는 잠재적 공간에서 이미지를 생성하는데 그 생성된 잠재적인 이미지를 우리가 실제로 알아볼 수 있는 이미지로 바꿔주는 역할을 한다.

VAE Encorder : 실제 이미지 -> latent image
VAE Decorder : latent Image -> 실제 이미지

2. 주요 Checkpoint 모델별 , Encorder, VAE 의 관계

Stable Diffusion (SDXL), Pony 모델

Text Encorder: CLIP 사용 , 이 모델은 단어 단위의 text 를 변환해 주기 때문에 이 모델을 이용하여 이미지를 생성 할 때는 Prompt 를 단어 단위로 나열하여 입력하는 것이 좋다.
예) masterpiece, best quality, highly detailed, 1girl, solo, bangs, long hair, slender body, slim legs, hourglass figure, smooth skin, flawless complexion, realistic eyes, red lips, makeup, top , skirt, sitting on chair.
VAE : sdxl_vae , sdxl_ani_vae 등
Stable Diffusion 모델에 따라 모델내부에 CLIP Encorder , 와 VAE 를 함께 종합하여 training 한 모델도 존재한다. 그런 모델은 굳이 CLIP Encorder 나 VAE 가 별도로 필요치 않다.

Flux1, Flux2 모델

Text Encorder : t5xxx 계열 Encorder. t5xxl_fp8_e4m3fn, t5xxl_fp8_e4m3fn_scaled 등. 이 것은 주로 문장구조로 이해하고 분석하여 변환한다. 따라서 Flux 모델을 이용하여 이미지를 생성 할 때는 단어보다는 문장으로 prompt 를 입력해 주는 것이 좋다.
예) A captivating wooden artwork featuring silhouette of a young woman and a cat, crafted using randomly arranged colorful mosaic wood tiles.
VAE : ae , flux2-vae 등
Flux 모델을 위의 CLIP Encorder 나 sdxl_vae 를 연결하여 사용하면 이미지 생성이 안된다. 그래서 Checkpoint , Text Encorder 와 VAE 는 세트개념으로 관계된 것 끼리 함께 사용하여야 한다. 대부분 Checkpoint 모델을 다운로드하는 곳에는 관계된 Text Encorder 와 VAE 도 함께 다운로드가 가능할 것이다.

Qwen 모델

Text Encorder : LLM 기반 Vision-Language 멀티모달 분석 모델 이다. qwen_2.5_vl_fp16, qwen_3_4b 등. 이것은 Text 뿐 아니라 Image 도 분석 변환해 주기 때문에 qwen 모델은 image to prompt 도 있으며, Image to Image 모델도 존재한다. 좀더 자연어 prompt 를 상황에 맞게 잘 이해하고 문장의 선, 후 관계도 고려하기 때문에 좀 더 정확하게 명령을 이해하고 이미지를 생성 해 준다. 특히 다국어 , 즉 영어 뿐 아니라 중국어, 일본어, 한국어 도 잘 이해하고 이미지를 생성한다.
예) A beautiful, elegant East Asian woman sitting barefoot on the floor, wearing a loose white button-down shirt and form-fitting blue jeans. She is holding a fine paintbrush in her right hand, poised to touch a palette of watercolors held in her left hand. Next to her is a white ceramic vase with a bouquet of realistic, pastel-colored flowers (roses, perhaps some greenery). The setting is a minimalist studio with a solid, neutral beige or light tan background, emphasizing soft, natural studio lighting. Highly detailed, photorealistic, cinematic light, 8k.
VAE : qwen_image_vae, qwen_image_layered_vae 등
항상 필요한 Checkpoint 를 다운로드 하여 사용 할 때는 반드시 필요한 Text Encorder 와 VAE 를 파악하여 함께 다운받아 사용하여야 한다.

3. 이미지 생성 Flow

Prompt 입력 : 예) a woman in a red dress, cinematic lighting
Text Encorder : 글을 숫자벡터로 변형 (Conditioning)
Conditioning : 그림의 설계도 또는 요구 조건

Encorder(CLIP) 를 입력하면 Text 가 숫자벡터로 변환하여 Conditioning 으로 출력한다.

보통 KSampler 에서 Conditioning 에 따라 Checkpoint Model 을 이용하여 그림을 생성한다. 이 그림은 잠재적 공간(latent) 에서 만들어 지기 때문에 실제로 우리가 눈으로 인식할 수있는 그림상태가 아니다. 그 이미지를 latent Image 라고 부른다.
VAE Decorder : latent Image 를 우리가 인식할 수 있는 그림으로 변환해 준다.
Image Save : 실제 이미지를 저장한다.

4. KSampler 구조분석

일반적인 KSampler 노드

입력 단자 :

Model : Checkpoint 모델을 입력해 준다.
positive : 긍정 prompt 를 Conditioning 으로 변환하여 입력한다.
negative : 부정 prompt 를 Conditioning 으로 변환하여 입력한다.
latent_Image : 잠재적 공간에서 사용할 latent image 를 입력한다. 이미지 생성은 latent image 를 이용하여 새로 그릴수도, 일부 수정을 할 수도 있다. 보통 새로 이미지 생성을 할 때는 빈 latent image 를 입력한다.

옵션 값 :

seed : 생성된 이미지의 고유 번호인데 모든 조건이 동일하고 seed 값이 동일하면 똑같은 이미지를 생성한다. 반대로 모든 조건이 동일한데 seed 값이 다르면 이미지도 다르다. 이 값은 random 으로 정하거나 고정값을 정하거나 할 수 있다.
steps : 이미지를 생성하는 단계를 나타낸다고 이해하고 steps 가 클 수록 좀 더 정교하고 고 품질의 이미지를 생성한다.
cfg : 이 값은 입력된 명령어(prompt) 를 어느 정도 따를 것인지 결정하는 값으로 높을수록 prompt 입력에 따라 이미지를 생성하고 0 이면 입력 prompt와 관계없이 모델 마음대로 이미지를 생성한다. 보통 3~7 값을 사용하는데 checkpoint 모델에 따라 1을 사용하는 경우도 있다.
sampler_name : 걍 쉽게 이미지 생성하는 방법으로 이해하자. 이것에 따라 이미지의 모양, 품질 등이 다르다. 다양한 sampler 가 존재하기 때문에 checkpoint 에 잘 어울리는 sampler 를 사용하여야 좋은 이미지를 얻을 수 있다. 만약 어떤 sampler 를 써야 할 지 잘 모르면 euler 를 쓰면 대충 잘 만들어 준다.
scheduler : steps 에 따라 이미지를 생성할 때 어느 부분에 더 이미지 생성을 분배할 지 다르다. 이것도 보통 sampler 와 연결하여 맞게 사용하는데 , 모르겠으면 걍 normal 또는 simple 을 사용하면 된다.
denoise : 입력된 latent image를 가지고 이것을 얼마만큼 수정하여 그릴지를 결정하는 값인데, 1이란 완전히 바꾼다는 의미이며, 0 이면 latent image 를 전혀 변경없이 한다는 의미이다. 따라서 새로운 이미지를 생성하기 위해서는 1 값을 사용하고, 이미지의 일부를 변경하고 싶으면 0.4~0.6 사이값에서 조절하여 사용하면 된다.

출력단자 :

LATENT : 생성된 latent image 를 출력한다.
latent image 는 우리가 실제로 인식할수있는 이미지가 아니기 때문에 이것을 VAE Decorder 를 통과하여 실제 이미지 얻는다.

Checkpoint ?

4. 이미지 생성의 유의사항

원하는 이미지에 맞는 Checkpoint 모델을 사용한다.
stable diffusion (sdxl) : 저 성능의 컴퓨터에서 빠르게 1024x1024 실사 이미지를 원할 경우 사용한다.
Pony 모델 : 애니 케릭터 이미지를 원할때 사용한다. 특히 NSFW 이미지는 거의 제한이 없는 모델이다.
Flux 모델 : 고품질의 인물이미지에 적합하다. 다만 모델 크기가 크기 때문에 컴퓨터 성능이 좋아야 한다.
QWEN : 고품질이면서 특히 동양적 이미지를 잘 생성해 주고, 한글 prompt 를 사용해도 잘 만들어 준다. 특히 QWEN-Image-Edit-2511 은 개인적으로 가장 이미지 수정을 잘해 준다.
반드시 Checkpoint 와 Text Encorder , VAE 는 짝을 맞추어 사용한다.
prompt 는 SDXL, Pony 모델은 단어 나열로 입력하고, Flux 및 QWEN 모델을 문장으로 자세히 표현하여 입력한다.
prompt 에 따라 checkpoint 별로 다른 이미지들이 생성되기 때문에 같은 prompt라도 서로 다른 checkpoint 를 사용하여 만들어 본다.
cfg 값, Samplder and scheduler 는 checkpoint 에 맞는것을 사용한다.
기본적으로 상기 내용대로 하면 꽤 쓸만한 이미지를 생성 할 수있다.

이미지 생성에 초보자 라면 반드시 위의 기본적인 내용을 이해하고 많은 이미지를 만들어 보시길 권한다.

좋은 prompt 가 좋은 Image 를 생성한다.

이미지 생성에 어느정도 자신이 있으면 여기서 더 원하는 이미지는 Lora, Controlnet, Upscale 을 추가하여 생성한다.

이 블로그 검색

Checkpoint, Text Encoder, VAE — 이미지 생성 AI의 3대 핵심 구조 정리

컴퓨터에서 이미지를 생성할 때 Checkpoint, Text Encorder, VAE 는 이미지 생성의 3대 핵심 구조이다.

1. 이미지 생성에 필요한 핵심구조 이해

2. 주요 Checkpoint 모델별 , Encorder, VAE 의 관계

3. 이미지 생성 Flow

4. KSampler 구조분석

4. 이미지 생성의 유의사항

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

Comfyui Wildcard 사용법 - Stable Diffusion , Flux 에서 쉽게 Random Prompt 로 이미지 만들기

Pinokio 앱 설치 - 오픈 소스 AI 플랫폼

이미지에서 프롬프트 추출하기 in Comfyui - QWEN3-VL