기본 콘텐츠로 건너뛰기

Featured Post

막강한 이미지 편집모델 - FireRed-Image-Edit-1.0

 FireRed-Image-edit이란? FireRed-Image-edit은 텍스트 기반의 지시어(Instruction)를 통해 이미지를 편집하는 최신 LMM (Large Multimodal Model) 기반 편집 모델이다. 기존 모델들이 복잡한 편집 명령을 수행할 때 이미지의 엉뚱한 부분을 바꾸거나 화질을 저하시키는 문제를 해결하기 위해 등장했다. 개인적으로 오픈소스 중에서 이미지 편집모델은 Qwen-Image-Edit-2511 이 가장 좋았다. 그런데 이번에 출시된 FireRed-Image-Edit -1.0 버전도  상당히 마음에 드는 이미지 편집모델이다. FireRed-Image-Edit-1.0 1. 주요 특징 정교한 지시어 이해: "배경의 사과를 오렌지로 바꿔줘"와 같은 구체적인 자연어 명령어를 정확히 수행한다. 내용 보존 ( Content Preservation ): 수정이 필요 없는 부분은 원본의 품질,질감, 조명, 구조를 그대로 유지하는 능력이 뛰어나다. 멀티모달 통합: 시각 정보와 텍스트 정보를 결합하여 맥락을 파악하는 능력이 강화되었다. 2. FireRed-Image-Edit 관련 모델 다운 FireRed-Image-Edit-1.0_fp8_e4m3fn : " https://huggingface.co/cocorang/FireRed-Image-Edit-1.0-FP8_And_BF16/tree/main " Text_Encoder :  qwen_2.5_vl_7b_fp8_scaled 사용 VAE : qwen-image-vae 사용 Loras : 4steps 로 이미지를 생성하기 위하여 Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16 Lora 를 사용 2. Workflow     QWEN-Image-Edit 용 workflow 를 그대로 사용하여도 됨. 아래 이미지를 그대로 다운로드하여 Comfyui 에 drop 하면 workflow를 그대로 사용가능합...
최근 글

Checkpoint, Text Encoder, VAE — 이미지 생성 AI의 3대 핵심 구조 정리

 컴퓨터에서 이미지를 생성할 때 Checkpoint, Text Encorder, VAE 는 이미지 생성의 3대 핵심 구조이다. 이 3가지는 세트 개념으로 이해하고 항상 함께 사용할 때 정상적인 이미지가 생성되기 때문이다. 서로 다른 것들을 연결하여 사용하면 정상적인 이미지 생성을 기대하기 어렵다. Checkpoint + Encorder + VAE 1. 이미지 생성에 필요한 핵심구조 이해 Checkpoint 또는  Diffusion Model : 이미지를 실제로 만들어내는 핵심 모델로 이것에 의해 이미지 생성이 가능하다. Text Encorder : 글을 번역하는 번역기로 우리가 입력하는 Text(Prompt) 를 AI가 이해하는 언어(숫자 벡터)로 바꿔주는 번역기이다.  번역된 내용(Conditioning)으로 checkpoint 에서 이미지를 생성한다. VAE : 잠재적 공간(latent)으로의 변환을 해주는 변환기.  이미지를 생성할 때 우리가 인식가능한 이미지 상태로 이미지를 생성하는 것이 아닌 AI 가 이해하는 잠재적 공간에서 이미지를 생성하는데 그 생성된 잠재적인 이미지를 우리가 실제로 알아볼 수 있는 이미지로 바꿔주는 역할을 한다.  VAE Encorder : 실제 이미지 -> latent image VAE Decorder : latent Image -> 실제 이미지 2. 주요 Checkpoint 모델별 , Encorder, VAE 의 관계 Stable Diffusion (SDXL), Pony 모델 Text Encorder: CLIP 사용 , 이 모델은 단어 단위의 text 를 변환 해 주기 때문에 이 모델을 이용하여 이미지를 생성 할 때는 Prompt 를 단어 단위로 나열하여 입력하는 것이 좋다. 예) masterpiece, best quality, highly detailed, 1girl, solo,  bangs, long hair, slender body,...

왕 초보의 내 컴퓨터에서 이미지 생성하기 - comfyui 설치 및 이미지 생성 기초

 AI를 이용하여 이미지를 생성하는 방법은 온라인에서 생성하는 법 또는 내 컴퓨터에서 마음대로 생성하는 방법이 있다.  온라인으로 생성하는 방법은 chatGPT 나 GEMINI 와 같은 AI 서비스 플랫폼에 가입하여 쉽게 만들 수 있는데, 여기서는 내 컴퓨터에서 내 마음대로 오픈 AI 를 이용하여 생성하는 방법을 설명한다. 이미지를 생성하기 위하여 필요한 것은  이미지 생성 UI 가 필요한데 그것을 먼저 설치하고 필요한 AI 모델을 다운 받아 실제로 이미지 생성을 해 본다. Comfyui 설치.  Qwen 모델로 생성 1. 이미지 생성용 UI ComfyUI  :  가장 많이 쓰이는 고급형 UI 노드 기반 워크플로우 복잡하지만 제어력 최강 SDXL , ControlNet, LoRA, AnimateDiff , Flux, QWEN 등 전부 잘 지원 AUTOMATIC1111 ( Stable Diffusion WebUI ) :  가장 대중적인 UI 웹 브라우저 기반 UI 설치 후 바로 사용하기 쉬움 확장(Extensions) 매우 많음 Fooocus :  초보자 친화형 설정을 거의 안 건드려도 됨 Midjourney 스타일 워크플로우 자동 최적화 중심 본인도 맨처음에 AUTOMATIC1111 을 쓰다고 Comfyui 로 교체하여 지금까지 계속 사용 중이다. 물론 Fooocus 도 사용해 보았지만 ,  개인적으로 추천한다면 무조건 처음부터 Comfyui 를 사용하여 이미지를 생성하기를 권한다. 그래서 여기서는 Comfyui 를 설치하고 이미지 생성을 하는 방법을 설명한다. 2. Comfyui 설치 다운로드 : " https://github.com/Comfy-Org/ComfyUI?tab=readme-ov-file#installing " 에 접속하여 압축파일을 다운로드 접속화면 접속화면에서 " Direct Link to downl...

Z Image Base 모델 이 뭐지?

 이번에는 Z-Image-Base 모델이 출시 되었는데...... 기존에 Z-image-Turbo 모델이 나와서 제법 간단하고 빠르고 유용하게 사용하기 좋았는데 이번에 Base 모델이 출시 된 것이다. 뭔가 출시 순서가 뒤집어진 느낌이 든다.   왜 이렇게 출시를 한것인지? 우선 2 가지 모델을 비교해 보고 Z-Image-Base 에 대하여 알아보자. Z-Image-base 로 생성 1. Z-Image-Base vs Turbo CFG : 프롬프트를 얼마만큼 적용하는가 하는 비중치 Base : CFG 를 4정도로 해서 조절가능 Turbo : 보통 1로 하는데 조정이 안되고 모델이 알아서 결정한다. Steps : 생성 steps Base : 28 ~ 50 까지 steps 이 높을 수록 세밀하게 프롬프트에 맞추어 생성 Turbo : 8 steps 로 빠르게 생성 Fintunablity : 미세조정 가능성 Base : Training 이나 Lora 학습이 가능 Turbo : 개조가 어려움 Negative Prompting : 부정프롬프트 Base : 부정프롬프트를 입력하면 반응을 잘하여 제거하여 생성한다. Turbo : 부정 프롬프트가 별로 효과가 없다. Diversity : Seed 값에 따른 다양성 Base : 구도, 얼굴, 조명등이 다양하게 바뀐다. Turbo : 항상 비슷한 이미지를 생성 Visual Quality : 이미지 품질 Base : High 상당히 조건을 잘 적용하여 생성하여야 한다. Turbo : Very High 대충 돌려도 잘 나온다. 이런 비교 결과 보면 왜  Base 모델을 출시했지?  하는 의문점이 생긴다. 2. Z-Image-Base 모델 특징 Undistilled Foundation : 원본 그대로인 기본 모델이다.  압축도 없고 학습자료 그대로이며 프롬프트를 정교하게 입력하여야 한다.  Aesthetic Versatility : 다양하게 실사 뿐 아니라 디지털 아트,...

FLUX.2-Klein 모델 : 오픈소스 이미지 편집 모델

 FLUX.2-Klein 모델 은 Black Forest Labs 사에서 만든  오픈소스 이미지 편집 모델이다. Flux1 에서도 이미지 편집 모델이 있었다.  Flux-Kontext 모델이 였는데,  이번에 Flux2 에서도 Flux2-Klein 모델이 출시되었다. 이번 포스팅에서는 이 모델을 사용해보고 특징을 알아보고자 한다. 참고로 Qwen-Image 편집모델은 아래 포스팅을 참조하기를 바란다. (  막강한 이미지 편집 모델 - QWEN-Image-Edit-2511  )  Flux2-klein 모델로 텍스트를 편집한 이미지 1. Flux2-Klein 의 특징 뛰어난 품질로 1초 미만의 이미지 생성을 위한 간소화된 모델. flux-2-klein-9b-fp8 : 9.4G flux-2-klein-base-4b-fp8 : 4.0G flux-2-klein-distilled-4b-fp8 : 3.8G base-4b 모델을 사용결과 대략 30steps 에 55초 정도 소요 (그래픽카드 4070ti, 16G 일때) 이다.  distilled-4b 모델은 10초 소요, 1초라는 것은  5090 이상에서 distilled 버전을 사용 (4 steps) 했을 경우이다.  이 모델은 Qwen 보다는 크기가 작다. 텍스트-이미지 및 이미지-이미지 다중 참조 편집을 하나의 통합 모델로 제공합니다.  프롬프트의 가독성이 뛰어나다. 영어 뿐만 아니라 한글 프롬프트도 인식하여 생성한다. Text 는 정확하게 잘 써진다. 다만 영어 만......  2. Flux2-klein-base-4b 사용방법     여기서는 Comfyui 를 이용하여 사용하는 방법이다. 모델 다운로드 설치 : Comfyui 홈페이지에 ( https://docs.comfy.org/tutorials/flux/flux-2-klein ) 에 가면 Flux2-klein-base-4b 뿐 만 ...

Qwen-Image-2512 vs Z-Image-Turbo : 알리바바 오픈소스 이미지 생성AI

 Qwen-Image-2512 와 Z-Image-Turbo 모델은 모두 알리바바(Alibaba)에서 개발한 오픈소스 이미지 생성 모델 이다. AI 분야에 있어서 중국의 기술력은 미국 다음으로, 우리나라와 비교해서 많이 앞서가고 있다. 어떤 부분의 AI 에 있어서는 미국을 능가하는 기술력을 갖추고 있다고 생각한다. 중국이라는 나라를 무조건 찬양하는 것도 안되지만 깔보고 혐오하는 것도 바람직하지 않다. 적어도 내가 판단하기에 AI 분야에 있어서는 중국으로 부터도 많은 것을 배워야 한다고 생각한다. 알리바바에서 출시된 두가지 모델을 로컬에서 사용해 본 결과  둘 다 모두 뛰어난 이미지 생성용 AI 모델이다.    stable diffusion 이나 Flux 보다 더 좋다고 느낀다. Qwen-Image-2512-gguf 1.  Qwen-Image-2512 와 Z-Image-Turbo 비교 구분 Qwen-Image-2512 Z-Image-Turbo 모델 규모 약 20B (MMDiT 구조) 약 6B (S3-DiT 구조) 주요 강점 압도적인 화질, 텍스트 렌더링, 정교한 묘사 초고속 생성(1초 내외), 낮은 사양 요구 추론 단계 보통 20~50 steps (LoRA 사용 시 4 steps) 8~9 steps (기본 터보 모드) VRAM 요구량 높음 (FP8/GGUF 기준 20~30GB 권장) 매우 낮음 (4GB VRAM에서도 실행 가능) 이미지 느낌 시네마틱, 부드러운 색감, 풍부한 깊이감 실사(Photorealistic), 높은 대비, 선명함 내 컴퓨터 GPU 4070ti . 16G 에서 생성 속도는 대략  Qwen-Image-2512-gguf : 60 초 Z-Image-Turbo : 10초 2. 두 모델을 이용한 이미지 생성 Z-Image-Turbo :  Z-Image-Turbo  - 초고속 텍스트 to 이미지 생성 모델  참조 Qwen-Image-2512-gguf :  먼저 ...