기본 콘텐츠로 건너뛰기

2월, 2026의 게시물 표시

막강한 이미지 편집모델 - FireRed-Image-Edit-1.0

 FireRed-Image-edit이란? FireRed-Image-edit은 텍스트 기반의 지시어(Instruction)를 통해 이미지를 편집하는 최신 LMM (Large Multimodal Model) 기반 편집 모델이다. 기존 모델들이 복잡한 편집 명령을 수행할 때 이미지의 엉뚱한 부분을 바꾸거나 화질을 저하시키는 문제를 해결하기 위해 등장했다. 개인적으로 오픈소스 중에서 이미지 편집모델은 Qwen-Image-Edit-2511 이 가장 좋았다. 그런데 이번에 출시된 FireRed-Image-Edit -1.0 버전도  상당히 마음에 드는 이미지 편집모델이다. FireRed-Image-Edit-1.0 1. 주요 특징 정교한 지시어 이해: "배경의 사과를 오렌지로 바꿔줘"와 같은 구체적인 자연어 명령어를 정확히 수행한다. 내용 보존 ( Content Preservation ): 수정이 필요 없는 부분은 원본의 품질,질감, 조명, 구조를 그대로 유지하는 능력이 뛰어나다. 멀티모달 통합: 시각 정보와 텍스트 정보를 결합하여 맥락을 파악하는 능력이 강화되었다. 2. FireRed-Image-Edit 관련 모델 다운 FireRed-Image-Edit-1.0_fp8_e4m3fn : " https://huggingface.co/cocorang/FireRed-Image-Edit-1.0-FP8_And_BF16/tree/main " Text_Encoder :  qwen_2.5_vl_7b_fp8_scaled 사용 VAE : qwen-image-vae 사용 Loras : 4steps 로 이미지를 생성하기 위하여 Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16 Lora 를 사용 2. Workflow     QWEN-Image-Edit 용 workflow 를 그대로 사용하여도 됨. 아래 이미지를 그대로 다운로드하여 Comfyui 에 drop 하면 workflow를 그대로 사용가능합...

Checkpoint, Text Encoder, VAE — 이미지 생성 AI의 3대 핵심 구조 정리

 컴퓨터에서 이미지를 생성할 때 Checkpoint, Text Encorder, VAE 는 이미지 생성의 3대 핵심 구조이다. 이 3가지는 세트 개념으로 이해하고 항상 함께 사용할 때 정상적인 이미지가 생성되기 때문이다. 서로 다른 것들을 연결하여 사용하면 정상적인 이미지 생성을 기대하기 어렵다. Checkpoint + Encorder + VAE 1. 이미지 생성에 필요한 핵심구조 이해 Checkpoint 또는  Diffusion Model : 이미지를 실제로 만들어내는 핵심 모델로 이것에 의해 이미지 생성이 가능하다. Text Encorder : 글을 번역하는 번역기로 우리가 입력하는 Text(Prompt) 를 AI가 이해하는 언어(숫자 벡터)로 바꿔주는 번역기이다.  번역된 내용(Conditioning)으로 checkpoint 에서 이미지를 생성한다. VAE : 잠재적 공간(latent)으로의 변환을 해주는 변환기.  이미지를 생성할 때 우리가 인식가능한 이미지 상태로 이미지를 생성하는 것이 아닌 AI 가 이해하는 잠재적 공간에서 이미지를 생성하는데 그 생성된 잠재적인 이미지를 우리가 실제로 알아볼 수 있는 이미지로 바꿔주는 역할을 한다.  VAE Encorder : 실제 이미지 -> latent image VAE Decorder : latent Image -> 실제 이미지 2. 주요 Checkpoint 모델별 , Encorder, VAE 의 관계 Stable Diffusion (SDXL), Pony 모델 Text Encorder: CLIP 사용 , 이 모델은 단어 단위의 text 를 변환 해 주기 때문에 이 모델을 이용하여 이미지를 생성 할 때는 Prompt 를 단어 단위로 나열하여 입력하는 것이 좋다. 예) masterpiece, best quality, highly detailed, 1girl, solo,  bangs, long hair, slender body,...

왕 초보의 내 컴퓨터에서 이미지 생성하기 - comfyui 설치 및 이미지 생성 기초

 AI를 이용하여 이미지를 생성하는 방법은 온라인에서 생성하는 법 또는 내 컴퓨터에서 마음대로 생성하는 방법이 있다.  온라인으로 생성하는 방법은 chatGPT 나 GEMINI 와 같은 AI 서비스 플랫폼에 가입하여 쉽게 만들 수 있는데, 여기서는 내 컴퓨터에서 내 마음대로 오픈 AI 를 이용하여 생성하는 방법을 설명한다. 이미지를 생성하기 위하여 필요한 것은  이미지 생성 UI 가 필요한데 그것을 먼저 설치하고 필요한 AI 모델을 다운 받아 실제로 이미지 생성을 해 본다. Comfyui 설치.  Qwen 모델로 생성 1. 이미지 생성용 UI ComfyUI  :  가장 많이 쓰이는 고급형 UI 노드 기반 워크플로우 복잡하지만 제어력 최강 SDXL , ControlNet, LoRA, AnimateDiff , Flux, QWEN 등 전부 잘 지원 AUTOMATIC1111 ( Stable Diffusion WebUI ) :  가장 대중적인 UI 웹 브라우저 기반 UI 설치 후 바로 사용하기 쉬움 확장(Extensions) 매우 많음 Fooocus :  초보자 친화형 설정을 거의 안 건드려도 됨 Midjourney 스타일 워크플로우 자동 최적화 중심 본인도 맨처음에 AUTOMATIC1111 을 쓰다고 Comfyui 로 교체하여 지금까지 계속 사용 중이다. 물론 Fooocus 도 사용해 보았지만 ,  개인적으로 추천한다면 무조건 처음부터 Comfyui 를 사용하여 이미지를 생성하기를 권한다. 그래서 여기서는 Comfyui 를 설치하고 이미지 생성을 하는 방법을 설명한다. 2. Comfyui 설치 다운로드 : " https://github.com/Comfy-Org/ComfyUI?tab=readme-ov-file#installing " 에 접속하여 압축파일을 다운로드 접속화면 접속화면에서 " Direct Link to downl...

Z Image Base 모델 이 뭐지?

 이번에는 Z-Image-Base 모델이 출시 되었는데...... 기존에 Z-image-Turbo 모델이 나와서 제법 간단하고 빠르고 유용하게 사용하기 좋았는데 이번에 Base 모델이 출시 된 것이다. 뭔가 출시 순서가 뒤집어진 느낌이 든다.   왜 이렇게 출시를 한것인지? 우선 2 가지 모델을 비교해 보고 Z-Image-Base 에 대하여 알아보자. Z-Image-base 로 생성 1. Z-Image-Base vs Turbo CFG : 프롬프트를 얼마만큼 적용하는가 하는 비중치 Base : CFG 를 4정도로 해서 조절가능 Turbo : 보통 1로 하는데 조정이 안되고 모델이 알아서 결정한다. Steps : 생성 steps Base : 28 ~ 50 까지 steps 이 높을 수록 세밀하게 프롬프트에 맞추어 생성 Turbo : 8 steps 로 빠르게 생성 Fintunablity : 미세조정 가능성 Base : Training 이나 Lora 학습이 가능 Turbo : 개조가 어려움 Negative Prompting : 부정프롬프트 Base : 부정프롬프트를 입력하면 반응을 잘하여 제거하여 생성한다. Turbo : 부정 프롬프트가 별로 효과가 없다. Diversity : Seed 값에 따른 다양성 Base : 구도, 얼굴, 조명등이 다양하게 바뀐다. Turbo : 항상 비슷한 이미지를 생성 Visual Quality : 이미지 품질 Base : High 상당히 조건을 잘 적용하여 생성하여야 한다. Turbo : Very High 대충 돌려도 잘 나온다. 이런 비교 결과 보면 왜  Base 모델을 출시했지?  하는 의문점이 생긴다. 2. Z-Image-Base 모델 특징 Undistilled Foundation : 원본 그대로인 기본 모델이다.  압축도 없고 학습자료 그대로이며 프롬프트를 정교하게 입력하여야 한다.  Aesthetic Versatility : 다양하게 실사 뿐 아니라 디지털 아트,...