FireRed-Image-edit이란? FireRed-Image-edit은 텍스트 기반의 지시어(Instruction)를 통해 이미지를 편집하는 최신 LMM (Large Multimodal Model) 기반 편집 모델이다. 기존 모델들이 복잡한 편집 명령을 수행할 때 이미지의 엉뚱한 부분을 바꾸거나 화질을 저하시키는 문제를 해결하기 위해 등장했다. 개인적으로 오픈소스 중에서 이미지 편집모델은 Qwen-Image-Edit-2511 이 가장 좋았다. 그런데 이번에 출시된 FireRed-Image-Edit -1.0 버전도 상당히 마음에 드는 이미지 편집모델이다. FireRed-Image-Edit-1.0 1. 주요 특징 정교한 지시어 이해: "배경의 사과를 오렌지로 바꿔줘"와 같은 구체적인 자연어 명령어를 정확히 수행한다. 내용 보존 ( Content Preservation ): 수정이 필요 없는 부분은 원본의 품질,질감, 조명, 구조를 그대로 유지하는 능력이 뛰어나다. 멀티모달 통합: 시각 정보와 텍스트 정보를 결합하여 맥락을 파악하는 능력이 강화되었다. 2. FireRed-Image-Edit 관련 모델 다운 FireRed-Image-Edit-1.0_fp8_e4m3fn : " https://huggingface.co/cocorang/FireRed-Image-Edit-1.0-FP8_And_BF16/tree/main " Text_Encoder : qwen_2.5_vl_7b_fp8_scaled 사용 VAE : qwen-image-vae 사용 Loras : 4steps 로 이미지를 생성하기 위하여 Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16 Lora 를 사용 2. Workflow QWEN-Image-Edit 용 workflow 를 그대로 사용하여도 됨. 아래 이미지를 그대로 다운로드하여 Comfyui 에 drop 하면 workflow를 그대로 사용가능합...
컴퓨터에서 이미지를 생성할 때 Checkpoint, Text Encorder, VAE 는 이미지 생성의 3대 핵심 구조이다. 이 3가지는 세트 개념으로 이해하고 항상 함께 사용할 때 정상적인 이미지가 생성되기 때문이다. 서로 다른 것들을 연결하여 사용하면 정상적인 이미지 생성을 기대하기 어렵다. Checkpoint + Encorder + VAE 1. 이미지 생성에 필요한 핵심구조 이해 Checkpoint 또는 Diffusion Model : 이미지를 실제로 만들어내는 핵심 모델로 이것에 의해 이미지 생성이 가능하다. Text Encorder : 글을 번역하는 번역기로 우리가 입력하는 Text(Prompt) 를 AI가 이해하는 언어(숫자 벡터)로 바꿔주는 번역기이다. 번역된 내용(Conditioning)으로 checkpoint 에서 이미지를 생성한다. VAE : 잠재적 공간(latent)으로의 변환을 해주는 변환기. 이미지를 생성할 때 우리가 인식가능한 이미지 상태로 이미지를 생성하는 것이 아닌 AI 가 이해하는 잠재적 공간에서 이미지를 생성하는데 그 생성된 잠재적인 이미지를 우리가 실제로 알아볼 수 있는 이미지로 바꿔주는 역할을 한다. VAE Encorder : 실제 이미지 -> latent image VAE Decorder : latent Image -> 실제 이미지 2. 주요 Checkpoint 모델별 , Encorder, VAE 의 관계 Stable Diffusion (SDXL), Pony 모델 Text Encorder: CLIP 사용 , 이 모델은 단어 단위의 text 를 변환 해 주기 때문에 이 모델을 이용하여 이미지를 생성 할 때는 Prompt 를 단어 단위로 나열하여 입력하는 것이 좋다. 예) masterpiece, best quality, highly detailed, 1girl, solo, bangs, long hair, slender body,...