기본 콘텐츠로 건너뛰기

Qwen-Image-2512 vs Z-Image-Turbo : 알리바바 오픈소스 이미지 생성AI

 Qwen-Image-2512 와 Z-Image-Turbo 모델은 모두 알리바바(Alibaba)에서 개발한 오픈소스 이미지 생성 모델 이다.


AI 분야에 있어서 중국의 기술력은 미국 다음으로, 우리나라와 비교해서 많이 앞서가고 있다.
어떤 부분의 AI 에 있어서는 미국을 능가하는 기술력을 갖추고 있다고 생각한다.
중국이라는 나라를 무조건 찬양하는 것도 안되지만 깔보고 혐오하는 것도 바람직하지 않다.
적어도 내가 판단하기에 AI 분야에 있어서는 중국으로 부터도 많은 것을 배워야 한다고 생각한다.
알리바바에서 출시된 두가지 모델을 로컬에서 사용해 본 결과  둘 다 모두 뛰어난 이미지 생성용 AI 모델이다.   stable diffusion 이나 Flux 보다 더 좋다고 느낀다.

Qwen-Image-2512-gguf

1.  Qwen-Image-2512 와 Z-Image-Turbo 비교

구분Qwen-Image-2512Z-Image-Turbo
모델 규모약 20B (MMDiT 구조)약 6B (S3-DiT 구조)
주요 강점압도적인 화질, 텍스트 렌더링, 정교한 묘사초고속 생성(1초 내외), 낮은 사양 요구
추론 단계보통 20~50 steps (LoRA 사용 시 4 steps)8~9 steps (기본 터보 모드)
VRAM 요구량높음 (FP8/GGUF 기준 20~30GB 권장)매우 낮음 (4GB VRAM에서도 실행 가능)
이미지 느낌시네마틱, 부드러운 색감, 풍부한 깊이감실사(Photorealistic), 높은 대비, 선명함

  • 내 컴퓨터 GPU 4070ti . 16G 에서 생성 속도는 대략 
    • Qwen-Image-2512-gguf : 60 초
    • Z-Image-Turbo : 10초

2. 두 모델을 이용한 이미지 생성

  • Z-Image-Turbo : Z-Image-Turbo  - 초고속 텍스트 to 이미지 생성 모델 참조
  • Qwen-Image-2512-gguf : 
    • 먼저 Comfyui 를 최신 버전으로 업데이트를 한다.
    • 구글에서 "Qwen-Image-2512-gguf" 를 검색하면 쉽게 다운 받은 곳을 찾을 수 있다.
    • " https://huggingface.co/unsloth/Qwen-Image-2512-GGUF/tree/main "
    • 해당 사이트에서 "qwen-image-2512-Q8_0.gguf" 21.8G 를 다운받아 Comfyui 하위 폴더에 설치한다.  모델의 크기가 21G 이상이지만 VRAM 16G 에서도 문제없이 사용할 수있다.
    • Comfyui 를 실행하여 좌측 메뉴에 Templates 를 누르면 Qwen 이미지 생성용 Workflow가 존재하기 때문에 그것을 사용하면 된다.
    • 다른 필요한 모델들 (Text Encode, VAE, Lora 등) 은 Workflow 에서 클릭하여 바로 다운로드가 가능하다.

3. Qwen-Image-2512-gguf 이미지 생성 테스트

    • Diffusion Model : Qwen-Image-2512-gguf
    • Loras : Qwen-Image-Lightning-4steps-V2.0 
    • Step : 4
    • cfg : 1
    • Sampler : euler-ancestral
    • Scheduler : beta
    • 이미지 size : 1536x1536
Qwen-Image-2511은 이미지 속에 글자를 정확하게 써넣는 능력
  • Prompt : A professional studio product shot of a sleek, matte black coffee bag standing upright. The brand name "AROMA 2511" is elegantly embossed in gold foil in the center of the bag. Below it, in smaller but clear white sans-serif text, it says "PURE ORIGIN". The bag is placed on a bed of roasted coffee beans, with soft cinematic top lighting and a blurred cafe background.
  •  
    커피봉투에 새겨진 text
    Text 의 글씨체와 색상, 선명도가 마치 직접 포토샵을 이용하여 만든 이미지 처럼 보인다.
여러 인물이나 사물이 복잡하게 얽혀 있는 상황
  • Prompt : A split-screen composition. On the left side, a medieval knight in silver armor is drinking a cup of iced coffee. On the right side, a futuristic astronaut is reading an ancient leather-bound book. Both are sitting at the same wooden table that spans across the split. High detail, 8k resolution.

  • 좌 : 중세기사, 우 : 우주인
    분할된 화면으로 프롬프트를 했을때 완성된 결과 상당히 프롬프트의 해독력이 높다.
피부 질감, 금속의 반사, 미세한 입자 표현 능력
  • Prompt : Macro photography of a futuristic mechanical watch. The internal gears are made of translucent blue glass and gold. Tiny droplets of water are condensed on the watch face. The lighting is dramatic, coming from the side to highlight the metallic textures and the refraction through the glass.

  • 시계 접사촬영 이미지
    접사 촬영했을 때의 상세한 이미지 표현이 뛰어나다.
추상적인 개념을 시각화하는 능력
  • Prompt : A surreal oil painting in the style of Salvador Dalí. A giant melting clock is draped over the branch of a cherry blossom tree. Instead of numbers, the clock face has glowing stars. Petals are falling into a sea made of liquid silver. Dreamy and melancholic atmosphere.

  • 초현실주의 의 시각화 
    살바도르 달리풍의 초현실주의 유화 작품을 예술적으로 잘 만들어 주었다.
중국어 프롬프트 사용하여 테스트
  • Prompt :   初音未来,以蹲姿做大幅度夸张防御动作,表情冷静,头发被狂风吹得超级凌乱,长发及腰,有洁白如雪干净无暇的皮肤,佩戴银色金属质感的繁复华丽苗族银饰,身着金红流体服饰,周围有无数透明水质感螺旋线条,背后是干净简洁的纯色背景,超现实人像绘画,特写,低角度强镜头畸变,镜头炫光,赛博风、未来感、意识流、科幻风格,朦胧、圣洁、神圣、丧、压抑、压迫感氛围,银色金属质感、低饱和、梦幻感、玻璃质感、瓷制感、高级、朦胧美、磨砂肌理、笔触感、肌理感写实、野兽派、弥散渐变、扭曲感、自然动态、充满张力的构图,注重人物能力的特效和粒子效果,透视感强烈,灰色红色配色,真实电影概念图,4k,高清晰,Illustration, Digital Art, Soft lighting
  • 중국어 프롬프트
    알리바바가 중국 기업이기 때문에 중국어 프롬프트로도 이미지를 매우 잘 만들어 내다.
한글 프롬프트를 사용하여 이미지 생성
  • Prompt : 아름다운 한국 여성이 사우나 실에서 나무 선반에 앉아 , 사우나를 즐기고 있다. 여성의 맨발까지 모두 원 거리 촬영한 것이다. 머리에는 흰색 얇은 수건을 두르고,  가슴부터 골반까지 얇은 수건으로 두르고 있다. 얼굴과 피부에는 땀방울이 송송 맺혀있다. 고개를 뒤로 살며시 젖치고 눈을 감으며 편안하게 휴식을 하고 있다. 은은한 파스텔톤 오렌지 불빛이 사우나 실에 퍼져 있다.   

  • 한글 프롬프트
    한글도 상당히 해독력이 좋다.

4. Qwen-Image-2512 모델 사용 결론

    나노바나나, chatGPT 를 이용하여 이미지 생성도 해 보았지만,  그래도 로컬에서 내 마음대로 만든 이미지가 나에게는 가장 마음에 든다.   고 퀄리티의 이미지를 이렇게 생성 할 수있기 때문에 개인적으로 로컬에서 Comfyui 를 이용하여 이미지를 생성하기를 적극 권장한다.
만약 이 모델과 Qwen-Image-Edit-2511 모델중 선택한다면 Qwen-Image-Edit-2511 모델을 선택하여 사용한다.  이미지 편집모델이지만 이미지 생성시에도 전혀 문제없이 잘 만들어준다.
다만, Qwen 모델들은 NSFW 이미지 생성은 막혀있기 때문에 Uncensored 이미지를 원한다면 다른 모델(예를들어 Pont 모델)을 찾아 사용하면 된다.



댓글

이 블로그의 인기 게시물

Comfyui Wildcard 사용법 - Stable Diffusion , Flux 에서 쉽게 Random Prompt 로 이미지 만들기

 Comfyui Wildcard 사용법에 대하여 알아본다. Comfyui 로 Stable Diffusion 또는 Flux 로 이미지를 만들 때 Prompt 가 이미지를 결정하는데 매우 중요한 역할을 한다.  영어가 모국어가 아닌 이상 영어로 prompt 를 만드는 것이 참 어려운 일이다. 물론 처음에는 많은 다른 사람들이 사용한 prompt 들을 모방하여 수정하고 사용하는데 이런 일을 하나하나 해 보기가 시간이 많이 걸리고 어렵다.   그래서 Random 으로 prompt 가 만들어 져서 이미지가 생성되고 그 이미지 중에서 마음에 드는 이미지들을 골라 그 이미지의 Prompt들 만을 가지고 보완하고 개선하면 더 편리하고 좋지 않을까 생각이 든다.  그런 식의 Random Prompt 생성이 가능하게 해주는 것이 wildcard 사용이다. Joker는 card game에서 wildcard 이다. 1. Wildcard 의 의미      와일드 카드(Wildcard)란 카드 게임에서 유래되었다.  이런 카드 게임에서 모든 카드의 대용으로 쓸 수 있는 비장의 카드를 와일드 카드라고 한다. 포커나 훌라를 할 때 조커가 이런 역할을 하는데 ,  이 의미가 컴퓨터와 스포츠로 확장되어 사용되는 것이다. 컴퓨터 용어로 쓰일 때는 한 디렉터리 내에 여러 파일이 존재하거나, 파일 이름의 뒷부분을 정확히 알지 못하는 경우에도 사용할 수 있는 명령어를 말합니다. '*'을 넣으면 빠진 것에 어떤 문자열이 있든지 대신할 수 있고,  '?'는 임의의 한 문자에만  대응한다. Comfyui 에서 wildcard 사용은 "--문자열--"  이런 식으로 wildcard 사용 가능한 노드에 prompt 를 입력해 주면 그 노드는 "문자열" 에  해당되는 파일을 찾아 그 파일 내용 중에서 임의의 일부분을 prompt 로 대체해 준다. 2. Wildcard 사...

Pinokio 앱 설치 - 오픈 소스 AI 플랫폼

  Pinokio 는 오픈 소스 AI 플랫폼이다. 로컬에서 AI 애플리케이션을 쉽게 설치하고 실행할 수 있게 도와주는 오픈 소스 AI 플랫폼이다. 이 플랫폼은 사용자가 복잡한 설치 과정 없이 클릭 한 번으로 AI 도구들을 설치할 수 있도록 설계되어 있다. 이를 통해 기술적인 배경 지식이 없는 초보자나 비전문가들도 쉽게 AI 애플리케이션을 사용할 수 있다.   이미 설치되어 있는 애플리케이션이 있어도 별도의 독립된 공간에서 문제없이 사용할 수 있게 해준다.   우리가 stable diffusion 을 comfyui 에서 사용하기 위해서는 "Python", "git ....", "conda"  뭔지 모르지만 설치해야 하는데 pinokio 브라우저에서 원 클릭으로 알아서 설치를 해주기 때문에  컴맹인 일반인도 쉽게 설치하고 사용 할 수 있다. pinokio.computer 1. Pinokio 주요 기능 원클릭 설치 : 복잡한 환경 설정이나 명령어 입력 없이도 다양한 AI 모델을 한 번의 클릭으로 설치할 수 있다. 예를 들어, Comfyui 나 Flux 같은 AI 도구들을 손쉽게 설치할 수 있다. 다양한 AI 애플리케이션 제공 : Pinokio는 다양한 오픈 소스 AI 애플리케이션을 제공하는 허브 역할을 하며, Pinokio 브라우저 나 홈페이지에서 쉽게 찾아 설치할 수 있다. 브라우저 기반 인터페이스 : 모든 설치된 애플리케이션은 Pinokio 웹 브라우저에서 관리할 수 있어, 친숙한 인터페이스로 쉽게 사용이 가능하다. 독립적인 가상 컴퓨터 : Pinokio는 백엔드 작업을 자동으로 처리하여, 애플리케이션이 로컬에서 실행되는 동안 인터넷에 연결되어 있지 않아도 된다. 2. Pinokio 설치 구글에서 pinokio 를 검색하여 " pinokio.computer " 를 클릭 Download 클릭 다운로드 된 pinokio 압축 파일을  푼다. pinokio 설치파일을 실행하여 설치 설치과정은 복...

Flux Lora 제작 - Local 에서 Fluxgym 을 이용하여 자체 Lora 만들기

 Flux Lora 는 일관된 이미지를 만드는데 꼭 필요하다. 특히 일관된 얼굴의 이미지를 만드는데 있어서 다른 기능들 (ipadapter , controlnet, imgtoimg 등) 을 이용하는 것 보다 훨씬 일정한 캐릭터를 생성하게 해준다.  문제는 이런 Lora는 주로 CIVITAI , Tensor, Hugging face 등 사이트에서 다운 받아 사용하면 되지만  그것은 나만의 독특한 캐릭터가 아니고 나의 취향과 일치 되기가 어려워서 Lora를 구하기가 어렵다.  아니면 그런 사이트 내에서 자체 Lora를 제작하면 되는데 모두 비용이 필요하다. 여기 소개하는 Fluxgym AI 는 Local 컴퓨터에서 VRAM 12G 이상이면 자체 Lora를 만들 수 있게 해준다.   소요되는 시간도 생각보다 많이 걸리지 않는다.   이제 설치하고 자체 Lora를 한번 만들어 보자. Fluxgym 으로 만든 Lora 대표이미지 1. fluxgym 설치 pinokio 앱을 실행한다. ( pinokio 앱 설치 참조 ) 우측 상단 맨 처음 아이콘 (discover) 클릭 fluxgym 을 찾아서 클릭 fluxgym 이것을 클릭하면 된다. 여러가지 파일들을 설치하기 때문에 시간이 좀 소요될 것이다. 모든 설치가 끝나면 pinokio 브라우저 하단 부분에 fluxgym 메뉴가 추가된다. fluxgym 나중에 불필요하면 삭제(쓰레기통 아이콘 클릭) 하면 모두 unintall 된다. 2. fluxgym 실행 항상 pinokio 앱을 실행하여 pinokio 브라우저에서 fluxgym 을 클릭하면 된다. flux화면3-1 -. 1번항 : 여기에 입력한 대로 fluxgym/outputs/ 의 하위 폴더를 만들어 준다. -. 2번항 : Lora를 작동시키는 trigger word 를 입력한다. (예,  hart_style_a......) -. 3번항 : 자신의 가능한 VRAM 선택 : 나는 12 G 선택 ...