Hidream-O1 이미지생성 AI 모델에 대하여 사용해 본다.
HiDream-O1-Image는 HiDream.ai에서 공개한 오픈소스 기반의 차세대 이미지 생성 파운데이션 모델이다.
보통 기존 이미지 생성형 모델들은 생성모델(checkpoint), VAE, 텍스트 인코더(CLIP 등) 이 별도로 존재하여 사용했는데, 이 모델은 3가지 기능의 모델이 한 파일에 모두 합쳐져 되어있다.
![]() |
| Hidream-O1 |
1. 주요 특징
- 독보적인 텍스트 렌더링 (Text-on-Image): 이미지 내에 길거나 복잡한 문장, 다국어(영어·중국어 등) 텍스트를 왜곡 없이 정확하게 배치해 준다. 포스터 디자인이나 타이포그래피 작업에서 현존 오픈소스 모델 중 최상위권의 성능을 낸다.
- One Model, Many Tasks (하나의 모델, 다양한 작업) : 텍스트에서 이미지 생성 뿐 아니라 이미지 에서 이미지 편집도 가능한 통합된 모델이다.
- Reasoning-Driven Prompt Agent (추론 기반 프롬프트 에이전트) : 이미지를 그리기 전에 "어떤 구도로 배치하고, 글자는 어디에 넣어야 자연스러울지" 먼저 스스로 논리적으로 추론하고 계획을 세우는 단계를 거칩니다. 덕분에 사용자가 대충 말해도 찰떡같이 이해하고 정확한 결과물을 낸다.\
- Native High Resolution (네이티브 고해상도) : 업스케일 작업없이 2048x2048 이미지를 생성한다.
2. Hidream-O1 모델 설치 및 사용
이 모델을 최신 Comfyui 가 업데이트 되어 있다면 Workflow Template 에서 Hidream-O1 Full 을 선택하면 그곳에 모델과 text_encorder 를 바로 다운받을 수 있다.
- Hidream-O1 : ../comfyui/models/checkpoints 폴더에 설치
- gemma4_e4b_it_fp8_scaled : ../comfyui/models/clip 폴더에 설치
3. 텍스트에서 이미지 생성
- prompt : (masterpiece, best quality, ultra detailed, qwen style cinematic illustration), 1girl, solo, beautiful korean woman, Pixie Cut black hair,shaggy hair, sharp jawline, glossy red lips, confident expression, playing bass guitar, electric bass guitar with four strings, dynamic stage pose, leaning slightly backward, guitar strap across shoulder, fingers pressing fretboard naturally, bondage-inspired fashion outfit, stylish black leather jacket with metallic o-rings, fitted pencil skirt, garter stockings, sheer black pantyhose, leather bracelets, silver earrings, fashionable harness details, medium-size chest, elegant and edgy aesthetic, slim body, long legs, realistic anatomy, detailed hands, subtle skin highlights, red stiletto,minimal simple white background, soft studio lighting, faint shadow under feet, clean composition, modern fashion photoshoot atmosphere, high contrast, photorealistic textures, highly detailed leather material, realistic fabric folds, cinematic lighting, depth of field, sharp focus, 8k, HDR
- ksampler : euler_ancestral
- scheduler : simple
- steps : 28 (권장은 50 인데 28 스텝으로도 잘 생성 된다.)
- cfg : 5.0
- size : 1440 x 2560

결과 이미지 - 소요시간 : 66초 (4070ti 16G 기준)
4. 좀 더 복잡한 텍스트가 있는 포스터 이미지 생성
- prompt : An advertisement for XP Boost, a fictional energy drink brand. A vibrant, high-quality, professional marketing poster. The center features a young, energetic gamer sitting in a sleek, high-tech gaming chair, holding a glowing green gaming energy drink bottle. The atmosphere is futuristic with neon lighting in shades of electric green and deep purple. Bold, stylish typography at the top reads 'QUEUE ON' and 'POWER UP', with 'XP BOOST' prominently displayed at the bottom. The background is a dark, modern gaming room with abstract digital patterns and glowing circuits. The overall vibe is intense, exciting, and geared towards modern e-sports culture.
- 다른 조건 동일

다중 텍스트 이미지
5. 이미지 편집
6. 이미지1, 이미지2 이용한 편집
- prompt : The woman in Image_1 changes into the outfit in Image_2. the others are same.
- 원본이미지1 : 위의 원본이미지와 동일
- 원본이미지2 :

의상 이미지 
결과 이미지
7. 결론
텍스트를 이용하여 또는 이미지를 이용하여 몇개 생성해 보았는데 이미지 quality 나 프롬프트 인식력, 이미지 편집능력이 상당히 만족할 만 한 모델이다.
주로 QWEN-Image_Edit 모델을 사용해 왔었는데 이 모델도 그정도의 성능이 가능하다고 생각된다.



댓글
댓글 쓰기