늦깎이 공대생의 인공지능 연구실
AI로 추상화 그리기: DALL-E 2 vs Midjourney vs StableDiffusion 본문
2022년 들어 텍스트로부터 이미지를 생성하는 기술들이 소개되고 있습니다. AI가 그려내는 그림들은 흡사 인간 화가의 위상을 위협할 정도로 발전하였습니다. 이는 DALL-E 2부터 시작되어 Midjourney와 StableDiffusion 등 이미지를 그려내는 알고리즘들의 등장으로부터 알 수 있습니다.
앞에서 소개해드린 Midjourney, DALL-E 2, Stable Diffusion 중 어떤 것이 가장 좋은 text-to-image 생성 모델일까요? DALL-E의 2세대인 DALL-E 2는 바로 전에 나왔던 DALL-E보다 더 작지만, 틀림 없이 더 나은 성능을 보이고 있습니다. DALL-E 2는 거의 모든 이미지들을 생성하는데, unCLIF 방식을 사용하여 사람들이 표현하기 조차 어려웠던 이미지를 만들 수 있을 만큼 정교한 방법을 사용합니다. 그러나 DALL-E 2 또한 한계가 있습니다.
DALL-E 2는 소스코드가 공개되어 있지 않았는데, 아마도 이를 공개한 OpenAI에서 그렇게 결정한 이유가 있는 것으로 보입니다만, 시장은 text-to-image 생성기(Stable Diffusion)와 같은 오픈소스 모델이 증가할 것으로 보고 있습니다. 마치 오픈소스 옹호자들에 의해 GPT-Neo가 출시되었을 때의 GPT-3와 같은 케이스라고 보시면 되겠습니다.
그런데 이는 또한 OpenAI의 오픈소스인 CLIF때문에 가능한 것인데, CLIF는 DALL-E와 간접적으로 관계가 있습니다. 이는 CLIP가 DALL-E 2의 기반이라 할 수 있으며, Midjourney와 Stable Diffusion 같은 플래폼이 오늘날 존재할 수 있는 근본적인 이유 중 하나입니다.
왜냐하면 DALL-E 2는 수백만 장의 스톡이미지로 학습되었기 때문에, 생성되는 결과물은 더욱 정교하고 상업용으로 사용하기에 가장 적합합니다. Stable Diffusion을 만든 Emad Mostaque에 따르면, 인페인팅은 DALL-E 2의 가장 큰 특징인데, 이는 다른 이미지 생성기와는 거리가 있습니다. 또한, DALL-E 2는 2글자 이상이면 더욱 좋은 이미지를 생성합니다. Midjourney 혹은 Stable Diffusion에 비하면 말이지요.
반면, Midjourney는 예술적인 스타일로 잘 알려진 모델입니다. 이 모델이 생성하는 이미지는 거의 사진처럼 보이지 않고, 그림처럼 보입니다. 몇몇 예술가들은 결과물을 보고 미술학을 전공한 학생의 작품으로 생각하는 경우도 있어보입니다. "Midjourney는 자신만의 스타일을 가진 학생이라고 생각합니다. 그리고 여러분이 이미지를 만들기 위해 제 이름을 부를 때, 이는 마치 그 학생에게 제 예술에서 영감을 받은 무언가를 만들어 달라고 요청하는 것 같이 보입니다." 라고 한 예술가는 말합니다.
Midjourney는 디스코드봇을 사용하여 AI 서버로 호출을 주고받으며, 거의 모든 일이 디스코드에서 발생합니다. Midjourney는 또한 100만 명 이상의 사람들이 활동하는 커뮤니티를 가지고 있는데, 그곳에서 여러분은 모든 사람들이 예술의 마술쇼를 하는 것을 볼 수 있습니다.
Midjourney를 만든인 David Holz는 생성된 이미지들이 사진처럼 보이는 것을 원하지 않는다고 합니다. 그는 자신이 언젠가 현실적인 버전을 만들 수 있다고 믿고있지만, 그의 회사에서는 그것이 디폴트가 되는 것을 원하지 않습니다. "완벽한 사진은 지금 당장 나를 조금 불편하게 만들지만, 나는 당신이 더 현실적인 것을 원할 수 있는 정당한 이유가 있으리라 봅니다."
DALL-E 2와 Midjourney 둘 다 완벽하게 오픈소스로 공개되는 것을 삼가하고 있으니, Stable Diffusion은 어느 누구든지 접근할 수 있는 오픈소스라고 주장합니다. Mostaque는 "코드는 이미 데이터셋과 마찬가지로 사용할 수 있습니다. 그래서 모두가 그것을 개선하고 빌드 할 것입니다." 라고 주장합니다.
Stable Diffusion은 또한 현대 예술 삽화에 대한 꽤 좋은 이해를 가지고 있고 매우 상세한 예술 작품을 만들 수 있습니다. 그러나 복잡한 원본 프롬프트에 대한 해석이 부족합니다. Stable Diffusion은 Cryon(이전의 DALL-E mini)과 같은 작은 이미지 생성기에서도 생성할 수 있는 프롬프트를 생성할 수 없습니다.Stable Diffusion은 복잡한 예술 삽화에 좋습니다. 그러나 logo와 같은 보편적인 이미지를 생성하는 경우 실패합니다.
Another thing that some point out is that since Stable Diffusion is unrestricted in nature, unlike Midjourney or DALL.E2, it has been used to generate nude images of models, military conflicts and images of political or religious figures in incongruent situations.
또 하나 일각에서 지적하는점으로 Stable Diffusion은 Midjourney나 DALL-E 2와 달리 본질적으로 제한되지 않기 때문에 모델들의 누드 이미지, 군사적 갈등, 그리고 어울리지 않는 상황에서 정치나 종교계 인사들의 이미지를 생성하는 데 이용되어 왔다는 것입니다.
하지만, Stable Diffusion은 텍스트로부터 이미지를 생성하는 마켓의 마일스톤이 ehlf rjtdlqslek. 왜나하면 오픈소스이기 때문에, 미래의 개발자들은 GitHub에 있는 코드를 사용할 수 있기에 지금보다 더욱 정교한 도구를 생산할 수 있습니다. 그 중 어떤 것이 가장 좋은지에 대해, Midjourney의 예술적 능력, DALL-E 2의 사실적 이미지, 그리고 Stable Diffusion의 무제한적인 사용이 모든 AI 모델을 어떤 식으로든 더 좋게 만듭니다. 결국 사용자의 요구 사항에 따라 달라질 것입니다.
출저: https://analyticsindiamag.com/stable-diffusion-vs-midjourney-vs-dall-e2/