늦깎이 공대생의 인공지능 연구실

GPT-4 + Stable-Diffusion = ?: 대형 언어 모델(LLM)을 이용한 텍스트 이미지 확산 모델의 프롬프트 이해 향상 본문

BAIR

GPT-4 + Stable-Diffusion = ?: 대형 언어 모델(LLM)을 이용한 텍스트 이미지 확산 모델의 프롬프트 이해 향상

Justin T. 2023. 6. 6. 17:02

 
요약: Text Prompt -> LLM -> Intermediate Representation (이미지 레이아웃과 같은 중간 표현) -> Stable Diffusion -> Image.
 
 확산 모델(Diffusion Model)을 사용한 Text-to-Image 생성 기술의 최근 발전은 매우 사실적이고 다양한 이미지를 합성하는 놀라운 결과를 산출했습니다. 그러나, 이토록 인상적인 능력에도 불구하고, Stable-Diffusion과 같은 확산 모델은 종종 공간적 또는 상식적 추론이 필요할 때 프롬프트를 정확하게 나타내는 것이 어려워보입니다.
 
 다음 그림은 Stable-Diffusion이 주어진 프롬프트에 정확하게 해당되는 이미지를 생성하는 데 부족한 네 가지 시나리오, 즉 부정, 수치 및 속성 할당, 공간 관계에서의 어려움들을 나타냅니다. 대조적으로, 이번 논문에서 소개드릴 LLM 기반 Diffusion(LMD)은 이러한 시나리오에서 텍스트에서 이미지 생성에 훨씬 더 나은 프롬프트를 제공합니다.
 

LLM 기반 Diffusion은 텍스트에서 이미지로의 확산 모델의 프롬프트 성능을 향상시킨다

 
이 문제를 해결할 수 있는 솔루션 중 하나는 바로 이러한 복잡한 캡션으로 구성된 방대한 다중 모드 데이터셋을 수집하고 대형 언어 인코더로 대규모 확산 모델을 훈련시키는 것입니다. 이 접근 방식은 상당한 비용이 듭니다. 즉,  대형 언어 모델(LLM)과 확산 모델을 모두 훈련하는 것은 상당한 시간과 비용이 소요됩니다.

솔루션 소개

최소한의 비용(훈련 비용 없음)으로 이 문제를 효율적으로 해결하기 위해, 새로운 two-stage 생성 프로세스에서 기존의 기학습된 LLM을 사용하여 향상된 공간 및 상식 추론을 확산 모델에 적용합니다.

먼저, 우리는 LLM을 문맥 내 학습을 통해 텍스트로 유도된 레이아웃 생성기로 조정합니다. 이미지 프롬프트와 함께 제공되는 경우 LLM은 장면 레이아웃을 해당하는 개별 설명과 함께 경계 상자(Bounding Box) 형태로 출력합니다. 둘째, 레이아웃에 따라 조정된 이미지를 생성하기 위해 새로운 컨트롤러로 확산 모델을 조종합니다. 두 단계 모두 LLM 또는 확산 모델 매개 변수 최적화 없이 기존의 사전 훈련된 모델을 사용합니다. 자세한 내용은 arXiv에 개제된 논문을 읽어보시기 바랍니다. 

LMD는 새로운 Two-Stage 생성 프로세스인 LLM + 컨텍스트 학습을 가진 텍스트-레이아웃 생성기와 새로운 레이아웃으로 유도된 Stable Diffusion을 가진 텍스트-이미지 생성 모델이다. 두 단계 모두 훈련이 필요 없다.

LMD의 추가적인 능력 

또한 LMD는 화 형식의 장면 지정을 자연스럽게 허용하여 각 프롬프트에 대한 추가적인 설명과 후속 수정을 가능하게 합니다. 또한 LMD는 기본 확산 모델에서 잘 지원되지 않는 언어로 프롬프트를 처리할 수 있습니다.

프롬프트에 대응하는 LLM을 통합한 방법인 LMD 는 기본 확산 모델이 지원하지 않는 언어(중국어)로 대화 기반 장면 설정 및 프롬프트 생성을 수행할 수 있다.

대화 형식(예: GPT-3.5 또는 GPT-4)을 지원하는 LLM이 주어졌을 때, LMD는 사용자가 대화의 첫 번째 레이아웃 생성 후 LLM을 쿼리하여 LLM에 추가 정보 또는 설명을 제공하고 LLM의 후속 응답에서 업데이트된 레이아웃으로 이미지를 생성할 수 있습니다. 예를 들어, 사용자가 장면에 물체를 추가하거나 위치 또는 설명에서 기존 개체를 변경하도록 요청할 수 있습니다

또한, LMD는 문맥 내 학습 중 레이아웃과 배경 설명이 영어가 아닌 프롬프트의 예시를 들어 영어가 아닌 프롬프트의 입력을 수락하고 이후 레이아웃에서 이미지 생성을 위해 설명과 배경이 영어로 된 레이아웃을 생성합니다. 이는 기존의 확산 모델이 지원하지 않는 언어로 프롬프트를 생성할 수 있습니다.

시각화

 LMD가  기본 확산 모델과 비교하였을 때 디자인이 우월하다는 점을 확인할 수 있습니다.

LMD는 언어와 공간 추론이 모두 필요한 프롬프트에 따라 이미지를 정확하게 생성하는 데 있어 기존의 확산 모델의 성능이 뛰어나다. LMD는 또한 기존의 확산 모델이 생성할 수 없는 반사실적 텍스트-이미지 생성을 가능하게 한다.

 

 아래의 그림은 저자들의 논문에서 소개된 LLM의 동작 방식에 대한 설명을 나타냅니다. Layout의 위치를 프롬프트대로 설정하고 Layout 틀 안에서 프롬프트의 내용대로 그림이 그려지는 과정을 그림으로 설명하고 있음을 확인하실 수 있습니다. 

 

레이아웃 유도 Stable Diffusion 구성 요소는 LLM에서 얻은 레이아웃을 기반으로 이미지를 생성한다. 레이아웃 유도 이미지 생성 프로세스에는 두 가지 단계가 있다. 각 Box에 대한 마스킹 노이즈 반전과 이후 합성 이미지 생성으로 구성되어 있다.

 

 

 


참고자료: https://llm-grounded-diffusion.github.io/

 

LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models

LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models

llm-grounded-diffusion.github.io

 

반응형