늦깎이 공대생의 인공지능 연구실
컴퓨터비전 관점에서 본 멀티모달 러닝(A survey on deep multimodal learning for computer vision: advances, trends, applications, and datasets) 본문
컴퓨터비전 관점에서 본 멀티모달 러닝(A survey on deep multimodal learning for computer vision: advances, trends, applications, and datasets)
Justin T. 2025. 6. 24. 23:41
인공지능(AI) 기술은 최근 몇 년 사이에 눈부신 발전을 이루었습니다. 특히, 컴퓨터 비전 분야에서는 사진, 영상, 소리, 텍스트 등 다양한 형태의 데이터를 동시에 활용하는 멀티모달(Multimodal) 딥러닝이 주목받고 있습니다. 이번에 소개해드릴 논문을 통해 멀티모달 딥러닝이 무엇인지, 왜 중요한지, 그리고 실제로 어떻게 활용되는지 쉽게 설명해드리고자 합니다.
멀티모달 딥러닝이란?
여기서 모달리티(Modality)란 데이터의 종류를 뜻합니다. 예를 들어, 사진(이미지), 소리(오디오), 글(텍스트), 영상, 센서 데이터 등이 각각 하나의 모달리티입니다. 즉, 멀티모달은 이런 다양한 종류의 데이터를 동시에 활용하는 것을 의미합니다.

여러 센서(예: 카메라, 마이크, 온도 센서 등)에서 데이터를 수집하고, 각각의 모달리티(이미지, 오디오, 텍스트 등)를 딥러닝 모델에 입력합니다. 이후, 멀티모달 학습과 융합 알고리즘을 거쳐, 컴퓨터 비전 응용(예: 객체 인식, 감정 분석 등)에 활용됩니다. 위 그림은 멀티모달 딥러닝의 전체 흐름을 한눈에 보여줍니다.
왜 멀티모달이 필요할까?
현실 세계의 정보는 한 가지 형태로만 존재하지 않습니다. 예를 들어, 영상을 볼 때 우리는 화면(이미지)뿐 아니라 소리(오디오), 자막(텍스트) 등 다양한 정보를 함께 받아들입니다. 여러 모달리티를 함께 사용하면, 한 가지 정보만 쓸 때보다 더 정확하고 풍부한 결과를 얻을 수 있습니다.예를 들어, 자율주행차는 카메라(이미지), 라이다(거리 센서), 마이크(소리) 등 다양한 센서 정보를 함께 사용해 더 안전하게 주행할 수 있도록 합니다.
딥러닝과 멀티모달의 만남
최근 가장 많이 사용되고 있는 AI기술 중 하나인 딥러닝은 뇌의 신경망을 본뜬 인공지능 기술로, 여러 층의 인공 신경망을 통해 복잡한 패턴을 스스로 학습합니다. 여러분들도 아시다시피 이미지 인식, 음성 인식, 번역 등 다양한 분야에서 뛰어난 성능을 보이고 있습니다.

예를 들어, 비디오(이미지 시퀀스)에서 얼굴 영역을 추출하고, 오디오(음성)에서 특징을 뽑아냅니다. 이 두 가지 정보를 융합하여, 감정 인식 등 복합적인 예측을 수행합니다. 위 그림은 멀티모달 데이터가 어떻게 결합되어 최종 예측에 활용되는지 시각적으로 설명합니다.
멀티모달 딥러닝은 서로 다른 종류의 데이터를 하나의 인공지능 모델에 입력해, 이들 사이의 관계와 패턴을 동시에 학습합니다. 예를 들어, 사진과 그에 대한 설명(텍스트)을 함께 입력하면, 모델은 사진의 특징과 설명의 의미를 연결해서 이해할 수 있게 됩니다.
멀티모달 딥러닝의 핵심 기술
데이터 표현(Data Representation)

멀티모달 딥러닝을 사용함에 있어 각각의 모달리티 요소들(예: 이미지, 텍스트, 오디오)의 특징을 잘 뽑아내는 것이 중요합니다. 딥러닝에서는 각 데이터를 벡터(숫자 배열)로 변환해, 서로 다른 데이터도 같은 공간에서 비교할 수 있게 만들어 각 모달리티 요소들간의 상관관계를 비교할 수 있도록 합니다. 예를 들어, 이미지는 픽셀 단위로 밀집된 정보를 담고 있지만, 텍스트는 단어 임베딩 등으로 표현되어 상대적으로 이미지에 비해 정보가 많지 않습니다. 이처럼 서로 다른 특성을 가진 데이터를 하나의 모델에서 다루기 위해서는, 공통의 표현 공간으로 변환하는 과정이 필요합니다.
데이터 융합(Data Fusion)
데이터 융합이란 여러 모달리티의 정보를 어떻게 합칠지에 대한 것입니다. 대표적인 융합 방법 세 종류를 다음과 같이 정의할 수 있습니다.
- 초기 융합(Early Fusion): 데이터를 처음부터 합쳐 한 번에 처리함
- 후기 융합(Late Fusion): 각 데이터를 따로 처리한 뒤, 결과만 합침
- 중간 융합(Hybrid Fusion): 중간 단계에서 정보를 합침

위 그림은 멀티모달 데이터 융합의 세 가지 대표적인 방법을 도식화합니다. (a) 초기 융합은 입력 단계에서 데이터를 합치고, (b) 후기 융합은 각 모달리티별로 처리한 뒤 그 결과를 합치며, (c) 중간 융합은 중간 단계에서 정보를 결합합니다. 이 그림은 실제 멀티모달 시스템 설계 시 융합 전략을 선택하는 데 큰 도움이 됩니다.
정렬(Alignment)과 전이(Transfer)
멀티모달을 다룸에 있어 서로 다른 데이터의 의미를 맞추는 작업(Alignment)과, 한 데이터에서 배운 지식을 다른 데이터에 적용하는 작업(Transfer)이 중요합니다. 예를 들어 영어로 배운 이미지 설명 능력을, 한국어 설명에도 적용하는 것을 들 수 있겠습니다.
멀티모달 딥러닝의 주요 모델 구조
오토인코더(Autoencoder) 기반
오토인코더는 입력 데이터를 압축(인코딩)했다가 다시 복원(디코딩)하는 구조로, 멀티모달 오토인코더는 서로 다른 모달리티의 데이터를 동시에 입력받아, 공통의 잠재 공간(latent space)에서 정보를 융합합니다.

위 그림은 오디오와 비디오 두 가지 모달리티를 입력으로 받는 이중 오토인코더(bimodal autoencoder) 구조를 보여줍니다. 각 모달리티별로 인코더와 디코더가 존재하며, 중간에 공유된 잠재 표현이 생성됩니다. 이 구조는 서로 다른 데이터의 공통점을 효과적으로 학습할 수 있게 해줍니다.
합성곱 신경망(CNN) 기반
CNN은 이미지, 영상 등 공간적 패턴을 잘 학습하는 딥러닝 모델입니다. 멀티모달 CNN은 예를 들어 RGB 이미지와 깊이(Depth) 정보를 동시에 입력받아, 두 정보를 융합해 더 정확한 예측을 합니다.

위 그림은 RGB 이미지와 Depth(깊이) 정보를 각각 CNN으로 처리한 뒤, 중간 단계에서 특징을 융합(fusion)하는 구조를 보여줍니다. 이처럼 멀티모달 CNN은 각 모달리티의 장점을 살려, 복잡한 환경에서도 강인한 인식이 가능합니다.
순환 신경망(RNN) 기반
RNN은 시간에 따라 변화하는 데이터(예: 음성, 영상, 텍스트 시퀀스)를 잘 처리합니다. 멀티모달 RNN은 예를 들어, 영상의 프레임(이미지)과 자막(텍스트)을 동시에 입력받아, 시간적·의미적 관계를 함께 학습합니다.

위 그림은 양방향 멀티모달 RNN 구조를 보여줍니다. 이미지 임베딩과 단어 임베딩이 함께 입력되어, RNN이 시간에 따라 정보를 통합하고, 최종적으로 소프트맥스(softmax) 계층에서 다음 단어를 예측합니다. 이 구조는 이미지 캡셔닝, 비디오 설명 등에서 널리 활용됩니다.
생성적 적대 신경망(GAN) 기반
GAN은 두 개의 신경망(생성자와 판별자)이 경쟁하며 데이터를 생성하는 모델입니다. 멀티모달 GAN은 예를 들어, 텍스트 설명을 입력받아 그에 맞는 이미지를 생성하거나, 서로 다른 모달리티의 데이터를 변환하는 데 사용됩니다.

위 그림은 멀티모달 GAN의 구조를 도식화합니다. 여러 모달리티(예: 이미지, 오디오 등)에서 생성된 데이터와 실제 데이터를 판별자가 구분하며, 생성자는 점점 더 진짜 같은 데이터를 만들어냅니다. 이 구조는 이미지 생성, 스타일 변환 등 다양한 분야에 응용됩니다.
어텐션(Attention) 메커니즘
어텐션은 입력 데이터 중 중요한 부분에 집중하도록 도와주는 기술입니다. 멀티모달 어텐션은 예를 들어, 이미지의 특정 영역과 텍스트의 특정 단어를 연결해, 더 정밀한 예측을 가능하게 합니다.

이 그림은 어텐션 기반 기계번역 모델의 구조를 보여줍니다. 인코더가 입력 시퀀스를 처리하고, 디코더가 번역을 생성할 때, 어텐션 계층이 입력의 각 부분에 가중치를 부여해, 번역에 중요한 정보를 강조합니다. 이 구조는 멀티모달 데이터에서도 효과적으로 사용됩니다.
멀티모달 딥러닝의 실제 활용 예시
이미지와 텍스트
이미지와 텍스트 두 정적 데이터의 멀티모달 기능으로 사진을 보고 자동으로 설명 문장을 만들어내는 이미지 캡셔닝 기술과 사진을 입력하면 관련 설명을, 설명을 입력하면 관련 사진을 찾아주는 이미지-텍스트 검색 기술이 있습니다.

위 그림은 멀티모달 질의응답(EQA, VQA) 시스템의 차이를 보여줍니다. (a)는 로봇이 실제 환경에서 질문에 답하기 위해 여러 위치를 탐색하는 embodied QA, (b)는 비디오 내에서 질문에 답하는 video QA를 나타냅니다. 이처럼 멀티모달 딥러닝은 실제 환경 이해와 질의응답에 큰 역할을 합니다.
오디오와 비디오
오디오와 비디오 두 시계열 데이터의 멀티모달 기능으로 영상속 인물의 표정과 목소리를 함께 분석해 감정을 파악하는 비디오 감정 인식 기술과 소리와 영상 정보를 함께 활용해 원하는 장면을 찾는 음성 기반 영상 검색 기술이 있습니다.
자율주행과 로봇
멀티모달 기술은 특히 로보틱스 분야에서 두각을 나타내고 있으며 여러 센서(카메라, 라이다, 레이더 등)에서 들어오는 데이터를 동시에 분석해, 더 안전하고 정확한 주행 및 환경 인식이 가능한 기술 연구가 지속되고 있습니다.

위 그림은 자율주행차에 장착된 다양한 센서(카메라, 라이다, 레이더 등)를 보여줍니다. 이처럼 실제 환경에서는 여러 종류의 센서 데이터를 동시에 활용해야 하며, 멀티모달 딥러닝이 그 핵심 역할을 합니다.
의료 영상
여러 종류의 데이터로 구성된 CT, MRI, X-ray 등 다양한 의료 이미지를 멀티모달 기술로 함께 분석해 진단 정확도 향상시킬 수 있습니다.
멀티모달 딥러닝의 장점과 한계
멀티모달 딥러닝 기술은 여러 정보를 함께 사용해 오차를 줄여 정확도를 향상시키고, 한 가지 정보가 부족하거나 오류가 있어도, 다른 정보로 보완이 가능하며, 기존에 불가능했던 복합적인 문제 해결에 큰 도움을 주고 있습니다.
반면, 다양한 모달리티의 데이터를 동시에 모으기 쉽지 않으며 융합 방법의 복잡성으로 인해 데이터를 어떻게 합치는지에 따라 성능이 크게 달라집니다. 또한 여러 데이터를 동시에 처리하려면 많은 계산 자원이 필요해 실시간 처리(Realtime)에 어려움이 있으며, 어떤 모달리티는 데이터가 충분한데 다른 데이터는 상대적으로 적어 데이터 불균형 문제가 발생할 수 있습니다.

대규모 데이터셋에서 사전학습(pre-trained)된 모델을, 다른 모달리티나 도메인에 맞게 미세조정(fine-tuning)하여, 데이터 부족 문제를 해결하는 방법을 시각적으로 설명합니다.
멀티모달 딥러닝의 미래
앞으로는 더 많은 종류의 데이터가 융합되어, 인간처럼 다양한 감각(소리, 영상, 촉감, 냄새 등)을 동시에 인식하는 AI가 등장하고, 멀티모달 딥러닝이 현실 세계를 깊이 이해하고 인간과 자연스럽게 소통하는 데 필수적인 기술로 자리잡을 것입니다.
멀티모달 딥러닝은 여러 종류의 데이터를 동시에 활용해, 기존의 한계를 뛰어넘는 인공지능을 만드는 핵심 기술입니다. 앞으로도 멀티모달 딥러닝은 다양한 분야에서 우리의 삶을 더 편리하고 풍요롭게 만들어줄 것입니다. 이 글이 멀티모달 딥러닝의 세계를 이해하는 데 작은 도움이 되길 바랍니다.
참고논문:https://pubmed.ncbi.nlm.nih.gov/34131356/
A survey on deep multimodal learning for computer vision: advances, trends, applications, and datasets - PubMed
The research progress in multimodal learning has grown rapidly over the last decade in several areas, especially in computer vision. The growing potential of multimodal data streams and deep learning algorithms has contributed to the increasing universalit
pubmed.ncbi.nlm.nih.gov