늦깎이 공대생의 인공지능 연구실
AI가 세상을 바라보는 방법(2) - 크고 작은 물체를 동시에 보는 방법, ASPP(Atrous Spatial Pyramid Pooling) 본문
AI가 세상을 바라보는 방법(2) - 크고 작은 물체를 동시에 보는 방법, ASPP(Atrous Spatial Pyramid Pooling)
Justin T. 2025. 10. 3. 21:07- 이 포스팅은 GPT5의 초안을 바탕으로 작성한 글임을 밝힙니다.
지난 포스팅에서는 AI가 어떻게 이미지를 인식할 수 있는지 CNN에서부터 시작해서 각종 비전 AI 기술에 대해 종합적으로 설명을 드렸습니다.
이번 포스팅에서는 대표적인 CNN기반 AI모델 중 하나인 Deeplab 시리즈에서 처음으로 도입된 ASPP(Atrous Spatial Pyramid Pooling)의 등장 배경 및 특징에 대해 설명드리도록 하겠습니다.
멀티스케일 문제: 작은 것도, 큰 것도 동시에 보는 게 왜 어려울까?

우리 인간이 위의 사진을 보았을 때, 가까이에 있는 작은 표시판과, 중간 거리에 있는 자동차, 멀리 있는 큰 건물 등 각각 크기가 다른 여러 물체를 한 번에 구분할 수 있습니다. 하지만 AI가 위 이미지를 볼 때는 이게 쉬운 일이 아닙니다. 왜냐하면, AI는 지난 포스팅에서 설명드린 대로 이미지를 수많은 작은 칸(픽셀)으로 나눠서 보기 때문입니다. 그래서 크기가 아주 작은 물체와 아주 큰 물체를 동시에 잘 찾는 것이 어렵답니다. 그렇다면 AI가 사진 내의 다양한 크기의 물체들을 보기 위해 어떤 기술이 사용되는지 설명드리도록 하겠습니다.
Dilated Convolution 의 한계

앞서 설명드린대로, Dilated Convolution은 기존의 Convolution에서 커널 내의 간격을 두어 적은 연산량으로 이미지를 바라보는 시야를 넓힐 수 있다는 장점이 있습니다.
그러나 다양한 크기의 물체들을 인식하는 관점에서 Dilated Convolution은 dilation rate(팽창률)가 작을 경우 작은 물체는 잘 찾지만, 큰 배경을 잘 보지 못하는 단점이 있고, 그렇다 해서 dilation rate를 너무 키우면 큰 배경을 잘 볼 수 있으나, 작은 물체는 놓칠 수 있다는 서로 상충되는 단점을 가지고 있습니다. 즉, 하나의 dilation rate만으로는 작은 것과 큰 것을 동시에 잘 볼 수 없습니다.
FPN(Feature Pyramid Network)

사진 내에 있는 다양한 크기의 물체들을 볼 수 있게 하는 멀티스케일 방법 중 하나인 FPN 기술은 위의 그림과 같이 아래쪽 층에서는 세밀한 부분을 잘 볼 수 있으며, 위로 갈 수록 이미지의 전체적인 모습을 잘 볼 수 있게 해줍니다. 위에서 아래로 이미지의 정보를 전달 하고 옆으로 연결하여 여러 층의 정보를 합치면 작은 물체와 큰 물체의 정보를 동시에 인식할 수 있게 됩니다.
위의 그림과 같이 FPN은 하나의 같은 크기의 CNN 커널을 서로 다른 해상도의 이미지에 적용하여 feature map을 추출하여 결합하는 방식으로 이해하시면 됩니다. 쉽게 말해 다른 사이즈의 같은 사진들을 가지고 사진의 전반적인 모습부터 미세한 부분 까지 같은 한 사람의 눈으로 관측한다고 이해하면 되겠습니다.
다만, 멀티스케일 관점에서 FPN은 다음과 같은 명백한 한계를 가지고 있습니다.
- 고정된 방식: 여러 크기의 특징(큰 것, 작은 것)을 합치는 방식이 정해져 있어, 더 복잡한 상황에서는 유연하게 대응하기 어렵습니다.
- 넓은 시야 부족: 이미지를 멀리서 크게 보는 ‘넓은 시야’가 제한적이어서, 전체적인 패턴이나 배경 정보를 잘 잡지 못할 수 있습니다.
- 복잡한 패턴 한계: 물체가 크기도 다양하고 모양도 복잡하면, 단순히 위아래 크기만 합치는 방식으로는 부족할 때가 많습니다.
이러한 FPN의 한계를 극복하고자 나온 것이 바로 이번에 소개드릴 ASPP(Atrous Spatial Pyramid Pooling)입니다.
ASPP: 여러 시야를 동시에 확보하다
ASPP(Atrous Spatial Pyramid Pooling)는 이름 그대로 팽창 합성곱(Atrous Convolution)을 다양한 크기로 겹쳐 피라미드처럼 배치한 구조입니다. 핵심 아이디어는 “여러 dilation rate를 동시에 적용해, 다양한 크기의 시야를 한 번에 확보”하는 것입니다.
- 작은 dilation rate → 작은 물체 인식
- 큰 dilation rate → 큰 배경 인식
- 중간 dilation rate → 중간 크기 물체 인식
서로 다른 크깅 ㅣ dilation rate를 가진 각각의 팽창 합성곱을 branch라 표현하는데, 이러한 branch들을 병렬로 두고 마지막에 합치면, 여러 크기의 문맥 정보가 동시에 확보됩니다. 비유하자면, 크기가 다른 확대경을 동시에 테이블 위에 놓고 보는 것과 같습니다.

위의 그림에서 보시는 바와 같이 ASPP의 구조는 여러 개의 dilation rate branch와 image-level feature branch가 병렬로 배치 되어 있는 것을 보실 수 있습니다.
ASPP의 강점
① 멀티스케일 문맥 확보
앞에서 설명드린 바와 같이 ASPP는 그림 내의 다양한 크기의 물체들을 잘 이해할 수 있습니다. 길을 걷다 보면 작은 표지판, 옆에 지나가는 자동차, 멀리 보이는 커다란 건물이 한눈에 들어옵니다.. 보통 눈으로 보면 큰 것에 집중하다 작은 걸 놓치기도 하는데, ASPP는 마치 여러 개의 확대경을 동시에 들고 보는 것처럼 작은 것도 놓치지 않고, 중간 크기와 큰 것까지 전부 잡아낼 수 있어, 아래의 그림과 같이 도로의 자동차, 건물, 멀리 있는 보행자를 잘 찾아낼 수 있습니다.

② 해상도 유지 + 계산 효율
ASPP는 팽창합성곱 기반으로 stride 방식처럼 해상도 손실이 없습니다. 쉽게 말해, ASPP는 이미지의 사이즈를 줄이지 않고도 계산할 수 있어, 이미지의 해상도를 유지하면서도 넓은 영역을 볼 수 있습니다.
③ 단순하면서 확장성 있는 구조
ASPP의 구조는 여러 개의 batch를 마지막에 하나로 합치는 방식인데, 이는 마치 여러 사람이 동시에 사진 한장을 보고 분석을 하는 것과 같아 다양한 정보를 가지고 사진의 정보를 판단할 수 있습니다. 즉, dilation rate를 조정하는 것 만으로 다른 시각으로 사진을 바라볼 수 있는 것이지요.
④ 다양한 도메인 적용성
ASPP는 다양한 분야에서 적용되고 있습니다. 예를 들어, 길거리에서 볼 수 있는 다양한 물체들(사람, 자동차, 표지판 등)을 인지 및 판단하여 자율주행 분야에 적용할 수 있고, 의학 분야에서 X ray나 CT 영상에서 환자의 병변을 판단하거나, 우주 분야에서 위성사진으로 도시 전치의 모습과 개별 건물까지 동시에 볼 수 있습니다.

ASPP의 한계
다만, ASPP 기술에도 다음과 같은 한계가 있습니다.
스케일 간격 공백
ASPP는 같은 그림 속에서도 큰 물체, 작은 물체를 동시에 잘 찾기 위해 여러 크기로 특징을 뽑아 내는데, dilation rate가 6, 12, 18처럼 정해져 있으면, 그 사이에 있는 크기, 예를 들어 9나 15와 같은 dilation 크기에서는 찾을 수 있을 물체를 잘 잡지 못할 수도 있습니다. 그래서 중간 크기의 물체에 대한 인식 정보가 부족할 수 있다는 한계가 있습니다.
Brach간 독립성
ASPP는 여러 갈래로 나뉘서 각각 다른 크기를 보고 Feature를 뽑는데, 각 Brach들은 연산을 마칠 때까지 각자 독립적으로 동작합니다. 즉, 마지막에 결과들을 단순히 합치는 방식이기 때문에 각 크기 정보가 서로 섞이거나 보완되지 못합니다. 즉, 스케일 간 상호 작용이 부족하다 문제가 있습니다.
결론
ASPP는 이미지를 더 잘 이해하기 위해 등장한 아주 중요한 기술 중 하나입니다. 이 기술은 사진의 다양한 크기의 물체들을 볼 수 있도록 이미지의 크기를 다양하게 하는 멀티스케일 기술에서 단지 하나의 이미지 크기만으로 다양한 dilate rate를 사용해 연산을 효율화 및 물체 정보를 잘 찾을 수 있게 되었습니다. 그러나 비어있는 dilate rate에 대한 정보가 부족하고, 각각의 필터가 별개로 동작하여 상호 작용이 부족하다는 단점을 가지고 있습니다.
이러한 한계를 해결하고자 등장한 기술이 다음 포스팅에서 다루고자 하는 DenseASPP입니다. 다음 포스팅에서 DenseASPP 기술에 대해 설명을 이어가도록 하겠습니다.
'AI기술설명' 카테고리의 다른 글
| AI가 세상을 바라보는 방법(1) - 작은 눈으로 큰 그림을 보다(CNN부터 DenseNet까지 Vision AI기술의 발전과정) (0) | 2025.09.02 |
|---|---|
| Semantic Sagmentaion의 관점에서 본 손실 함수의 의미 (1) | 2025.08.05 |
| 영상 데이터셋의 관점에서 본 Vision AI모델의 학습과정 (0) | 2025.02.28 |
| ICML Tutorial on Model-Based Methods in Reinforcement Learning(모델 기반 강화학습) - 3.루프에서의 모델 기반 제어(Model-based control in the loop) (0) | 2025.01.28 |
| AI모델 학습시 Batch Size와 학습 속도의 상관관계 (1) | 2024.08.31 |
