늦깎이 공대생의 인공지능 연구실

시각 AI를 위한 Active Learning(2) - Segmentation과 Active Learning의 기술적 결합 본문

AI기술설명

시각 AI를 위한 Active Learning(2) - Segmentation과 Active Learning의 기술적 결합

Justin T. 2026. 6. 3. 17:39

1부에서 우리는 능동 학습(Active Learning, AL)이 '모르는 것만 골라 공부하는 영희의 공부법'과 같다는 것을 확인했습니다. 이제 한 걸음 더 들어가 봅시다. 만약 AI가 공부해야 할 대상이 단순한 사진 한 장이 아니라, 사진 속 모든 점(Pixel)의 의미를 파악해야 하는 'Semantic Segmentation'이라면 영희는 어떻게 움직여야 할까요?

 

Semanitc Segmentation이란?

 우리가 흔히 아는 AI의 '이미지 분류(Classification)'는 사진 한 장을 보고 "이건 강아지야" 혹은 "이건 고양이야"라고 사진 전체에 대한 정답을 딱 하나만 내놓습니다. 비유하자면 '객관식 1문제'를 푸는 것과 같습니다. AI 입장에서도, 정답을 가르쳐주는 사람 입장에서도 비교적 단순한 작업이죠.

 하지만 세맨틱 세그멘테이션(Semantic Segmentation)은 완전히 다른 차원의 문제입니다. 사진 속 사물이 '무엇'인지 맞히는 것을 넘어, 그 사물이 '어디서부터 어디까지인지' 형태와 윤곽을 픽셀(Pixel) 단위로 정확히 구분해야 합니다.

  • 분류(Classification): "이 사진은 고양이입니다." (정답 1개)
  • 세그멘테이션(Segmentation): "이 사진의 2만 개 픽셀 중, 0번은 배경이고, 1번은 고양이입니다. 그 중 고양이는 1만개의 픽셀로 구성되어 있습니다.." (정답 2만 개)

 마치 텅 빈 캔버스에 수백만 개의 점을 찍어 완성하는 '정밀한 점묘화'를 그리는 것과 같습니다. 사물의 윤곽선을 따라 한 치의 오차 없이 오려내듯 Labeling을 해야 하니, 전문가가 사진 한 장의 정답지를 만드는 데 수십 분에서 몇 시간이 훌쩍 넘어가기도 합니다.

 


 정답지를 만드는 데 이렇게 엄청난 시간과 비용이 들다 보니, AI에게 아무 사진이나 무작정 던져주고 공부하라고 할 수는 없습니다. 수만 장의 데이터 중에서 "어떤 사진을 줘야 AI가 가장 성능이 빨리 오를까?"를 영악하게 찾아내는 능동 학습(Active Learning)이 선택이 아닌 필수가 되는 이유가 바로 여기에 있습니다. 그렇다면 이 정밀한 점묘화의 세계에서 영희(AI)는 구체적으로 어떻게 움직여야 할까요?

세그멘테이션 관점에서 본 Active Learning의 5대 핵심 요소

 세맨틱 세그멘테이션은 이미지 내의 모든 픽셀에 클래스(예: 사람, 자동차, 도로)를 부여하는 정교한 작업입니다. 마치 밑그림만 그려진 컬러링북의 모든 칸을 빈틈없이, 선을 넘지 않고 색칠하는 것과 같습니다. 이 환경에서 AL의 5가지 요소는 다음과 같이 정의됩니다.

① 모델(Learner): 정교한 붓질을 배우는 '학생'
여기서 모델은 DeepLabV3+, SegFormer, 혹은 U-Net과 같은 딥러닝 알고리즘입니다. 이 학생은 이미지를 보고 "이 픽셀은 80% 확률로 '도로'이고, 20% 확률로 '인도'"라고 판단하는 법을 배웁니다.

② 데이터 풀(Unlabeled Pool): 아직 색칠되지 않은 '수만 장의 밑그림'
현장에는 정답(Annotation)이 없는 원본 이미지들이 산더미처럼 쌓여 있습니다. 세그멘테이션용 정답지는 만드는 데 시간이 매우 오래 걸리기 때문에(이미지 한 장당 수십 분에서 수 시간), 이 거대한 풀에서 '진짜 공부가 될 그림'을 찾는 것이 핵심입니다.

③ 선택 전략(Query Strategy): "어디가 제일 헷갈리니?"를 묻는 '기준'
AL의 심장입니다. 세그멘테이션에서는 단순히 "이 사진 모르겠어요"라고 하지 않습니다. 대신 '엔트로피(Entropy)'나 '신뢰도(Confidence)' 같은 수학적 지표를 사용합니다.

비유: 학생이 색칠하다가 경계선 부분에서 "여기는 나무인가요, 아니면 배경인가요?"라며 붓을 멈추는 지점을 찾아내는 공식입니다.


④ 오라클(Oracle): 픽셀 하나하나의 정답을 아는 '선생님'
모델이 질문을 던지면, 숙련된 작업자(Annotator)가 마우스를 들고 정밀하게 영역을 지정해 줍니다. 세그멘테이션의 오라클은 가장 고된 업무를 수행하는 전문가입니다.

⑤ 정답셋(Labeled Set): 검토가 끝난 '모범 답안지'
선생님의 피드백이 완료된 데이터들은 따로 모여 모델의 '오답 노트'이자 차세대 학습서가 됩니다.

단계별로 보는 Active Learning의 작동 프로세스

이제 이 요소들이 맞물려 어떻게 시스템이 굴러가는지, 그 5단계의 순환 과정을 살펴봅시다.


[1단계] 기초 다지기 (Initial Bootstrapping)

 

 먼저, 무작위로 고른 아주 적은 양(예: 전체의 1~5%)의 이미지에 정답을 달아 모델을 가볍게 학습시킵니다. 일상에 비유하자면, 본격적인 문제집 풀이에 앞서, 예제 문제 몇 개를 풀며 감을 잡는 과정입니다.


[2단계] 추론 및 불확실성 측정 (Inference & Uncertainty Estimation)

학습된 모델에게 정답이 없는 수만 장의 데이터를 보여줍니다. 모델은 각 이미지의 모든 픽셀에 대해 자기 나름의 점수를 매깁니다. 이때 모델은 단순히 예측만 하는 게 아니라, 자신의 예측에 얼마나 확신이 없는지를 수치화합니다. 특정 픽셀의 확률값이 여러 클래스에 비슷하게 걸쳐 있다면(예: 고양이 49%, 강아지 51%), 그 픽셀은 불확실성(Uncertainty)이 매우 높은 상태입니다.

[3단계] 대표성 있는 샘플 선별 (Sampling)

 

불확실성이 높은 이미지들을 추려냅니다. 하지만 헷갈리는 것만 다 뽑으면 안 됩니다. 비슷한 문제만 계속 풀면 지식이 편향되기 때문입니다. '코어셋(Core-set)' 전략 등을 사용해, 전체 데이터의 특징을 잘 대변하면서도 모델이 어려워하는 '가성비' 높은 데이터들만 골라냅니다. 이는 마치 수학 문제집에서 비슷한 유형은 하나만 고르고, 내가 유독 약한 기하학과 확률 문제를 골고루 섞어 '나만의 오답노트'를 만드는 것과 같습니다.

[4단계] 인간의 개입 (Human-in-the-loop Labeling)

 

선별된 이미지들을 오라클(인간)에게 보냅니다. 작업자는 모델이 가장 헷갈려 했던 경계면이나 복잡한 객체들을 정교하게 라벨링합니다. 능동 학습 덕분에 작업자는 가치 없는 데이터(이미 모델이 잘 아는 데이터)에 시간을 낭비하지 않아도 됩니다.

[5단계] 점진적 학습 (Incremental Learning)

새로 정답이 달린 데이터들을 기존 학습 데이터와 합쳐 모델을 다시 훈련시킵니다.

결과: 모델은 이제 자신이 틀렸던 부분, 헷갈려 했던 '경계선 픽셀'들에 대해 정답을 알게 되었습니다. 모델의 지능은 한 단계 점프하게 됩니다.

왜 세그멘테이션에서 AL이 특히 중요한가?


단순 분류(Classification) AI는 "이 사진은 개입니다"라고 한 문장만 말하면 되지만, 세그멘테이션 AI는 수백만 개의 픽셀 각각에 대해 대답해야 합니다.

만약 우리가 Active Learning 없이 무작위로 데이터를 학습시킨다면, 모델은 '이미 잘 알고 있는 맑은 하늘'이나 '탁 트인 아스팔트 도로' 이미지의 픽셀을 학습하는 데 대부분의 시간을 허비하게 될 것입니다.

능동 학습 시스템을 도입하면, 모델은 "하늘과 구름의 경계", "보행자의 옷색깔과 비슷한 배경" 등 지능 성장에 결정적인 픽셀들만 집중적으로 학습하게 됩니다. 이것이 바로 적은 데이터로도 전문가 수준의 정확도를 달성할 수 있는 기술적 비결입니다.

결론

2부에서는 능동 학습이 세맨틱 세그멘테이션이라는 복잡한 환경에서 어떻게 수학적 지표와 인간의 지혜를 결합하는지 살펴보았습니다. 결국 이 시스템의 핵심은 '질문할 줄 아는 AI'를 만드는 데 있습니다.

다음 3부에서는 Active Learning이 적용된 사례들에 대해 다루도록 하겠습니다.

반응형