목록분류 전체보기 (98)
늦깎이 공대생의 인공지능 연구실
1부에서 우리는 능동 학습(Active Learning, AL)이 '모르는 것만 골라 공부하는 영희의 공부법'과 같다는 것을 확인했습니다. 이제 한 걸음 더 들어가 봅시다. 만약 AI가 공부해야 할 대상이 단순한 사진 한 장이 아니라, 사진 속 모든 점(Pixel)의 의미를 파악해야 하는 'Semantic Segmentation'이라면 영희는 어떻게 움직여야 할까요? Semanitc Segmentation이란? 우리가 흔히 아는 AI의 '이미지 분류(Classification)'는 사진 한 장을 보고 "이건 강아지야" 혹은 "이건 고양이야"라고 사진 전체에 대한 정답을 딱 하나만 내놓습니다. 비유하자면 '객관식 1문제'를 푸는 것과 같습니다. AI 입장에서도, 정답을 가르쳐주는 사람 입장에서도 비교적 단..
비전 AI 공부를 하다 보면 누구나 한 번쯤 '채널(Channel)' 개념이 굉장히 간단함에도 분명하게 이해를 하지 못해 고개를 갸우뚱하곤 합니다. 기초 중의 기초지만, 이 개념이 흔들리면 AI 자체를 이해하기 어렵게 됩니다. 비전 AI 연구 10년 차인 저조차 이번 포스팅을 준비하며 개념을 더욱 명확히 다질 수 있었는데요. 그만큼 놓치기 쉬운 채널의 핵심, 지금부터 확실하게 짚어드리겠습니다. Channel이란 무엇인가?먼저, 국어사전에서 '채널'의 의미를 확인해봅시다. 채널(Channel)명사어떠한 일을 이루는 방법이나 정보가 전달되는 경로.(외교 채널.)정보·통신 텔레비전ㆍ라디오ㆍ무선 통신 따위에서, 주파수대에 따라 각 방송국에 배정된, 전파의 전송(傳送) 통로.(스포츠 채널.)정보·통신 중앙 처리 ..
영상으로 사물을 식별하는 비전 AI 분야는 어느덧 2026년 현재 우리의 삶의 다양한 분야에 녹아들었습니다. 도로 위 복잡한 상황을 읽어내는 자율주행 자동차, 암세포를 판독하는 의료 AI, 그리고 공장에서 제품의 아주 작은 결함까지 잡아내는 AI를 보면 어떻게 이토록 똑똑하게 잡아내는지 궁금하실 겁니다. 사실 이러한 비전 AI의 이면에는 공통적으로 바로 방대한 양의 데이터부터 학습이 이루어진다는 것입니다. 하지만 여기서 우리는 숨겨진 고통과 마주하게 됩니다. 사실 딥러닝 모델의 성능을 결정짓는 '양질의 학습 데이터'를 확보하는 과정은 사실 매우 고통스럽고 비용이 많이 드는 작업이기 때문입니다. 사람 대신 다양한 일을 해주는 생성형 AI챗봇이 건재함에도 비전 AI는 여전히 AI가 대체하기 힘든 부분들..
word2vec은 정확히 무엇을, 그리고 어떻게 학습할까요? 이 질문에 답하는 것은 규모는 작지만 흥미로운 언어 모델링 작업 내에서 표현 학습(Representation Learning)을 이해하는 것과 같습니다. word2vec이 현대 언어 모델의 잘 알려진 선구자임에도 불구하고, 수년 동안 연구자들에게는 그 학습 과정을 설명할 정량적이고 예측 가능한 이론이 부족했습니다.이 논문을 통해 마침내 그러한 이론을 제시합니다. 학습 문제가 '가중치 없는 최소 제곱 행렬 분해(unweighted least-squares matrix factorization)'로 귀결되는 현실적이고 실용적인 체계가 존재함을 증명했습니다. 또한 경사 흐름 역학(gradient flow dynamics)을 폐쇄형(closed for..
인공지능이 우리가 쓰는 말을 어떻게 이해하고 숫자로 계산하는지, 그 가장 기초가 되는 개념인 '유니그램 확률(Unigram Probability)'에 대해 알아보려고 합니다. 이름은 거창하지만, 알고 보면 아주 단순한 원리랍니다. 유니그램(Unigram)이란 무엇인가유니그램이란 다음과 같은 의미를 가집니다.Uni (하나의) + Gram (글자/단어) 즉, 문장에서 단어를 딱 하나씩만 떼어서 보는 것을 말합니다. 예를 들어 "오늘 날씨가 정말 좋다"라는 문장이 있다면, 유니그램 방식으로는 [오늘], [날씨가], [정말], [좋다] 이렇게 네 개의 조각으로 나누어 생각하는 것이죠. 유니그램 확률: "단어 주머니에서 제비뽑기"유니그램 확률은 쉽게 말해 "전체 단어들 중에서 특정 단어가 나타날 확률"입니다. 이..
이 논문은 PEVA(Predict Ego-centric Video from human Actions)라는 모델을 훈련하여, 전신(whole-body) 동작을 조건으로 하는 에고센트릭(1인칭 시점) 비디오 예측을 수행했습니다. PEVA는 신체 관절의 계층 구조로 구조화된 운동학적(kinematic) 포즈 궤적을 조건으로 받아, 인간의 물리적 행동이 1인칭 시점에서 환경을 어떻게 변화시키는지를 시뮬레이션하도록 학습합니다. 이 논문은 실제 에고센트릭 비디오와 신체 포즈 캡처가 쌍으로 이루어진 대규모 데이터셋인 Nymeria를 사용하여, 자기회귀적 조건부 디퓨전 트랜스포머(autoregressive conditional diffusion transformer)를 훈련했습니다. 또한 점점 더 어려워지는 과제들로 ..
- 이 포스팅은 GPT5의 초안을 바탕으로 작성한 글임을 밝힙니다. 앞선 두 편에서 우리는 인공지능이 이미지를 이해하는 방식이 어떻게 발전해 왔는지를 살펴봤습니다. 픽셀 하나만 보던 단계에서 시작해, 주변 정보를 함께 고려하고, 더 멀리 떨어진 문맥(context)까지 활용하는 방향으로 점점 확장되어 왔습니다. 이번 포스팅에서는 그 흐름의 한 지점에서 등장한 구조인 DenseASPP를 통해, “문맥을 본다”는 말이 실제로 어떤 구조적 의미를 가지는지를 정리하며 이 시리즈를 마무리해 보려 합니다.자율주행 장면에서 Semantic Segmentation의 한계 DenseASPP 논문은 처음부터 이 문제를 매우 구체적으로 설정합니다. 이 연구가 다루는 대상은 일반적인 영상이 아니라, 자율주행 환경의 도로 ..
딥러닝 전체의 관점에서 'Modeling Power'는 모델이 복잡한 데이터의 패턴, 관계, 구조를 학습하고 표현할 수 있는 능력을 의미합니다. 간단히 말해, "이 모델이 얼마나 잘 데이터를 이해하고 예측할 수 있는가"라는 질문에 답하는 개념입니다. 딥러닝의 핵심이 되는 개념으로, 모델의 설계, 구조, 학습 과정 등 다양한 요소와 깊이 연관됩니다. Modeling Power의 핵심 구성 요소(1) 표현력 (Expressiveness) 표현력이란, 주어진 데이터 분포를 얼마나 정확하고 복잡하게 표현할 수 있는가를 나타냅니다.예를 들어, CNN(Convolutional Neural Network)은 이미지의 스파이럴(공간적) 구조를 자연스럽게 학습하여 높은 표현력을 가집니다. 그리고 Transformer는 ..