목록분류 전체보기 (93)
늦깎이 공대생의 인공지능 연구실
이 논문은 PEVA(Predict Ego-centric Video from human Actions)라는 모델을 훈련하여, 전신(whole-body) 동작을 조건으로 하는 에고센트릭(1인칭 시점) 비디오 예측을 수행했습니다. PEVA는 신체 관절의 계층 구조로 구조화된 운동학적(kinematic) 포즈 궤적을 조건으로 받아, 인간의 물리적 행동이 1인칭 시점에서 환경을 어떻게 변화시키는지를 시뮬레이션하도록 학습합니다. 이 논문은 실제 에고센트릭 비디오와 신체 포즈 캡처가 쌍으로 이루어진 대규모 데이터셋인 Nymeria를 사용하여, 자기회귀적 조건부 디퓨전 트랜스포머(autoregressive conditional diffusion transformer)를 훈련했습니다. 또한 점점 더 어려워지는 과제들로 ..
- 이 포스팅은 GPT5의 초안을 바탕으로 작성한 글임을 밝힙니다. 앞선 두 편에서 우리는 인공지능이 이미지를 이해하는 방식이 어떻게 발전해 왔는지를 살펴봤습니다. 픽셀 하나만 보던 단계에서 시작해, 주변 정보를 함께 고려하고, 더 멀리 떨어진 문맥(context)까지 활용하는 방향으로 점점 확장되어 왔습니다. 이번 포스팅에서는 그 흐름의 한 지점에서 등장한 구조인 DenseASPP를 통해, “문맥을 본다”는 말이 실제로 어떤 구조적 의미를 가지는지를 정리하며 이 시리즈를 마무리해 보려 합니다.자율주행 장면에서 Semantic Segmentation의 한계 DenseASPP 논문은 처음부터 이 문제를 매우 구체적으로 설정합니다. 이 연구가 다루는 대상은 일반적인 영상이 아니라, 자율주행 환경의 도로 ..
딥러닝 전체의 관점에서 'Modeling Power'는 모델이 복잡한 데이터의 패턴, 관계, 구조를 학습하고 표현할 수 있는 능력을 의미합니다. 간단히 말해, "이 모델이 얼마나 잘 데이터를 이해하고 예측할 수 있는가"라는 질문에 답하는 개념입니다. 딥러닝의 핵심이 되는 개념으로, 모델의 설계, 구조, 학습 과정 등 다양한 요소와 깊이 연관됩니다. Modeling Power의 핵심 구성 요소(1) 표현력 (Expressiveness) 표현력이란, 주어진 데이터 분포를 얼마나 정확하고 복잡하게 표현할 수 있는가를 나타냅니다.예를 들어, CNN(Convolutional Neural Network)은 이미지의 스파이럴(공간적) 구조를 자연스럽게 학습하여 높은 표현력을 가집니다. 그리고 Transformer는 ..
- 이 포스팅은 GPT5의 초안을 바탕으로 작성한 글임을 밝힙니다. 지난 포스팅에서는 AI가 어떻게 이미지를 인식할 수 있는지 CNN에서부터 시작해서 각종 비전 AI 기술에 대해 종합적으로 설명을 드렸습니다. 이번 포스팅에서는 대표적인 CNN기반 AI모델 중 하나인 Deeplab 시리즈에서 처음으로 도입된 ASPP(Atrous Spatial Pyramid Pooling)의 등장 배경 및 특징에 대해 설명드리도록 하겠습니다. 멀티스케일 문제: 작은 것도, 큰 것도 동시에 보는 게 왜 어려울까? 우리 인간이 위의 사진을 보았을 때, 가까이에 있는 작은 표시판과, 중간 거리에 있는 자동차, 멀리 있는 큰 건물 등 각각 크기가 다른 여러 물체를 한 번에 구분할 수 있습니다. 하지만 AI가 위 이미지를 볼 ..
- 이 포스팅은 GPT5의 초안을 바탕으로 작성한 글임을 밝힙니다.대학원을 졸업한 후 회사생활을 해오면서 나의 일상에 자신과 굳게 약속하였던 것 중 하나는 학업을 그만두더라도 AI의 트랜드를 놓지지 않기 위해 새로운 논문들을 읽으며 살아가자는 것이었습니다. 비록 학생때처럼 논문 읽기에만 몰입하는 것은 어렵겠지만, 학자로서의 감을 잃지 않겠다는 본인의 의지만큼은 계속 가지고 싶었습니다. 그러나 여전히 논문을 온전히 이해하는 것은 결코 쉽지 않은 일입니다. 이는 비단 지금도 대학원 생활을 하고 계시는 분들께서는 항상 느끼시리라 생각이 듭니다. 매번 논문 읽기에 고통스러운 나날을 보내왔던 저에게 ChatGPT는 망망대해만 같았던 논문의 바닷속에서 저를 묵묵히 이끌어가는 나침반 같은 존재 같았습니다. 단순한 질..
이번 포스팅에서는 이미지 분할(Image Segmentation) 분야에서 널리 사용되는 다양한 손실 함수(loss function)들을 소개해보려고 합니다. 특히 의료 영상, 자율주행 등 실제 산업 현장에서 이미지 분할이 얼마나 중요한 역할을 하는지, 그리고 좋은 손실 함수를 선택하는 것이 중요한 이유에 대해 이야기해보겠습니다.Semantic Segmentation이란?Semantic Segmentation은 한 장의 이미지를 픽셀 단위로 분류해서, 각 픽셀이 어떤 객체(예: 종양, 도로, 사람 등)에 대해 알아내는 기술입니다. 예를 들어, 뇌 CT 사진에서 종양이 있는 부분만 정확히 찾아내는 것처럼 말이지요. 이 기술은 의료 진단, 자율주행, 위성 사진 분석 등 다양한 분야에서 핵심적인 역할을 수행합..
오늘날 우리들이 일상에서 흔히 사용하는 얼굴 인식, 의료 영상 진단, 차량 자율주행기술에는 공통적으로 ‘컴퓨터 비전’(Computer Vision, CV) 기술이 활용됩니다. 컴퓨터가 이미지나 영상을 이해하고 판단할 수 있도록 만드는 데 핵심 역할을 하는 것이 바로 머신러닝(Machine Learning) 기술입니다. 이번에 소개해드릴 논문은 기존의 단순한 분류에서 벗어나 머신러닝의 다양한 스타일을 분류하고 비교하며, 그 구조와 적용 사례, 한계점, 미래 방향까지 종합적으로 다루고 있습니다. 비전 AI를 전공하신 분들이라면 한 번 즈음은 이 논문을 읽어보신다면 큰 도움이 될 것입니다. 머신러닝의 역사 머신러닝 기술은 1940년대부터 현재까지 위의 그래프와 꾸준히 발전해왔습니다. 1946년 강화학습(Re..
인공지능(AI) 기술은 최근 몇 년 사이에 눈부신 발전을 이루었습니다. 특히, 컴퓨터 비전 분야에서는 사진, 영상, 소리, 텍스트 등 다양한 형태의 데이터를 동시에 활용하는 멀티모달(Multimodal) 딥러닝이 주목받고 있습니다. 이번에 소개해드릴 논문을 통해 멀티모달 딥러닝이 무엇인지, 왜 중요한지, 그리고 실제로 어떻게 활용되는지 쉽게 설명해드리고자 합니다. 멀티모달 딥러닝이란? 여기서 모달리티(Modality)란 데이터의 종류를 뜻합니다. 예를 들어, 사진(이미지), 소리(오디오), 글(텍스트), 영상, 센서 데이터 등이 각각 하나의 모달리티입니다. 즉, 멀티모달은 이런 다양한 종류의 데이터를 동시에 활용하는 것을 의미합니다. 여러 센서(예: 카메라, 마이크, 온도 센서 등)에서 데이터를 수집하..