목록논문 (7)
늦깎이 공대생의 인공지능 연구실

오늘날 우리들이 일상에서 흔히 사용하는 얼굴 인식, 의료 영상 진단, 차량 자율주행기술에는 공통적으로 ‘컴퓨터 비전’(Computer Vision, CV) 기술이 활용됩니다. 컴퓨터가 이미지나 영상을 이해하고 판단할 수 있도록 만드는 데 핵심 역할을 하는 것이 바로 머신러닝(Machine Learning) 기술입니다. 이번에 소개해드릴 논문은 기존의 단순한 분류에서 벗어나 머신러닝의 다양한 스타일을 분류하고 비교하며, 그 구조와 적용 사례, 한계점, 미래 방향까지 종합적으로 다루고 있습니다. 비전 AI를 전공하신 분들이라면 한 번 즈음은 이 논문을 읽어보신다면 큰 도움이 될 것입니다. 머신러닝의 역사 머신러닝 기술은 1940년대부터 현재까지 위의 그래프와 꾸준히 발전해왔습니다. 1946년 강화학습(Re..

인공지능(AI) 기술은 최근 몇 년 사이에 눈부신 발전을 이루었습니다. 특히, 컴퓨터 비전 분야에서는 사진, 영상, 소리, 텍스트 등 다양한 형태의 데이터를 동시에 활용하는 멀티모달(Multimodal) 딥러닝이 주목받고 있습니다. 이번에 소개해드릴 논문을 통해 멀티모달 딥러닝이 무엇인지, 왜 중요한지, 그리고 실제로 어떻게 활용되는지 쉽게 설명해드리고자 합니다. 멀티모달 딥러닝이란? 여기서 모달리티(Modality)란 데이터의 종류를 뜻합니다. 예를 들어, 사진(이미지), 소리(오디오), 글(텍스트), 영상, 센서 데이터 등이 각각 하나의 모달리티입니다. 즉, 멀티모달은 이런 다양한 종류의 데이터를 동시에 활용하는 것을 의미합니다. 여러 센서(예: 카메라, 마이크, 온도 센서 등)에서 데이터를 수집하..

비전 AI 분야에서 물체 탐지(Object Detection) 모델의 결과는 보통 해당 물체의 위치를 직사각형 모양의 Bounding Box로 둘러싸 직접 표현합니다. 이러한 방법은 단지 이미지 내에 원하는 물체가 어느 위치에 있는지 파악하는 것이 목적이라면 더없이 충분합니다. 그러나 Bounding Box 내에는 찾고자 하는 물체 뿐 아니라 물체 주변의 배경(Background)정보도 포함되기 때문에 대각선으로 긴 물체가 탐지된 경우 실제 물체가 Bounding Box에서 차지하는 비중이 배경보다 픽셀 갯수가 적기 때문에 오히려 배경 정보가 원하는 물체의 정보보다 더 비중이 클 수 있습니다. 실제 우리가 접하는 사진들은 의도대로 찍히지 않는 경우가 많기 때문에 자연 상태의 이미지에서는 Bounding ..

최근 딥러닝 기반 문자인식 기술은 정형화된 글자 뿐 아니라 사람이 손으로 휘갈겨쓴 필기체도 정확하게 인식할 정도로 많은 발전을 이루었습니다. 차후 AR 기술이 발달한다면 해외여행시 휴대폰으로 사진을 찍어 글자를 그자리에서 번역해주는 기술이 등장할 것을 기대할 수 있습니다. 이번 포스팅에서는 이미지에서 문자의 위치를 Bounding Box와 같이 정해진 모양이 아닌 유연한 형태로 문자를 찾아내는 TextSnake 논문에 대해 소개해드리도록 하겠습니다. 요약 심층 신경망과 대규모 데이터셋에 의해 구동되는 STR(Scene Text Recognition:장면 텍스트 감지) 방법은 지난 몇 년 동안 상당히 발전하여 다양한 표준 벤치마크의 성능 기록을 지속적으로 갱신했습니다. 그러나 텍스트를 설명하기 위해 채택된..

딥러닝 기반 인공지능 기술이 비약적으로 발전하면서 이제는 사람보다 더 빠르게 특정 물체를 감지해 낼 수 있는 물체 감지 기술들이 등장하고 있습니다. 비록 2023년 현재 챗GPT의 등장을 계기로 인공지능과 직접 대화를 할 수 있는 기술이 등장하면서 다른 인공지능 기술들이 관심에서 멀어진 감이 있지만 Vision 분야에서도 ViT(Vision-Transform)이 등장하는 등 많은 발전된 모습들을 확인할 수 있습니다. 이전의 포스팅에서 언급 드린바와 같이, 딥러닝 기반 인공지능의 성능을 끌어올리기 위해서는 양질의 데이터가 필요로 하며, 학습하고자 하는 물체의 종류(Class) 및 각 종류별 갯수의 균형을 맞춤으로서 우리가 원하는 최고 성능의 모델을 얻을 수 있습니다. 그러나, 우리가 찾아내고자 하는 물체가..

강화학습을 사용하여 로봇을 조종하는 것은 저에게 있어 가장 큰 로망 중 하나이기도 합니다. 이번에 소개드리고자 하는 논문은 스페인 마드리드 공과대학교(Universidad Politécnica de Madrid)에서 2019년에 공개된 저널 논문에 대해 간단히 소개드리고자 합니다. 강화학습에 관심있는 분들에게 이 논문에서 소개드리고자 하는 내용들이 강화학습을 현실세계에 적용하는 방법을 이해하는데 큰 도움이 될 것입니다. Abstract 최근 배달 및 탐색 등 멀티콥터 드론을 활용하는 분야가 기하급수적으로 늘어나고 있습니다. 특히, Deep Q-Learning이 연속적인 행동(Action)이 요구되는 게임에서 성공적으로 적용됨으로서 움직임 제어를 위한 딥러닝 기술 또한 단계적으로 발전해 나아가고 있습니다...

이 논문은 대규모 언어 모델링의 진전에 영감을 받아, 텍스트 출력의 영역을 넘어 단일의 박학다식한 에이전트를 구축하는 데 유사한 접근 방식을 적용합니다. Gato라 이름을 붙인 에이전트는 멀티모달, 다중 작업, 다중 구현 팔방미인 정책으로 작동합니다. 동일한 가중치를 가진 동일한 신경망은 실제 로봇 팔로 Atari, 캡션 이미지, 채팅, 블록 쌓기 등을 수행하여 텍스트, 관절 돌림힘, 버튼 누르기 또는 다른 토큰을 출력할 것인지 여부를 맥락에 따라 결정할 수 있습니다. 이 포스팅에서는 모델과 데이터를 설명하고 Gato의 현재 기능을 설명하고자 합니다. Gato는 동일한 가중치셋을 가진 단일 신경망을 사용하여 광범위한 환경에서 다양한 구현을 감지하고 행동할 수 있습니다. Gato는 다양한 양식, 관찰 및 ..