목록논문 (5)
늦깎이 공대생의 인공지능 연구실
비전 AI 분야에서 물체 탐지(Object Detection) 모델의 결과는 보통 해당 물체의 위치를 직사각형 모양의 Bounding Box로 둘러싸 직접 표현합니다. 이러한 방법은 단지 이미지 내에 원하는 물체가 어느 위치에 있는지 파악하는 것이 목적이라면 더없이 충분합니다. 그러나 Bounding Box 내에는 찾고자 하는 물체 뿐 아니라 물체 주변의 배경(Background)정보도 포함되기 때문에 대각선으로 긴 물체가 탐지된 경우 실제 물체가 Bounding Box에서 차지하는 비중이 배경보다 픽셀 갯수가 적기 때문에 오히려 배경 정보가 원하는 물체의 정보보다 더 비중이 클 수 있습니다. 실제 우리가 접하는 사진들은 의도대로 찍히지 않는 경우가 많기 때문에 자연 상태의 이미지에서는 Bounding ..
최근 딥러닝 기반 문자인식 기술은 정형화된 글자 뿐 아니라 사람이 손으로 휘갈겨쓴 필기체도 정확하게 인식할 정도로 많은 발전을 이루었습니다. 차후 AR 기술이 발달한다면 해외여행시 휴대폰으로 사진을 찍어 글자를 그자리에서 번역해주는 기술이 등장할 것을 기대할 수 있습니다. 이번 포스팅에서는 이미지에서 문자의 위치를 Bounding Box와 같이 정해진 모양이 아닌 유연한 형태로 문자를 찾아내는 TextSnake 논문에 대해 소개해드리도록 하겠습니다. 요약 심층 신경망과 대규모 데이터셋에 의해 구동되는 STR(Scene Text Recognition:장면 텍스트 감지) 방법은 지난 몇 년 동안 상당히 발전하여 다양한 표준 벤치마크의 성능 기록을 지속적으로 갱신했습니다. 그러나 텍스트를 설명하기 위해 채택된..
딥러닝 기반 인공지능 기술이 비약적으로 발전하면서 이제는 사람보다 더 빠르게 특정 물체를 감지해 낼 수 있는 물체 감지 기술들이 등장하고 있습니다. 비록 2023년 현재 챗GPT의 등장을 계기로 인공지능과 직접 대화를 할 수 있는 기술이 등장하면서 다른 인공지능 기술들이 관심에서 멀어진 감이 있지만 Vision 분야에서도 ViT(Vision-Transform)이 등장하는 등 많은 발전된 모습들을 확인할 수 있습니다. 이전의 포스팅에서 언급 드린바와 같이, 딥러닝 기반 인공지능의 성능을 끌어올리기 위해서는 양질의 데이터가 필요로 하며, 학습하고자 하는 물체의 종류(Class) 및 각 종류별 갯수의 균형을 맞춤으로서 우리가 원하는 최고 성능의 모델을 얻을 수 있습니다. 그러나, 우리가 찾아내고자 하는 물체가..
강화학습을 사용하여 로봇을 조종하는 것은 저에게 있어 가장 큰 로망 중 하나이기도 합니다. 이번에 소개드리고자 하는 논문은 스페인 마드리드 공과대학교(Universidad Politécnica de Madrid)에서 2019년에 공개된 저널 논문에 대해 간단히 소개드리고자 합니다. 강화학습에 관심있는 분들에게 이 논문에서 소개드리고자 하는 내용들이 강화학습을 현실세계에 적용하는 방법을 이해하는데 큰 도움이 될 것입니다. Abstract 최근 배달 및 탐색 등 멀티콥터 드론을 활용하는 분야가 기하급수적으로 늘어나고 있습니다. 특히, Deep Q-Learning이 연속적인 행동(Action)이 요구되는 게임에서 성공적으로 적용됨으로서 움직임 제어를 위한 딥러닝 기술 또한 단계적으로 발전해 나아가고 있습니다...
이 논문은 대규모 언어 모델링의 진전에 영감을 받아, 텍스트 출력의 영역을 넘어 단일의 박학다식한 에이전트를 구축하는 데 유사한 접근 방식을 적용합니다. Gato라 이름을 붙인 에이전트는 멀티모달, 다중 작업, 다중 구현 팔방미인 정책으로 작동합니다. 동일한 가중치를 가진 동일한 신경망은 실제 로봇 팔로 Atari, 캡션 이미지, 채팅, 블록 쌓기 등을 수행하여 텍스트, 관절 돌림힘, 버튼 누르기 또는 다른 토큰을 출력할 것인지 여부를 맥락에 따라 결정할 수 있습니다. 이 포스팅에서는 모델과 데이터를 설명하고 Gato의 현재 기능을 설명하고자 합니다. Gato는 동일한 가중치셋을 가진 단일 신경망을 사용하여 광범위한 환경에서 다양한 구현을 감지하고 행동할 수 있습니다. Gato는 다양한 양식, 관찰 및 ..