목록전체 글 (79)
늦깎이 공대생의 인공지능 연구실
최근 딥러닝 기반 문자인식 기술은 정형화된 글자 뿐 아니라 사람이 손으로 휘갈겨쓴 필기체도 정확하게 인식할 정도로 많은 발전을 이루었습니다. 차후 AR 기술이 발달한다면 해외여행시 휴대폰으로 사진을 찍어 글자를 그자리에서 번역해주는 기술이 등장할 것을 기대할 수 있습니다. 이번 포스팅에서는 이미지에서 문자의 위치를 Bounding Box와 같이 정해진 모양이 아닌 유연한 형태로 문자를 찾아내는 TextSnake 논문에 대해 소개해드리도록 하겠습니다. 요약 심층 신경망과 대규모 데이터셋에 의해 구동되는 STR(Scene Text Recognition:장면 텍스트 감지) 방법은 지난 몇 년 동안 상당히 발전하여 다양한 표준 벤치마크의 성능 기록을 지속적으로 갱신했습니다. 그러나 텍스트를 설명하기 위해 채택된..
요약: Text Prompt -> LLM -> Intermediate Representation (이미지 레이아웃과 같은 중간 표현) -> Stable Diffusion -> Image. 확산 모델(Diffusion Model)을 사용한 Text-to-Image 생성 기술의 최근 발전은 매우 사실적이고 다양한 이미지를 합성하는 놀라운 결과를 산출했습니다. 그러나, 이토록 인상적인 능력에도 불구하고, Stable-Diffusion과 같은 확산 모델은 종종 공간적 또는 상식적 추론이 필요할 때 프롬프트를 정확하게 나타내는 것이 어려워보입니다. 다음 그림은 Stable-Diffusion이 주어진 프롬프트에 정확하게 해당되는 이미지를 생성하는 데 부족한 네 가지 시나리오, 즉 부정, 수치 및 속성 할당, 공간 ..
지난 몇 년 동안 우리는 로봇공학과 인공지능의 경이롭고 흥미로운 발전을 보아왔습니다. 대규모 로봇군단들이 연구실을 떠나 드디어 현실 세계로 진입했습니다. 예를 들어, Waymo는 피닉스와 샌프란시스코에서 운영되는 700대 이상의 자율주행차를 보유하고 있으며 현재 로스앤젤레스로 영업구역을 확장하고 있습니다. 대규모 로봇군단이 현실에 적용된 또다른 사례로 Nuro와 Kiwibot의 음식 배달뿐만 아니라 Amazon 및 Ambi Robotics의 전자 상거래 주문 수행과 같은 응용 프로그램이 포함됩니다. 이러한 로봇은 구조화되지 않은 환경에서 자율적으로 동작하기 위해 최근까지도 경이로운 발전을 거듭한 딥러닝 기술을 사용합니다.. 모든 로봇 군단으로부터 데이터를 수집함으로써, 전체 군단은 각 개별 로봇의 경험을..
본 논문에서, 저자들은 이동 조작자가 탐색과 파악의 조합을 필요로 하는 기술을 자율적으로 배울 수 있는 방법을 연구하였습니다. 현실세계에서 로봇 기술을 배우는 것은 대규모 데이터 수집 및 감독 없이는 여전히 어렵습니다. 이러한 어려움은 로봇을 조작이나 탐색으로만 제한하고 훈련 과정에서 시연, 작업 재설정/랜덤화 및 데이터 레이블링을 제공하기 위해 사람의 노력을 사용함으로써 종종 해결되었습니다. 이 작업에서, 저자들은 로봇이 땅에서 떨어진 물체를 모아 바구니에 넣어 서로 다른 방에서 청소하는 방법을 자율적으로 배울 수 있는 방법을 구체적으로 연구합니다. 이 논문의 목표는 로봇이 인간의 개입을 최소화하거나 지도, 물체 위치 또는 주변 환경의 전체 모습과 같은 모든 정보에 대한 접근 없이 현실적인 설정 하에서..
딥러닝 기반 인공지능 기술이 비약적으로 발전하면서 이제는 사람보다 더 빠르게 특정 물체를 감지해 낼 수 있는 물체 감지 기술들이 등장하고 있습니다. 비록 2023년 현재 챗GPT의 등장을 계기로 인공지능과 직접 대화를 할 수 있는 기술이 등장하면서 다른 인공지능 기술들이 관심에서 멀어진 감이 있지만 Vision 분야에서도 ViT(Vision-Transform)이 등장하는 등 많은 발전된 모습들을 확인할 수 있습니다. 이전의 포스팅에서 언급 드린바와 같이, 딥러닝 기반 인공지능의 성능을 끌어올리기 위해서는 양질의 데이터가 필요로 하며, 학습하고자 하는 물체의 종류(Class) 및 각 종류별 갯수의 균형을 맞춤으로서 우리가 원하는 최고 성능의 모델을 얻을 수 있습니다. 그러나, 우리가 찾아내고자 하는 물체가..
컴퓨터공학을 전공한 저로서 IT분야의 빠른 발전 때문에 개발자로 살아가기 위해서는 끊임없는 공부가 필요함을 잘 알고 있지만, AI는 이러한 발전 속도를 더욱 가속화 시키고 있는 것처럼 보입니다. 과연 나는 이러한 빠른 속도를 잘 따라갈 수 있을까 싶은 생각이 많이 들지만, 적어도 아무것도 안하는 것 보다는 오늘 하루라도 논문 한 장 더 읽어볼까 하는 생각을 하곤 합니다. 그러던 도중, AI의 4대 거장 중 한 사람인 앤드류 응(Andrwe Ng) 교수님이 무료로 공개한 서적이 있어 여러분들께 소개드리고자 합니다. 책을 한 페이지 읽을수록 앤드류 응 선생의 조언 한마디의 대단함을 느끼게 될 것입니다. 커리어를 성장시키는 3단계 1. 학습(Learning) 첫 단계는 기초적인 기술 능력을 익히는 단계입니다...
강화학습을 사용하여 로봇을 조종하는 것은 저에게 있어 가장 큰 로망 중 하나이기도 합니다. 이번에 소개드리고자 하는 논문은 스페인 마드리드 공과대학교(Universidad Politécnica de Madrid)에서 2019년에 공개된 저널 논문에 대해 간단히 소개드리고자 합니다. 강화학습에 관심있는 분들에게 이 논문에서 소개드리고자 하는 내용들이 강화학습을 현실세계에 적용하는 방법을 이해하는데 큰 도움이 될 것입니다. Abstract 최근 배달 및 탐색 등 멀티콥터 드론을 활용하는 분야가 기하급수적으로 늘어나고 있습니다. 특히, Deep Q-Learning이 연속적인 행동(Action)이 요구되는 게임에서 성공적으로 적용됨으로서 움직임 제어를 위한 딥러닝 기술 또한 단계적으로 발전해 나아가고 있습니다...
시간차 학습(Temporal difference learning)이란 무엇인가? 시간차 학습(Temporal difference learning)은 미래에 예상되는 전체 보상을 예측하기 위한 목적으로 사용되며 강화 학습에서 매우 일반적으로 사용되는 비지도 학습 기법입니다. 물론 다른 수치를 예측하는 데도 사용하기도 합니다. 시간차 학습은 기본적으로 주어진 입력값의 미래 값에 종속된 수치를 어떻게 예측할 수 있는지 배우는 방법라 할 수 있습니다. 또한 연속된 중간 보상에서 행동 패턴의 장기적 유용성을 계산하는 데 사용되는 방법이라 할 수 있겠습니다. 기본적으로, 시간차 학습(TD Learning)은 연속 상태에서 변수의 미래 가치를 예측하는 데 중점을 둡니다. 시간차 학습은 보상 예측 문제를 해결하는 ..