Gato - 무엇이든 잘하는 인공지능 모델(A Generalist Agent)

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

늦깎이 공대생의 인공지능 연구실

Gato - 무엇이든 잘하는 인공지능 모델(A Generalist Agent) 본문

논문

Gato - 무엇이든 잘하는 인공지능 모델(A Generalist Agent)

Justin T. 2022. 5. 17. 00:39

이 논문은 대규모 언어 모델링의 진전에 영감을 받아, 텍스트 출력의 영역을 넘어 단일의 박학다식한 에이전트를 구축하는 데 유사한 접근 방식을 적용합니다. Gato라 이름을 붙인 에이전트는 멀티모달, 다중 작업, 다중 구현 팔방미인 정책으로 작동합니다. 동일한 가중치를 가진 동일한 신경망은 실제 로봇 팔로 Atari, 캡션 이미지, 채팅, 블록 쌓기 등을 수행하여 텍스트, 관절 돌림힘, 버튼 누르기 또는 다른 토큰을 출력할 것인지 여부를 맥락에 따라 결정할 수 있습니다. 이 포스팅에서는 모델과 데이터를 설명하고 Gato의 현재 기능을 설명하고자 합니다.

Gato는 동일한 가중치셋을 가진 단일 신경망을 사용하여 광범위한 환경에서 다양한 구현을 감지하고 행동할 수 있습니다. Gato는 다양한 양식, 관찰 및 작업 사양을 가진 604개의 개별 작업에 대해 훈련을 하였습니다.

Gato의 훈련이 진행되는 동안, 다양한 작업과 양식의 데이터는 토큰의 평평한 시퀀스로 직렬화되고, Batch되어, 대규모 언어 모델과 유사한 트랜스포머 신경망에 의해 처리됩니다. 손실은 Gato가 작업 및 텍스트 대상만 예측하도록 마스킹됩니다.

Gato를 배포할 때 데모와 같은 프롬프트(Prompt)가 토큰화되어 초기 시퀀스를 형성합니다. 그런 다음 환경은 첫 번째 관찰을 생성하며, 이 관찰도 토큰화되어 시퀀스에 추가됩니다. Gato는 한 번에 하나의 토큰으로 행동 벡터(Action vector)를 자기 회귀적으로 샘플링합니다.

행동 벡터를 구성하는 모든 토큰이 샘플링되면(환경의 작업 사양에 따라 결정됨), 행동이 디코딩되어 새 관찰을 수행하고 생성하는 환경으로 전송됩니다. 그런 다음 이러한 절차가 반복됩니다. 모델은 항상 1024개의 토큰으로 구성된 컨텍스트 창에서 이전의 모든 관찰 및 작업을 보게됩니다.

Gato는 다양한 자연 언어 및 이미지 데이터셋 뿐만 아니라 시뮬레이션 및 실제 환경 모두에서 에이전트 경험을 구성하는 다수의 데이터셋에 대해 훈련됩니다. 사전 훈련된 Gato 모델의 성능이 전문가 점수의 백분율에 따라 작업 수가 도메인별로 그룹화되어 아래의 그림과 같이 표시됩니다.

지금부터 소개드릴 이미지들 또한 동일한 가중치를 가진 사전 훈련된 Gato 모델이 이미지 캡션을 수행하고, 대화형 대화에 참여하고, 로봇 팔을 제어하는 방법을 보여줍니다.

보시는 그림은 Gato에서 생성된 이미지 캡션입니다. Gato는 MS-COCO의 처음 몇 개의 숨겨둔 이미지를 설명하는 이미지 캡션을 수행하라는 메시지를 표시합니다.

다음으로 Gato와 잡담을 나누어 보았습니다. Gato가 챗봇이 되라는 메시지가 표시되면 Gato와 대화합니다. 일반적으로 Gato는 관련 응답으로 응답하지만 종종 피상적이거나 사실적으로 부정확한 경우가 많으며, 이는 추가 스케일링을 통해 개선될 수 있습니다.

다음으로 로봇의 Train/Test 작업 목표 변화를 비교합니다. 위의 사진은 기술 일반화 벤치마크(Skill Generalization benchmark)에서 테스트한 기존에 학습한 작업인 "파란색 블럭에 빨간색 블럭 쌓기"를 수행한 것이고. 아래의 사진은 새로운 작업인 "녹색 블럭 위에 파란색 블럭 쌓기"로서, Gato가 학습 데이터의 분포에서 벗어난 적응을 보여주고 있습니다.

트랜스포머 시퀀스 모델(Transformer sequence model)은 실제 텍스트, 비전 및 로봇 작업을 포함한 다중 작업 다중 구현 정책으로 효과적입니다. 또한 몇 번의 학습 데이터의 분포에서 벗어난 작업 학습에서도 가능성을 보여줍니다. 미래에는 이러한 모델이 처음부터 훈련되는 대신 새로운 행동을 학습하기 위해 프롬프트나 미세 조정을 통해 기본 시작점으로 사용될 수 있습니다.
스케일링 법칙 추세를 고려할 때 매개 변수, 데이터 및 컴퓨팅의 스케일링에 따라 대화를 포함한 모든 작업에서 성능이 향상될 것입니다. 더 나은 하드웨어 및 신경망 아키텍처는 실시간 로봇 제어 기능을 유지하면서 더 큰 모델을 훈련시킬 수 있습니다. 동일한 기본 접근 방식으로 스케일업하고 반복함으로써 유용한 범용 에이전트를 구축할 수 있을 것입니다.

2022년 5월 12일 딥마인드가 선보인 만능 모델 Gato는 데이터의 형질에 따라 정해진 모델을 사용하는 것을 넘어 무엇이든 척척 해낼 수 있는 모델을 만들 수 있음을 보여주고 있습니다. 만약 만능 모델의 적용 분야를 넓힐 수 있다면 어떤 분야에서든지 인공지능을 쉽게 적용할 수 있는 시대가 오리라 기대할 수 있을 것입니다.

참고자료: https://www.deepmind.com/publications/a-generalist-agent

A Generalist Agent

Inspired by progress in large-scale language modelling, we apply a similar approach towards building a single generalist agent beyond the realm of text outputs. The agent, which we refer to as Gato, works as a multi-modal, multi-task, multi-embodiment gene

www.deepmind.com

'논문' 카테고리의 다른 글

컴퓨터비전 관점에서 본 멀티모달 러닝(A survey on deep multimodal learning for computer vision: advances, trends, applications, and datasets) (1)	2025.06.24
Oriented R-CNN: 영상내에서 회전된 물체를 탐지하는 모델 (0)	2024.05.31
TextSnake: 유연한 모양으로 글자를 찾아내는 모델(A Flexible Representation for Detecting Text of Arbitrary Shapes) (0)	2023.07.22
비전 기반 장애물 감지를 위한 이상 감지(Anomaly Detection for Vision-Based Railway Inspection) (0)	2023.03.01
강화학습으로 드론을 목적지에 착륙시키기(A Deep Reinforcement Learning Strategy for UAV Autonomous Landing on a Moving Platform) (1)	2023.01.18

'논문' Related Articles

늦깎이 공대생의 인공지능 연구실

Gato - 무엇이든 잘하는 인공지능 모델(A Generalist Agent) 본문

Gato - 무엇이든 잘하는 인공지능 모델(A Generalist Agent)

'논문' 카테고리의 다른 글

티스토리툴바