늦깎이 공대생의 인공지능 연구실
대화형 플릿 러닝(Interactive Fleet Learning) 본문
지난 몇 년 동안 우리는 로봇공학과 인공지능의 경이롭고 흥미로운 발전을 보아왔습니다. 대규모 로봇군단들이 연구실을 떠나 드디어 현실 세계로 진입했습니다. 예를 들어, Waymo는 피닉스와 샌프란시스코에서 운영되는 700대 이상의 자율주행차를 보유하고 있으며 현재 로스앤젤레스로 영업구역을 확장하고 있습니다. 대규모 로봇군단이 현실에 적용된 또다른 사례로 Nuro와 Kiwibot의 음식 배달뿐만 아니라 Amazon 및 Ambi Robotics의 전자 상거래 주문 수행과 같은 응용 프로그램이 포함됩니다.
이러한 로봇은 구조화되지 않은 환경에서 자율적으로 동작하기 위해 최근까지도 경이로운 발전을 거듭한 딥러닝 기술을 사용합니다.. 모든 로봇 군단으로부터 데이터를 수집함으로써, 전체 군단은 각 개별 로봇의 경험을 기반으로 효율적으로 학습을 수행할 수 있습니다. 또한 클라우드 로보틱스의 발전으로 인해, 로봇 군단은 인터넷을 통해 데이터, 메모리 및 계산(예: 대형 모델 학습)을 클라우드에서 수행할 수 있습니다. 이러한 접근 방식은 "플릿 러닝(집단 학습)"으로 알려져 있는데, 이 용어는 2016년 테슬라 오토파일럿에 대한 보도 자료를 통해 일론 머스크가 널리 알렸으며, 도요타 연구소와 Wayve AI 등이 이 용어를 사용했습니다. 로봇 군단(Robot Fleet)은 고대 영어로 flēot('ship')과 flēotan('float')으로 거슬러 올라가는 어원을 가진 현대의 선박 함대에서 유래되었습니다.
그러나 플릿 러닝과 같은 데이터 중심 접근 방식은 "롱테일 문제"에 직면해 있습니다. 로봇은 불가피하게 데이터셋에 기록되지 않는 새로운 시나리오와 특이 케이스를 마주하게 됩니다. 당연히, 우리는 결코 미래가 과거와 같다고 기대할 수 없습니다! 그렇다면 로보틱스 업체들은 어떻게 그들의 서비스에 대한 충분한 신뢰성을 보장할 수 있도록 하였을까요?
그들이 마련한 기법 중 하나는 인터넷을 통해 인간의 원격 개입에 의존하는 것입니다. 인간의 원격 개입은 로봇의 작업이 진행되고 있는 도중 로봇 정책을 신뢰할 수 없을 때 상호작용 방식으로 제어권을 얻고 시스템을 "원격으로 조종"할 수 있습니다. 원격 운영은 로보틱스 분야에서 많고 많은 역사를 가지고 있습니다: 세계 최초의 로봇은 2차 세계대전 동안 방사성 물질을 처리하기 위해 원격으로 작동되었고, 텔레가든(Telegarden)은 1994년 인터넷을 통해 로봇 제어를 하는 방법을 적용하였습니다. 지속적인 학습을 통해 인간의 원격 개입으로 작동되는 데이터는 로봇 정책에 반복적으로 반영되었고 시간이 지남에 따라 로봇의 인간 감독자에 대한 의존도를 줄일 수 있습니다. 이 전략은 완전한 로봇 자율 동작으로 곧바로 점프하는 것이 아니라, 시간이 지남에 따라 완전한 자율성에 접근하면서 오늘날 로봇 시스템의 신뢰성을 가능하게 하는 지속적인 대안으로 주목받는 것입니다.
인간의 원격 개입을 대비책으로 사용하는 방법은 현대 로봇 회사들에게 점점 더 선호하는 방법이 되고 있습니다. Waymo는 이를 "플릿 응답(Fleet Response)"이라고 부르고 Zoox는 "텔레가이던스(TeleGuidance)"라고 부르며 Amazon은 "지속적인 학습(Continual Learning)"이라고 부릅니다. 작년 Phantom Auto라고 불리는 원격 운전을 위한 소프트웨어 플랫폼이 타임지에 의해 2022년 10대 발명품 중 하나로 인정받았습니다. 그리고 바로 지난 달, John Deere가 SparkAI를 인수하였는데, 이 회사는 HITL(humans in the loop) 방식으로 특이 케이스를 해결하는 소프트웨어를 개발하는 스타트업입니다.
그러나 산업계에서의 이러한 적용 증가 추세에도 불구하고 학계에서는 이 주제에 대한 관심이 상대적으로 거의 없었습니다. 결과적으로 로봇 회들은 로봇으로부터 제어권을 양도받는 시기를 결정하기 위해 자체적으로 개발한 임시 솔루션에 의존해야 했습니다. 학계에서 가장 유사한 방식은 로봇이 간헐적으로 인간 감독자에게 제어권을 양도하고 시간이 지남에 따라 이러한 개입으로부터 학습하는 패러다임인 대화형 모방 학습(Interactive Imitation Learning)입니다. 최근 몇 년 동안 DAgger 및 HG-DAgger, SafeDAgger, EnsembleDAgger, ThriftyDAgger 와 같은 변형을 포함한 1인 1로봇 설정에 대한 다수의 IIL 알고리즘이 있었습니다. 그럼에도 불구하고 로봇과 인간 사이의 제어를 언제 어떻게 전환할 것인지는 여전히 미해결된 문제입니다. 이 개념이 여러 대의 로봇과 여러 명의 인간 감독관이 있는 로봇 집단에 일반화될 때 이는 훨씬 더 어려운 난제입니다..
IFL 형식과 알고리즘
로봇 학습 컨퍼런스에서 공개된 최근 논문에서 우리는 여러 로봇과 여러 인간과의 대화형 학습을 위한 문헌의 첫 번째 형식인 대화형 플릿 학습(Interactive Fleet Learning)의 패러다임을 소개했습니다. 이러한 패러다임이 이미 업계에서 사용되고 있음에서 알 수 있듯이, 이제는 모든 개별 기업 솔루션("플릿 응답", "텔레 가이드" 등)의 이름을 따르는 것이 아니라 "대화형 플릿 학습(IFL)"이라는 용어를 사용하여 로봇 플릿 학습을 위한 통합 용어로 사용할 수 있습니다. IFL은 로봇 학습을 네 가지 주요 구성 요소로 확장합니다:
- 주문형 지도(On-demand supervision): 인간은 한 번에 여러 로봇의 실행을 효과적으로 모니터링할 수 없고 피로가 쉽게 누적되기 때문에 IFL에서 인간에게 로봇을 할당하는 것은 일부 할당 정책 \(\omega\)에 의해 자동화됩니다. 로봇은 지속적인 모니터링의 부담을 인간에게 지우는 대신 "주문형"으로 지도를 요청합니다.
- 플릿 지도(Fleet supervision): 주문형 지도를 통해 대형 로봇 집단에 한정된 인간의 관심을 효과적으로 할당할 수 있습니다. IFL을 사용하면 로봇의 수가 인간의 수를 크게 초과할 수 있습니다(예: 10:1 이상).
- 지속적 학습(Continual learning): 로봇 집단에서 각 로봇은 다른 로봇의 실수뿐만 아니라 자신의 실수로부터 배울 수 있으며, 시간이 지남에 따라 필요한 인간 지도의 양이 줄어들 수 있습니다.
- 인터넷: 끊임없이 발전하는 인터넷 기술 덕분에, 인간 지도자들은 물리적으로 존재할 필요가 없습니다. 현대의 컴퓨터 네트워크는 광범위한 거리에서 실시간 원격 원격 조종을 가능하게 합니다.
로봇이 공유 제어 정책 \(\pi_{\theta_{t}}\)를 공유하고 인간이 공유 제어 정책 \(\pi_H\)를 공유한다고 가정합니다. 우리는 또한 로봇이 동일한 상태(State) 및 행동(Action) 공간(동일한 상태는 아님)을 가진 독립적인 환경에서 동작한다고 가정합니다. 공유 환경에서 공통 목표를 달성하기 위해 조정하는 전형적인 저비용 로봇 무리들과는 달리, 로봇 플릿은 별개의 병렬 환경(예: 조립 라인의 다른 Bin)에서 공유 정책을 동시에 실행합니다.
IFL의 목표는 최적의 지도 할당 정책 \(\omega\), \(s^t\)(t시간에 모든 로봇의 상태) 및 공유 정책 \(\pi_{\theta_{t}}\)에서 시간 t일 때에 어떤 사람이 어떤 로봇에 할당될 것인지를 나타내는 이진 행렬을 찾는 것입니다. IFL의 목표는 "인간의 노력에 대한 보답"(Return On Human Effort)이라고 하는 새로운 측정 기준입니다.
$$\max_{\omega \in \Omega} \mathbb{E}_{\tau \sim p_{\omega, \theta_0}(\tau)} \left[\frac{M}{N} \cdot \frac{\sum_{t=0}^T \bar{r}( \mathbf{s}^t, \mathbf{a}^t)}{1+\sum_{t=0}^T \|\omega(\mathbf{s}^t, \pi_{\theta_t}, \cdot) \|^2 _F} \right]$$
여기서 분자는 로봇과 시간 단계에 걸친 총 보상이고 분모는 로봇과 시간 단계에 걸친 인간의 행동의 총 양입니다. 직관적으로 ROHE는 필요한 인간의 총 지도에 의해 정규화된 비행대의 성능을 측정합니다. 수학적인 세부사항에 대한 자세한 내용은 논문을 참조해주시길 바랍니다.
이러한 형식을 사용하여 이제 IFL 알고리즘(다시 말해, 할당 정책)을 원칙적인 방식으로 인스턴스화하고 비교할 수 있습니다. 우리는 정책 학습 알고리즘이 대화형 모방 학습이고 각 Fleet-DAgger 알고리즘이 플릿의 각 로봇이 자신에게 우선 순위 점수를 할당하는 데 사용하는 고유한 우선 순위 함수 \(\hat p: (s, \pi_{\theta_t}) \rightarrow [0, \infty)\)로 매개 변수화되는 Fleet-DAgger 알고리즘과같은 IFL 알고리즘들을 제안합니다. 스케줄링 이론과 유사하게, 우선 순위가 높은 로봇은 인간의 주목을 받을 가능성이 더 높습니다. Fleet-DAgger는 EnsembleDAgger 및 ThriftyDAgger와 같은 기존 로봇 한 대당, 사람 한 명이 담당하는 IIL 알고리즘의 IFL 적응을 포함하여 광범위한 IFL 알고리즘을 모델링하기에 충분히 일반적입니다. 그러나 IFL 형식은 Fleet-DAgger에 국한되지 않습니다. 정책 학습은 예를 들어 PPO와 같은 강화 학습 알고리즘으로 수행될 수 있습니다.
IFL 벤치마크 및 실험
사람의 제한된 관심을 대규모 로봇 집단에 가장 잘 할당하는 방법을 결정하기 위해 다양한 IFL 알고리즘을 경험적으로 평가하고 비교할 수 있어야 합니다. 이를 위해 새로운 IFL 알고리즘의 개발 및 표준화된 평가를 용이하게 하기 위해 Github에서 사용할 수 있는 오픈 소스 Python 툴킷인 IFL Benchmark를 소개합니다. 우리는 2021년에 출시된 종단간 GPU 가속 로봇 학습을 위해 고도로 최적화된 소프트웨어 라이브러리인 NVIDIA Isaac Gym을 확장합니다. 이 라이브러리가 없으면 수백 또는 수천 개의 학습 로봇 시뮬레이션이 계산적으로 다루기 어렵습니다. IFL Benchmark를 사용하여 N = 100 로봇, M = 10 알고리즘 인간, IFL 알고리즘 5가지 및 3가지 고차원 연속 제어 환경으로 대규모 시뮬레이션 실험을 실행합니다.
또한 N = 4개의 로봇팔과 M = 2개의 원격 인간 운영자를 사용하여 실제 이미지 기반 블록 푸시 작업에서 IFL 알고리즘을 평가합니다. 4개의 팔은 약 1km 떨어진 2개의 분리된 연구실에서 동시에 작동하는 2개의 양팔 ABB YuMi 로봇에 속하며, 세 번째 물리적 위치에 있는 원격 인간은 요청 시 키보드 인터페이스를 통해 원격 작동을 수행합니다. 각 로봇은 작업 공간에서 무작위로 샘플링된 고유한 목표 위치를 향해 큐브를 밀어냅니다. 목표는 로봇의 오버헤드 이미지 관찰에서 프로그래밍 방식으로 생성되고 이전 목표에 도달하면 자동으로 다시 샘플링됩니다. 물리적 실험 결과는 벤치마크 환경에서 관찰된 추세와 거의 일치하는 추세를 제시합니다.
요점 및 향후 방향
로봇 플릿 학습의 이론과 실제 사이의 격차를 해소하고 향후 연구를 용이하게 하기 위해 대화형 플릿 학습을 위한 새로운 형식, 알고리즘 및 벤치마크를 소개하였습니다. IFL은 공유 로봇 제어 정책에 대한 특정 형식이나 아키텍처를 지시하지 않기 때문에 다른 유망한 연구 방향과 유연하게 통합될 수 있습니다. 예를 들어, 최근 다중 모드 데이터를 정상적으로 처리하는 것으로 입증된 Diffusion policy을 IFL에서 사용하여 로봇과 다른 인간 지도 정책을 허용할 수 있습니다. 또는 RT-1 및 PerAct와 같은 다중 작업 언어 조건 트랜스포머는 플릿의 로봇이 단일 정책을 공유하면서도 다른 작업을 수행할 수 있도록 하는 효과적인 "데이터 스폰지"가 될 수 있습니다. IFL의 시스템 측면은 또 다른 매력적인 연구 방향입니다. 클라우드 및 Fog Robotics의 최근 개발로 인해 로봇 플릿은 모든 지도 할당, 모델 교육 및 크라우드 소싱된 원격 운영을 네트워크 대기 시간을 최소화하면서 클라우드의 중앙 집중식 서버로 부하를 할당할 수 있습니다.
Moravec의 Paradox는 지금까지 로봇 공학을 막고 인공지능을 구현하여 GPT-4와 같은 대형 언어 모델(LLM)이 최근 보여준 놀라운 성공을 완전히 누리지 못했지만, LLM의 "씁쓸한 교훈"은 전례 없는 규모의 지도 학습이 궁극적으로 우리가 관찰하는 새로운 특성으로 이어진다는 것입니다. 아직 인터넷의 모든 텍스트 및 이미지 데이터만큼 풍부한 로봇 제어 데이터 공급이 없기 때문에 IFL 패러다임은 오늘날 세계에서 감독 로봇 학습을 확장하고 로봇 플릿을 안정적으로 배치하기 위한 하나의 경로를 제공할것입니다.
참고자료: Fleet-DAgger: Interactive Robot Fleet Learning with Scalable Human Supervision