늦깎이 공대생의 인공지능 연구실

오프라인 강화학습과 모방 학습 중 무엇을 사용해야 하는가?(Should I Use Offline RL or Imitation Learning?) 본문

BAIR

오프라인 강화학습과 모방 학습 중 무엇을 사용해야 하는가?(Should I Use Offline RL or Imitation Learning?)

Justin T. 2023. 9. 30. 11:16
학습자가 BC를 해야 하는 경우와 다양한 모방 학습 스타일 방법, 오프라인 RL 접근 방식을 사용해야 하는 경우에 대한 권장 사항 요약.

 오프라인 강화 학습을 사용하면 이전에 수집한 데이터로부터 정책을 학습할 수 있습니다. 덕분에, 자율 주행이나 수술 계획과 같이 안전이 중요한 환경에서 시행착오 학습을 실행하는 것이 비현실적이거나 위험한 상황에서 RL을 사용해야 하는 관점에서, 이는 매우 중요한 의미를 갖습니다. 이러한 시나리오에서는 온라인 탐색이 너무 위험하지만 오프라인 RL 방법은 사람이나 휴리스틱하게 설계된 제어 장치가 수집한 로깅 데이터를 통해 효과적인 정책을 학습할 수 있습니다. 선행 학습 기반 제어 방법 역시 모방 학습으로 기존 데이터를 학습하는 데 있어, 데이터가 일반적으로 "충분히 좋은" 경우 데이터의 동작을 모방하는 것만으로도 좋은 결과를 얻을 수 있으며, 그렇지 않은 경우 데이터를 필터링하거나 가중치를 재조정한 다음 모방하는 것이 효과적일 수 있습니다. 최근의 여러 연구에서는 이러한 방법이 최신 오프라인 RL 방법의 대안이 될 수 있음을 시사합니다.

 오프라인 RL은 어떤 경우에 사용해야 좋을까요? 어떤 형태의 모방(Behavior Cloning, 조건부 BC, 필터링된 BC)에 의존하는 방법에는 오프라인 RL이 해결할 수 있는 근본적인 한계가 있을까요? 차선책이 많이 포함된 다양한 데이터셋에서 학습할 때 오프라인 RL이 모방 학습에 비해 큰 이점을 갖는 것은 분명하지만, BC 친화적으로 보일 수 있는 경우에도 오프라인 RL이 훨씬 더 나은 결과를 얻을 수 있는 방법에 대해서도 논의할 것입니다. 우리의 목표는 각 방법을 사용해야 하는 시기와 이유를 설명하고 실행자들에게 각 접근법의 이점에 대한 가이드를 제공하는 것입니다. 위 그림은 연구 결과를 간결하게 요약한 것으로, 각 구성 요소에 대해 설명하고 있습니다.

오프라인 데이터에서 학습하는 방법(Methods for Learning from Offline Data)

 먼저 데이터로부터 정책을 학습하는 다양한 방법에 대해 간략하게 살펴보겠습니다. 학습 알고리즘에는 특정 행동 정책에 의해 생성된 경로 \(\{\tau_i\}_{i=1}^N\)로 구성된 오프라인 데이터셋 \(D\)가 제공됩니다. 대부분의 오프라인 RL 방법은 제공된 데이터에 대해 일종의 동적 프로그래밍(예: Q-학습)을 업데이트하여 가치 함수(Value Function)를 얻는 것을 목표로 합니다. 일반적으로 잘 작동하려면 분산 이동에 대한 조정이 필요하지만, 이 작업이 제대로 수행되면 좋은 결과를 얻을 수 있습니다.
 
 한편, 모방 학습을 기반으로 하는 방법은 데이터셋이 충분할 경우 데이터셋에서 관찰된 행동을 단순히 복제하거나, 데이터셋이 충분하지 않을 경우 유용한 행동(Action)을 추출하기 위해 일종의 필터링 또는 조건 설정을 수행할 수 있습니다. 예를 들어, 최근 작업에서는 반환을 기준으로 경로를 필터링하거나, 행동 정책에 따라 얼마나 유리한지를 기준으로 개별 동작 전환을 직접 필터링한 다음 이를 모방합니다. 조건부 BC(Conditional BC) 방법은 모든 전환 또는 경로가 올바른 변수를 조건으로 할 때 최적이라는 개념에 근거합니다. 이렇게 하면 조건화 후 조건 변수의 값에 따라 데이터가 최적 상태가 되며, 원칙적으로 높은 보상 값과 같은 원하는 작업에 조건화하여 최적에 가까운 경로를 얻을 수 있습니다. 예를 들어, 목표가 \(R=R_0\)인 경우 \(R_0\)에 도달하는 경로가 최적이며(RCP, 의사 결정 전이), 목표 \(g\)에 도달하는 경로가 \(g=g_0\)에 도달하는 경로가 최적입니다(GCSL, RvS). 따라서 보상 조건형 BC 또는 목표 조건형 BC를 수행하고 평가 중에 원하는 수익 또는 목표 값으로 학습된 정책을 실행할 수 있습니다. 오프라인 RL에 대한 이러한 접근 방식은 학습 가치 함수나 역학 모델을 완전히 우회하기 때문에 사용이 더 간단할 수도 있습니다. 하지만 실제로 일반적인 오프라인 RL 문제를 실제로 해결하는 것은 가능할까요?
 

RL과 모방 방법에 대해 알려진 것들

 
 먼저 벤치마크 작업에서 오프라인 RL 및 모방 학습 방법의 성능을 검토해 보는 것이 시작하기에 좋은 출발점이 될 수 있습니다. 아래 그림에서는 D4RL 벤치마크의 하위 집합에서 오프라인 데이터로부터 학습하는 몇 가지 최신 방법의 성능을 살펴보겠습니다.
 

D4RL의 다양한 작업에 대한 경험적 결과의 이분법. 모방 학습 방식(의사 결정 변환기, %BC, 원스텝 RL, 조건부 BC)은 움직임 과제에서 오프라인 RL 방식(CQL, IQL)과 동등한 성능을 발휘하거나 더 나은 성능을 낼 수 있지만, 이러한 방식은 더 복잡한 미로 탐색 과제에서는 쉽게 실패할 수 있다.

 이 도표에서 모방 방식은 움직임 과제 전반에서 오프라인 RL 방식과 동등한 성능을 보이지만, 미로 과제에서는 오프라인 RL 방식이 모방 방식(이 글의 마지막에 설명할 목표 조건부 BC 는 제외)을 큰 차이로 능가하는 것을 확인할 수 있습니다. 이러한 차이가 발생하는 이유는 무엇일까요? 이 포스팅에서 다뤄볼 내용은 모방 학습에 의존하는 방법은 오프라인 데이터셋의 행동이 잘 수행되는 몇 가지 완전한 경로로 구성되어 있을 때 매우 효과적이라는 것입니다. 이는 대부분의 리플레이 버퍼 스타일 데이터셋에 해당되며, D4RL의 모든 동작 데이터셋은 온라인 RL 알고리즘의 리플레이 버퍼에서 생성됩니다. 이러한 경우 좋은 경로를 필터링하고 필터링된 경로의 모드를 실행하는 것만으로도 잘 작동합니다. 이것이 바로 BC, 원스텝 RL, 의사 결정 변환기가 잘 동작하는 이유를 설명합니다. 그러나 오프라인 RL 방법은 최적화되지 않은 데이터로부터 학습할 수 있는 일종의 '시간적 구성' 이점을 활용하기 때문에 이러한 엄격한 요건이 충족되지 않는 경우 BC 방법보다 훨씬 더 뛰어난 성능을 발휘할 수 있습니다. 이것이 바로 개미집과 같은 미로에서 탈출하는 방법에 대한 RL과 모방 결과 사이의 거대한 차이를 설명합니다.

오프라인 RL은 조건부, 필터링 또는 가중치 BC가 해결할 수 없는 문제를 해결할 수 있다.

 앞서 언급한 BC 방식으로는 해결할 수 없는 문제를 오프라인 RL로 해결할 수 있는 이유를 이해하기 위해 간단하고 쉬운 예시를 통해 논의를 정리해 보겠습니다. 아래 그림에 표시된 미로에서 시작 위치 A에서 목표 위치 D까지 이동하는 것이 목표인 탐색 작업을 고려해 봅시다. 이는 모바일 로봇 내비게이션의 여러 실제 의사 결정 시나리오를 직접적으로 나타내며, 로봇 공학이나 추천 시스템과 같은 영역에서 RL 문제에 대한 추상적인 모델을 제공합니다. 에이전트가 위치 A에서 B로 이동하는 방법과 C에서 E로 이동하는 방법을 보여주는 데이터가 제공되었지만 데이터셋에 A에서 D로 가는 단일 경로가 없다고 가정해 보겠습니다. 물론 아래 표시된 오프라인 데이터셋은 위치 E에서 서로 교차하는 여러 경로를 조합하여 D로 이동하는 방법을 발견하기에 충분한 정보를 제공합니다. 하지만 다양한 오프라인 학습 방법으로 A에서 D로 이동하는 방법을 찾을 수 있을까요?

다양한 문제 영역에서 최적의 경로를 찾는 데 필요한 시간적 구성을 위한 기준 사례 또는 이어붙이기 예제

 오프라인 RL 방식은 A에서 D까지의 경로를 발견할 수 있지만, 다양한 모방 스타일 방식은 그렇지 못하다는 것이 확인되었습니다. 이는 오프라인 RL 알고리즘이 차선의 경로를 함께 "연결(Stitch)"할 수 있기 때문입니다. 오프라인 데이터셋의 궤적 \(\tau_i\)는 저조한 리턴값을 달성할 수 있지만 양호한 경로들을를 결합하여 더 나은 정책을 얻을 수 있습니다(A→E + E→D = A→D). 경로들을 일시적으로 연결할 수 있는 이 가능성은 Bellman 백업을 활용하는 가치 기반 오프라인 RL 알고리즘의 특징이지만, 데이터 또는 경로 수준 시퀀스 모델의 클로닝(부분 집합)은 오프라인 데이터셋에서 A에서 D까지의 단일 궤적이 관찰되지 않기 때문에 이 정보를 추출할 수 없습니다!
 
 그렇다면 왜 이러한 문제를 신경 써야 할까요? 어떤 사람들은 이러한 연결 현상이 난해한 엣지 케이스에서만 유용한 것인지, 아니면 실제적이고 실용적인 것인지 생각할 수 있습니다. 물론 이러한 연결 현상은 여러 단계의 로봇 조종 작업과 내비게이션 작업에서 매우 분명하게 나타납니다. 그러나 이러한 영역에만 국한되지 않고 미로와 관련되지 않은 작업에서도 연결의 중요성이 넌지시 나타난다는 것이 증명됐습니다. 실제로 효과적인 정책이란 행위(Behavior) 정책이 규정하는 행동(Action)과는 매우 다르지만 보상이 높은 '극한' 행동을 모든 상태에서 찾아내고, 그러한 행동을 연결하여 전반적으로 좋은 성과를 내는 정책을 얻는 방법을 학습하는 것입니다. 이러한 형식의 암시적 연결은 다양한 실제 응용 분야에서 나타납니다. 예를 들어, 여러 건물에서 과거에 실행된 서로 다른 제어 정책에서 수집한 데이터셋을 사용하여 건물의 탄소 발자국을 최소화하는 HVAC 제어 정책을 찾고자 할 수 있는데, 각 정책은 어떤 방식으로든 차선책이 될 수 있습니다. 이 경우에도 모든 상태에서 극한 행동을 연결하면 훨씬 더 나은 정책을 얻을 수 있습니다. 일반적으로 이러한 암시적 형태의 연결은 각 결정에서 극한 행동을 실행하지 않는 차선책(예: 다양한 인간 운전자의 데이터, 다양한 상황에서 뛰어난 성과를 내는 다양한 인간 트레이더의 데이터)을 혼합하여 수집한 데이터셋을 사용하여 연속적인 가치를 극대화하는 정말 좋은 정책(예: 자율주행에서 탑승자의 편안함 극대화, 자동 주식 거래에서 수익 극대화)을 찾고자 하는 경우에 필요합니다. 그러나 각 의사 결정에서 이러한 극한 행동을 연결하면 훨씬 더 나은 정책을 얻을 수 있습니다. 따라서 많은 문제에서 자연스럽게 성공하려면 경로, 분할(Segment) 또는 단일 결정을 명시적 또는 암시적으로 연결하는 학습이 필요하며, 오프라인 RL은 이러한 학습에 탁월합니다.
 
 자연스럽게 다음과 같은 질문을 할 수 있습니다. BC 메서드에 RL과 유사한 구성 요소를 추가하여 이 문제를 해결할 수 있을까요? 최근에 연구된 단계별 접근 방식은 행동 복제(Behavior Cloning)를 넘어 제한된 수의 정책 개선 절차를 수행하는 것입니다. 즉, 전체 오프라인 RL은 최적의 정책을 찾을 때까지 여러 차례의 정책 개선을 수행하지만, 행동 복제를 넘어서는 정책 개선 단계를 한 번만 실행하면 정책을 찾을 수 있습니다. 이 정책 개선은 일종의 가치 함수를 통합하여 수행되며, Bellman 백업을 활용하면 이 방법이 " 연결" 기능을 갖출 수 있을 것으로 기대할 수 있습니다. 안타깝게도 이 접근 방식조차도 오프라인 RL과의 격차를 완전히 좁힐 수는 없습니다. 왜냐하면 단계별 접근 방식은 경로 구간을 연결할 수는 있지만, 종종 잘못된 구간을 연결할 수 있기 때문입니다! 정책 업데이트가 향후 결과에 미치는 영향을 고려하지 않고 근시안적으로 정책을 개선하는 경우, 정책은 진정한 최적의 행동을 식별하지 못할 수 있습니다. 예를 들어, 아래 표시된 미로 예제에서 에이전트가 목표를 향해 이동하는 것보다 위쪽으로 이동하여 중간 정도의 보상을 받는 솔루션을 찾는 것이 더 나은 것처럼 보일 수 있는데, 이는 행동 정책 상으로는 아래쪽으로 이동하는 것이 최선이라고 볼 수 없기 때문입니다.

에이전트가 추후 행동 정책을 따를 것이라고 가정한 최적의 행동이 실제로는 모든 순차적 의사 결정 문제에 대해 최적이 아닐 수 있기 때문에 제한된 단계의 정책 개선만 수행하는 모방 스타일 방법은 여전히 차선책을 선택하는 오류에 빠질 수 있다.

오프라인 RL은 연결이 주요 관심사가 아닐 때 유용한가?

 지금까지의 분석 결과, 오프라인 RL 방식이 '연결' 측면에서 더 나은 것으로 나타났습니다. 하지만 로봇공학의 데모 데이터나 의료 분야의 좋은 정책 데이터와 같이 좋은 데이터가 제공될 때 과연 연결이 중요한지 의문을 가질 수 있습니다. 그러나 최근의 논문에서는 시간 구성이 주요 문제가 아닌 경우에도 오프라인 RL이 모방 학습에 비해 장점이 있다는 사실을 발견했습니다.
 
 오프라인 RL은 에이전트에게 '하지 말아야 할 일'을 알려줄 수 있습니다. 오프라인 RL 알고리즘의 가장 큰 장점 중 하나는 확률론적 정책에서 생성된 잡음이 많은 데이터 셋에서 RL을 실행하면 에이전트에게 수익을 극대화하기 위해 무엇을 해야 하는지 알려줄 뿐만 아니라 하지 말아야 할 일과 특정 상태에서의 행동이 향후 에이전트가 바람직하지 않은 시나리오에 처할 가능성에 어떤 영향을 미치는지도 알려줄 수 있다는 점입니다. 반면, 조건부 또는 가중치 BC는 보상이 적거나 안전하지 않은 행동을 명시적으로 금지하지 않고 "X를 하라"는 정책만 가르치는 형태입니다. 이는 특히 다양한 환경에서 로봇을 조작하거나 중환자실에서 환자 입원에 대한 결정을 내릴 때와 같이 무엇을 하지 말아야 하는지 명확하게 아는 것이 필수적인 오픈월드 환경과 관련이 있습니다. 이 논문에서는 '하지 말아야 할 것과 얼마나 아픈지'를 정확하게 추론함으로써 얻을 수 있는 이득을 정량화하고 이러한 직관을 아래 그림으로 설명합니다. 시뮬레이터(예: 로봇 공학, 자율 주행)에서 생성된 추가 '네거티브' 또는 '가짜 데이터'로 전문가 데모 데이터를 보강하거나, 먼저 모방 학습 방법을 실행하고 모방 학습 정책의 평가 롤아웃으로 데이터를 보강하는 오프라인 RL용 데이터 셋을 생성하여 이러한 노이즈 데이터를 쉽게 확보할 수 있습니다.

오프라인 RL 알고리즘은 노이즈 데이터를 활용하여 보상이 낮은 영역을 명시적으로 피하기 위해 하지 말아야 할 행동과 그 전에 에이전트가 지나치게 조심할 수 있는 행동을 파악하는 방법을 학습할 수 있다.

 실제로 전문가에 가까운 수준의 설명을 할 때 오프라인 RL이 쓸모가 있을까요? 마지막 시나리오로, 모방 학습을 위한 완벽한 환경인 전문가에 가까운 설명만 있는 경우를 생각해 봅시다. 이러한 환경에서는 하지 말아야 할 것을 학습하기 위해 노이즈가 있는 데이터를 연결하거나 활용할 기회가 없습니다. 오프라인 RL도 모방 학습을 개선할 수 있을까요? 안타깝게도 최악의 경우 어떤 알고리즘도 표준 행동 복제보다 더 나은 성능을 발휘할 수 없다는 것을 보여줄 수 있습니다. 그러나 작업에 일정한 구조가 있는 경우에는 오프라인 RL 정책이 더 강력할 수 있습니다. 예를 들어, 보상 정보를 사용하여 좋은 행동을 식별하기 쉬운 상태가 여러 개 있는 경우 오프라인 RL 접근 방식은 이러한 상태에서 좋은 행동으로 빠르게 수렴할 수 있는 반면, 보상을 활용하지 않는 표준 BC 접근 방식은 좋은 행동을 식별하지 못하여 정책이 강력하지 않고 과제를 해결하지 못할 수 있습니다. 따라서 장기적인 보상을 통해 좋은 행동을 쉽게 식별할 수 있는 "중요도가 높지 않은(Non-critical)" 상태가 많은 작업에는 오프라인 RL이 선호됩니다. 이 아이디어에 대한 그림은 아래와 같으며, 논문에서 이러한 직관을 정량화하는 이론적 결과를 공식적으로 증명합니다.
 

중요도가 높지 않은 상태(Non-critical status)의 개념에 대한 예시. 보상 정보를 통해 특정 상태에서 좋은 행동을 쉽게 식별할 수 있는 상태가 많으면(전문가의 시범이 제공되더라도) 어떤 종류의 보상 정보도 활용하지 않는 표준 BC와 비교하여 오프라인 RL에 도움이 될 수 있다.


그렇다면 모방 학습은 어떤 경유에 유용할까?

지금까지 조건부 및 가중치 BC가 실패할 수 있는 상황에서 오프라인 RL 방법이 강력하고 효과적일 수 있다는 점을 살펴보았습니다 지금부터는 특정한 상황에서 조건부 또는 가중치 BC가 유용한지 알아보고자 합니다. 이 질문은 표준 Behavorial Cloning의 맥락에서 쉽게 답할 수 있습니다. 데이터가 모방하려 하는 전문가의 데모로 구성돠어 있다면, 표준 Behavorial Cloning은 비교적 간단하고 좋은 선택입니다. 그러나 이 접근 방식은 데이터에 노이즈가 있거나 최적이 아닌 경우 또는 작업이 변경되는 경우(예: 초기 상태의 분포가 변경되는 경우)에는 실패합니다. 그리고 위에서 설명드린 것처럼 일정한 구조가 있는 설정에서는 오프라인 RL이 여전히 선호될 수 있습니다. 데이터에 좋은 경로와 좋지 않은 경로가 혼합되어 있는 경우 반환값을 기준으로 경로를 필터링하면 필터링된 BC를 따라하여 BC의 몇 가지 실패를 해결할 수 있습니다. 그러나 이러한 모든 경우에서 특히 작업이나 환경이 몇가지 조건을 충족하는 경우 오프라인 RL이 더 나은 대안이 될 수 있으며, 최소한 시도해 볼 가치가 있습니다.

조건부 BC는 주어진 작업에 적합한 조건 변수를 얻을 수 있을 때 문제를 잘 수행합니다. 예를 들어, 최근 연구에서 나온 개미집 탐식 영역에 대한 경험적 결과에 따르면 목표를 조건변수로 사용하는 조건부 BC는 목표 도달 문제에서 매우 효과적이지만, 결과에 대한 조건은 그렇지 않습니다. (표 1의 조건부 BC(목표)와 조건부 BC(결과) 참조) 직관적으로, 이 "적합한" 조건 변수는 본질적으로 접합을 가능하게 합니다. 예를 들어, 탐색 문제는 자연스럽게 일련의 중간 목표 도달 문제로 분해된 다음, 영리하게 선택된 중간 목표 도달 문제의 하위 집합에 솔루션을 접합하여 완전하게 작업을 해결할 수 있습니다. 조건부 BC의 핵심은 작업의 구성 구조에 대한 도메인 지식이 있어야 성공할 수 있다는 것입니다. 반면, 오프라인 RL 방법은 동적 프래그래밍을 실행하여 기본 접합 구조를 추출하여 좀 더 일반적으로 잘 동작합니다. 기술적으로는 이러한 아이디어를 결합하여 동적 프로그래밍을 활영하여 가치 함수를 학습한 다음, 그 가치 함수를 조건 변수로 조건부 BC를 실행하여 정책을 얻을 수 있으며, 이는 매우 잘 동작할 수 있습니다. (여기서 RCP-A와 RCP-R을 비교해보시기 바랍니다. RCP-A는 조건에 가치 함수를 사용하며, 여기서 TT+Q와 TT를 비교해 보시기 바랍니다.)

오프라인 RL과 BC를 비교한 경험적 결과

지금까지 살펴본 사례에서 오프라인 RL 방식이 접합으로 인해 모방 방식보다 훨씬 뛰어난 성능을 발휘할 수 있는 개미집과 같은 설정에 대해 알아보았습니다. 이제 전문가에 가까운 데모 데이터가 제공되는 작업에서 오프라인 RL과 BC의 성능을 비교한 몇 가지 경험적 결과를 빠르게 살펴보겠습니다.

전문가 데모 데이터와 노이즈가 있는 전문가 데이터를 사용하여 평균 7개의 아타리 게임에서 전체 오프라인 RL(CQL)과 흉내내기 방식(1단계 RL 및 BC)을 비교

 마지막 실험에서는 평균 7개의 아타리 게임에서 오프라인 RL 방법과 모방 방식의 성능을 비교해보았습니다. 대표적인 오프라인 RL 방법으로는 CQL(Conservative Q-learning)을 사용했습니다. 적절한 교차 검증을 통해 과다적합과 과소적합을 방지하지 않고 오프라인 RL을 순수하게 실행하는 경우("Naive CQL(전문가)")는 BC 보다 개설되지 않는다는 점에 유의하시기 바랍니다. 그러나 합리적인 교차 검증 결차를 갖춘 오프라인 RL("조정된 CQL(전문가)")은 BC보다 확실히 개선될 수 있습니다. 이는 오프라인 RL 방법을 어떻게 튜닝해야 하는지에 대한 필요성을 강조하며, 적어도 이전 작업의 데모 데이터에서 학습할 때 오프라인 RL의 성능이 좋지 않는 이유를 일부 설명해줍니다. 알고리즘이 수행해서는 안되는 작업을 알려줄 수 있는 약간의 노이즈 데이터를 포함하면 동일한 데이터 범위 내에서 성능("CQL(Noisy Expert) vs "BC(Expert)")을 더욱 향상시킬 수 있습니다. 마지막으로, 하나의 정책 개선 단계가 상당히 효과적일 수 있다고 예상할 수 있지만, 하이퍼파라미터에 매우 민감하며, BC보다 크게 개선되지 않는다는 것을 확인했습니다. 이러한 관찰 결과는 블로그 포스트의 앞부분에서 논의한 결과를 뒷받침합니다. 다른 분야에 대한 결과는 논문에서 자세히 다루고 있으니 관련 업무를 수행하시는 분들께서는 확인해 보시기 바랍니다.

토론 및 시사점

이 포스팅에서 는 다양한 순차적 의사결정 문제를 해결하는 데 오프라인 RL이 더 나은 접근 방식인지, 언제, 왜 필요한지 알아보고자 하였습니다. 여러 문제에서 가치 함수를 학습하는 오프라인 RL 방법이 접합의 이점을 활용할 수 있으며 이는 많은 문제에서 결정적일 수 있음을 살펴보았습니다. 또한 전문가 또는 전문가에 가까운 데모 데이터가 있는 시나리오에서도 오프라인 RL을 실행하는 것이 좋은 아이디어가 될 수 있습니다. 실무자를 위한 추천 내용을 이 포스팅의 첫머리에 있는 그림 1에 요약해 놓았습니다. 이번 분석을 통해 오프라인 RL 접근 방식의 장점과 특성에 대한 이해가 한층 더 높아지셨기를 바랍니다.

 
참고자료: https://bair.berkeley.edu/blog/2022/04/25/rl-or-bc/

Should I Use Offline RL or Imitation Learning?

The BAIR Blog

bair.berkeley.edu

 
 

반응형