늦깎이 공대생의 인공지능 연구실

[논문프리뷰]분포 변화를 조절하여 학습 기반 제어의 안전성을 유지하는 방법(Keeping Learning-Based Control Safe by Regulating Distributional Shift) 본문

BAIR

[논문프리뷰]분포 변화를 조절하여 학습 기반 제어의 안전성을 유지하는 방법(Keeping Learning-Based Control Safe by Regulating Distributional Shift)

Justin T. 2022. 10. 3. 13:24

학습 기반 제어를 통해 분포 이동 경험을 조절하기 위해, 궤적 전체(왼쪽)에 걸쳐 데이터 밀도가 높은 영역으로 에이전트를 제한하기 위한 메커니즘을 찾는다. 여기서 밀도 모델(중간)과 리아푸노프 함수(오른쪽)의 특성을 결합하여 목표를 달성하는 접근 방식을 제시한다.

 

 실제 시스템을 제어함에 있어 기계학습과 강화학습을 활용하기 위해서는 우수한 성능 달성 뿐만 아니라 안전하고 신뢰할 수 있는 방식으로 시스템과 상호 작용하는 알고리즘을 설계해야 합니다. 안전 필수 제어와 관련된 이전의 연구는 다리 달린 로봇이 넘어지거나 자율 주행 차량이 장애물에 충돌하지 않도록 물리적 시스템의 안전을 유지하는 데 중점을 두고 있었습니다. 그러나 학습 기반 제어의 경우, 또 다른 안전 문제가 내재되어 있습니다. 기계학습 모델은 훈련 데이터에 대한 정확한 예측 결과가 나오도록 최적화되어 있기 때문에 분포 외 입력에 대해 평가할 때 잘못된 예측을 하기 쉽습니다. 따라서 에이전트가 훈련 데이터와는 매우 다른 상태(State)나 행동(Action)을 취하는 경우, 학습 가능 제어는 학습된 구성 요소의 부정확성을 "이용"하고 차선적이거나 심지어 위험한 행동(Action)을 할 수 있습니다.

 

 모델 부정확성에 대한 이러한 잠재적 "이용"을 방지하기 위해, 훈련 분포와 관련하여 학습 기반 제어 안전 추론을 위한 새로운 프레임워크를 제안합니다. 이 작업의 이면에 있는 핵심 아이디어는 훈련 데이터 분포를 안전 제한으로 보고, 폐쇄 루프 제어 중에 에이전트가 겪는 분포 이동을 제어하기 위해 제어 이론의 도구를 활용하는 것입니다. 좀 더 구체적으로, 우리는 리아푸노프 안정성(Lyapunov stability)으로 밀도 추정과 통합하여 리아푸노프 밀도 모델을 생성하는 방법에 대해 논의하고자 합니다. 리아푸노프 밀도 모델은 높은 데이터 밀도의 영역에 에이전트를 유지하는 것을 보장하는 제어를 합성하는 데 사용할 수 있는 새로운 종류의 안전 "장벽" 함수(Barrier function) 역할을 합니다. 새로운 프레임워크를 소개하기 전에 먼저 장벽 함수를 통해 물리적 안전을 보장하기 위한 기존 기술에 대해 간단히 설명하겠습니다.

장벽함수를 통한 안전 보장(Guaranteeing Safety via Barrier Functions)

 제어 이론 연구의 중심 주제는 다음과 같습니다: 다음과 같이 시스템 역학이 주어졌을 때,

$$s_{t+1}=f(s_t, a_t)$$

다음과 같은 시스템 제한이 주어졌을 때

$$s \in C$$

지정된 제약 조건 내에서 시스팀이 유지되도록 어떻게 보장된 제어를 설계할 수 있을까요? 여기서 \(C\)는 에이전트가 진입하기에 안전한 것으로 간주되는 상태 집합을 의마합니다. 지정된 제약 조건을 에이전트의 전체 궤적 범위에 걸쳐 충족해야 하기 때문에 이 문제는 어렵습니다( \(s_t \in C \quad \forall 0\leq t \leq T\) ). 컨트롤러가 다음 단계에서 제약 조건 위반을 피하는 간단한 "탐욕(Greedy)" 전략을 사용하는 경우( \(f(s_t, a_t) \notin C\)인 경우, \(a_t\)를 취하지 않음),시스템은 여전히 "복구 불가능한" 상태로 끝날 수 있으며, 이 상태 자체는 안전하다고 간주되지만, 에이전트의 미래 행동과 관계없이 미래에 불가피하게 안전하지 않은 상태로 이어질 수 있습니다. 이러한 "복구 불가능한" 상태에 진입하지 않으려면, 제어는 미래의 어느 시점에서도 안전 위반을 방지하기 위해 에이전트의 전체 미래 궤적을 예측하는 것을 포함하는 보다 "장기적(long-horizontal)" 전략을 채택하여야 합니다(avoid \(a_t\) for which all possible \(\{ a_{\hat{t}} \}_{\hat{t}=t+1}^H\) lead to some \(\bar{t}\) where \(s_{\bar{t}} \notin C\) and \(t<\bar{t} \leq T\) ). 그러나 모든 단계에서 에이전트의 전체 궤적을 예측하는 것은 계산 집약적이며 종종 실행 시간 동안 온라인으로 수행하는 것이 불가능합니다.

안전 위반을 피하는 '탐욕(Greedy)' 전략을 구사해 드론은 다음 단계에선 장애물이 없어 직진하지만, 그 이후에는 다음 상태에서는 추락할 수밖에 없습니다.
대조적으로, "장기적(Long-Horizon)" 전략을 사용하면, 드론은 궤도의 미래 전체를 고려하여 일찍 회피하여 나무를 성공적으로 피합니다.

 

 제어 이론가들은 각 단계에서 제어기를 구속하는 "장벽" 함수 \(v(s)\)를 설계함으로써 이 문제를 해결합니다( \(v(f(s_t, a_t)) \leq 0\)을 만족할 때에만 \(a_t\)을 허용). 에이전트가 전체 궤적을 통해 안전하게 유지되도록 하기 위해 장벽 함수 ( \(v(f(s_t, a_t))\leq 0\) )에 의해 유도된 제약 조건은 미래에 안전하지 않은 상태를 필연적으로 초래하는 현재의 안전하지 않은 상태와 복구할 수 없는 상태에 방문하는 모든 상황을 방지합니다. 이 전략은 기본적으로 안전 장벽 함수를 설계할 때 피할 수 없는 실패에 대해 미래를 보는 계산을 상각합니다. 이 계산은 한 번만 수행하면 되고 오프라인에서 계산할 수 있습니다.이러한 방식으로, 런타임에, 정책은 미래의 모든 시간 단계에 대한 안전을 보장하기 위해 장벽 함수\( v(s)\)에 대한 탐욕 제약 만족 전략을 채택하기만 하면 됩니다.

 

파란색 영역은 장벽 함수 제약 조건이 허용하는 상태를 나타낸다( \(\{s | v(s) \leq 0\}\) ). 드론은 "장기적(Long-Horizontal)" 장벽 함수를 사용하여 미래의 모든 시간 단계에서 안전 위반을 피하기 위해 다음 상태에 대해 장벽 함수 제약 조건 \(v(s) \leq 0\)이 충족되는지 탐욕스럽게 확인하기만 하면 된다.

 

 여기서는 "장벽" 함수의 개념을 광범위한 용어로 사용하여 함수가 장기간(Long-horizon) 보장을 위해 제어를 제한하는 다양한 종류의 함수를 설명했습니다. 일부 구체적인 예로는 안정성 보장을 위한 제어 리아푸노프 함수, 일반적인 안전 제약 조건을 보장하기 위한 제어 장벽 함수, 외부 장애에 대해 일반적인 안전 제약 조건을 보장하기 위한 해밀턴-야코비 도달성(Hamilton-Jacobi reachability)의 가치 함수가 있습니다. 보다 최근에는 시스템을 알 수 없거나 장벽 함수를 설계하기 어려운 설정에 대한 장벽 함수 학습에 대한 일부 사례도 있습니다. 그러나 전통적인 장벽 함수와 학습 기반 장벽 함수의 이전 연구는 주로 물리적 안전을 보장하는 데 초점을 맞추고 있습니다. 다음 섹션에서는 이러한 아이디어를 확장하여 학습 기반 제어를 사용할 때 에이전트가 경험하는 분포 변화를 규제할 수 있는 방법에 대해 논의합니다.

리아푸노프 밀도 모델

 분포가 변화된 모델이 이용되는 것을 방지하기 위해 많은 학습 기반 제어 알고리즘은 에이전트가 오프라인 RL, 모델 기반 RL 및 모방 학습과 같은 저우도(low-likelihood) 행동을 취하거나 저우도 상태를 방문하는 것을 방지하기 위해 제어를 제한하거나 정규화합니다. 그러나 이러한 방법의 대부분은 다음 단계에서 드론이 추락하는 행동을 방지하여 자율 드론을 안전하게 유지하는 "탐욕" 전략과 유사하게 데이터 분포의 단일 단계 추정으로 제어를 제한합니다. 위의 예에서 보듯이, 이 전략은 드론이 미래의 또 다른 시간 단계에서 충돌(또는 OOD(Out-of-distribution)하지 않도록 보장하기에 충분하지 않습니다.

 

 에이전트가 전체 궤도에 대해 분포 상태를 유지하도록 보장하는 제어를 어떻게 설계할 수 있을까요? 장벽 함수는 미래의 모든 시간 단계에 대한 제약 만족을 보장하는 데 사용될 수 있다는 것을 기억하세요. 이는 정확히 데이터 분포와 관련하여 우리가 하고자 하는 일종의 보증입니다. 이러한 관찰을 기반으로, 우리는 새로운 종류의 장벽 함수인 리아푸노프(Lyapunov) 밀도 모델(LDM)을 제안합니다. 리아푸느포 함수의 역학 인식 측면을 밀도 모델의 데이터 인식 측면과 병합하는 것이 핵십입니다(사실상 두 가지 유형의 함수를 일반화한 것입니다). 리아푸노프 함수가 시스템이 물리적으로 안전하지 않게 되는 것과 유사하게, 리아푸노프 밀도 모델은 시스템이 분산되지 않도록 합니다.

 

LDM(\(G(s,a)\))은 상태 및 행동 쌍을 음의 로그 밀도에 매핑하며, 여기서 \(G(s,a)\) 값은 에이전트가 전체 궤적에서 위에 머무를 수 있는 최고의 데이터 밀도를 나타냅니다. \(E(s,a)\)가 데이터 분포의 음의 로그 가능성을 근사화하는 단일 단계 밀도 모델\((E(s,a)\))에서 "역학을 인식하는 장기적" 변환으로 직관적으로 생각할 수 있습니다. 단일 단계 밀도 모델 제약( \(c\)가 컷오프 밀도일 때, \( E(s, a) \leq -\log(c)\))으로 인해 에이전트가 "복구할 수 없는" 상태를 방문할 수 있으므로, LDM 변환은 업데이트된 값에 대해 "복구할 수 있는" 상태가 될 때까지 해당 "복구할 수 없는" 상태의 값을 증가시킵니다.결과적으로, LDM 제약 조건(\( G(s, a) \leq -\log(c) \))은 에이전트를 "복구할 수 없는" 상태를 제외한 더 작은 상태 집합과 행동으로 제한하여 에이전트가 전체 궤적에서 높은 데이터 밀도 영역에 머물 수 있도록 보장합니다.

2D 선형 시스템의 데이터 분포(가운데) 및 관련 LDM(오른쪽)의 예(왼쪽). LDM은 밀도 모델에서 "역학을 인식하는 장기적" 변환으로 볼 수 있다.

이러한 "역학을 인식하는 장기적" 변환은 정확히 어떻게 작동할까요? 데이터 분포 \(P(s,a)\)와 동적 시스템 \(s_{t+1} = f(s_t, a_t)\)가 주어지면 LDM 연산자를 다음과 같이 정의합니다.

$$\mathcal{T}G(s, a) = \max\{-\log P(s, a), \min_{a’} G(f(s, a), a’)\}$$

 \(G(s, a)\)를 \(-\log P(s, a)\)로 초기화 하였다고 가정해 봅니다. LDM 연산자의 한 반복에서, 상태 행동 쌍 \(G(s,a)\)의 값은 다음 시간 단계에서 최상의 상태 행동 쌍\(\min_{a’} G(f(s, a), a’)\)의 값이 \(-\log P(s, a)\)보다 큰지 여부에 따라 \(-\log P(s, a)\)로 유지되거나 값이 증가할 수 있습니다. 직관적으로, 최상의 다음 상태 행동 쌍의 값이 현재 \(G(s,a)\) 값보다 크면, 이는 에이전트가 향후 행동과 관계없이 현재 밀도 수준을 유지할 수 없음을 의미하며, 현재 밀도 수준과 관련하여 현재 상태를 "복구할 수 없음"으로 만듭니다. \(G(s,a)\)의 현재 값을 증가시킴으로써 LDM의 제약 조건에 "복구 불가능한" 상태가 포함되지 않도록 "수정"하고 있습니다. 여기서 한 LDM 연산자 업데이트는 한 번에 한 단계씩 미래를 보는 효과를 캡처합니다. 수렴할 때까지 \(G(s,a)\)에 LDM 연산자를 반복적으로 적용하면 최종 LDM은 에이전트의 전체 미래 궤도에서 "복구 불가능한" 상태가 되지 않습니다.

 

 제어에서 LDM을 사용하기 위해 동일한 훈련 데이터셋에서 LDM 및 학습 기반 컨트롤러를 훈련하고 LDM 제약 조건(\(G(s, a)) \leq -\log(c)\))으로 제어 동작 출력을 제한할 수 있습니다. LDM 제약 조건은 밀도가 낮은 상태와 "복구 불가능한" 상태를 모두 방지하므로, 학습 기반 제어는 에이전트의 전체 궤적 전체에 걸쳐 분포 외 입력을 피할 수 있습니다. 또한, LDM 제약 조건인 \(c\)의 컷오프 밀도를 선택함으로써, 사용자는 모델 오류로부터 보호하는 것과 원하는 작업을 수행하기 위한 유연성 사이의 균형을 제어할 수 있습니다.

제약 조건 임계값(x축)의 다양한 값에 대한 호퍼 제어 작업 평가 및 기준 방법의 예시. 오른쪽에서 임계값이 너무 낮거나(과도한 모델 사용으로 인해 호퍼가 넘어짐), 적정한 값일 때(호퍼가 목적지를 향해 성공적으로 깡충깡충 뛰어감) 또는 너무 높을 때(너무 보수적으로 접근해 호퍼가 가만히 서 있는 경우)의 예시 궤적.

 지금까지 우리는 데이터 배포 및 동적 시스템에 대한 오라클 액세스 권한이 있을 경우 찾을 수 있는 "완벽한" LDM의 특징에 대해서만 설명했습니다. 그러나 실제로는 시스템의 데이터 샘플만을 사용하여 LDM을 근사화합니다. 이로 인해 문제가 발생하는데, LDM의 역할은 분포 변화를 방지하는 것이지만, LDM 자체도 분포 변화의 부정적인 영향을 받을 수 있으며, 이는 분포 이동을 방지하는 효과를 저하시킵니다. 저하가 발생하는 정도를 이해하기 위해 이론적, 경험적 관점에서 이 문제를 분석합니다. 이론적으로, 우리는 LDM 학습 절차에 오류가 있더라도 LDM 제약 제어는 여전히 에이전트를 배포 상태로 유지할 수 있음을 보여줍니다. 그러나 이 보증은 완벽한 LDM이 제공하는 원래 보증보다 약간 약하며, 여기서 저하량은 학습 절차의 오류 규모에 따라 달라집니다. 경험적으로, 우리는 심층 신경망을 사용하여 LDM을 근사화하고, 학습 기반 제어를 제한하기 위해 학습된 LDM을 사용하는 것이 여러 도메인에서 단일 단계 밀도 모델을 사용하는 것에 비해 여전히 성능 향상을 제공한다는 것을 보여줍니다.

밀도 모델, 모델 앙상블에 대한 분산, 호퍼, 달 착륙선 및 포도당 제어를 포함한 여러 도메인에 대한 제약 없이 학습 기반 컨트롤러를 제한하는 것과 비교한 방법(LDM)의 평가.

결론 및 요점

 현재, 실제 시스템에 학습 기반 제어를 배포하는 데 있어 가장 큰 어려움 중 하나는 OOD(out-of-distribution) 입력에 대한 잠재적인 취약성과 성능에 대한 보증이 부족하다는 점입니다. 편리하게도, 제어 이론에는 시스템이 어떻게 진화하는지 보장하는 데 초점을 맞춘 많은 연구가 존재합니다. 그러나 이러한 연구는 일반적으로 물리적 안전 요구 사항과 관련하여 보증하는 데 초점을 맞추고 있으며, 물리적 안전 제약뿐만 아니라 시스템의 정확한 역학 모델에 대한 접근을 가정합니다. 우리 작업의 핵심 아이디어는 훈련 데이터 분포를 안전 제약으로 대신하는 것입니다. 이를 통해 학습 기반 제어 알고리즘 설계에서 이러한 아이디어를 제어에 사용할 수 있으므로 기계학습의 확장성과 제어 이론의 엄격한 보증을 모두 이어받을 수 있습니다.

 

참고자료: https://bair.berkeley.edu/blog/2022/09/19/ldm-control/

 

Keeping Learning-Based Control Safe by Regulating Distributional Shift

The BAIR Blog

bair.berkeley.edu

 

반응형