늦깎이 공대생의 인공지능 연구실
[논문프리뷰]분포 변화를 조절하여 학습 기반 제어의 안전성을 유지하는 방법(Keeping Learning-Based Control Safe by Regulating Distributional Shift) 본문
[논문프리뷰]분포 변화를 조절하여 학습 기반 제어의 안전성을 유지하는 방법(Keeping Learning-Based Control Safe by Regulating Distributional Shift)
Justin T. 2022. 10. 3. 13:24
실제 시스템을 제어함에 있어 기계학습과 강화학습을 활용하기 위해서는 우수한 성능 달성 뿐만 아니라 안전하고 신뢰할 수 있는 방식으로 시스템과 상호 작용하는 알고리즘을 설계해야 합니다. 안전 필수 제어와 관련된 이전의 연구는 다리 달린 로봇이 넘어지거나 자율 주행 차량이 장애물에 충돌하지 않도록 물리적 시스템의 안전을 유지하는 데 중점을 두고 있었습니다. 그러나 학습 기반 제어의 경우, 또 다른 안전 문제가 내재되어 있습니다. 기계학습 모델은 훈련 데이터에 대한 정확한 예측 결과가 나오도록 최적화되어 있기 때문에 분포 외 입력에 대해 평가할 때 잘못된 예측을 하기 쉽습니다. 따라서 에이전트가 훈련 데이터와는 매우 다른 상태(State)나 행동(Action)을 취하는 경우, 학습 가능 제어는 학습된 구성 요소의 부정확성을 "이용"하고 차선적이거나 심지어 위험한 행동(Action)을 할 수 있습니다.
모델 부정확성에 대한 이러한 잠재적 "이용"을 방지하기 위해, 훈련 분포와 관련하여 학습 기반 제어 안전 추론을 위한 새로운 프레임워크를 제안합니다. 이 작업의 이면에 있는 핵심 아이디어는 훈련 데이터 분포를 안전 제한으로 보고, 폐쇄 루프 제어 중에 에이전트가 겪는 분포 이동을 제어하기 위해 제어 이론의 도구를 활용하는 것입니다. 좀 더 구체적으로, 우리는 리아푸노프 안정성(Lyapunov stability)으로 밀도 추정과 통합하여 리아푸노프 밀도 모델을 생성하는 방법에 대해 논의하고자 합니다. 리아푸노프 밀도 모델은 높은 데이터 밀도의 영역에 에이전트를 유지하는 것을 보장하는 제어를 합성하는 데 사용할 수 있는 새로운 종류의 안전 "장벽" 함수(Barrier function) 역할을 합니다. 새로운 프레임워크를 소개하기 전에 먼저 장벽 함수를 통해 물리적 안전을 보장하기 위한 기존 기술에 대해 간단히 설명하겠습니다.
장벽함수를 통한 안전 보장(Guaranteeing Safety via Barrier Functions)
제어 이론 연구의 중심 주제는 다음과 같습니다: 다음과 같이 시스템 역학이 주어졌을 때,
다음과 같은 시스템 제한이 주어졌을 때
지정된 제약 조건 내에서 시스팀이 유지되도록 어떻게 보장된 제어를 설계할 수 있을까요? 여기서


제어 이론가들은 각 단계에서 제어기를 구속하는 "장벽" 함수

파란색 영역은 장벽 함수 제약 조건이 허용하는 상태를 나타낸다( |
여기서는 "장벽" 함수의 개념을 광범위한 용어로 사용하여 함수가 장기간(Long-horizon) 보장을 위해 제어를 제한하는 다양한 종류의 함수를 설명했습니다. 일부 구체적인 예로는 안정성 보장을 위한 제어 리아푸노프 함수, 일반적인 안전 제약 조건을 보장하기 위한 제어 장벽 함수, 외부 장애에 대해 일반적인 안전 제약 조건을 보장하기 위한 해밀턴-야코비 도달성(Hamilton-Jacobi reachability)의 가치 함수가 있습니다. 보다 최근에는 시스템을 알 수 없거나 장벽 함수를 설계하기 어려운 설정에 대한 장벽 함수 학습에 대한 일부 사례도 있습니다. 그러나 전통적인 장벽 함수와 학습 기반 장벽 함수의 이전 연구는 주로 물리적 안전을 보장하는 데 초점을 맞추고 있습니다. 다음 섹션에서는 이러한 아이디어를 확장하여 학습 기반 제어를 사용할 때 에이전트가 경험하는 분포 변화를 규제할 수 있는 방법에 대해 논의합니다.
리아푸노프 밀도 모델
분포가 변화된 모델이 이용되는 것을 방지하기 위해 많은 학습 기반 제어 알고리즘은 에이전트가 오프라인 RL, 모델 기반 RL 및 모방 학습과 같은 저우도(low-likelihood) 행동을 취하거나 저우도 상태를 방문하는 것을 방지하기 위해 제어를 제한하거나 정규화합니다. 그러나 이러한 방법의 대부분은 다음 단계에서 드론이 추락하는 행동을 방지하여 자율 드론을 안전하게 유지하는 "탐욕" 전략과 유사하게 데이터 분포의 단일 단계 추정으로 제어를 제한합니다. 위의 예에서 보듯이, 이 전략은 드론이 미래의 또 다른 시간 단계에서 충돌(또는 OOD(Out-of-distribution)하지 않도록 보장하기에 충분하지 않습니다.
에이전트가 전체 궤도에 대해 분포 상태를 유지하도록 보장하는 제어를 어떻게 설계할 수 있을까요? 장벽 함수는 미래의 모든 시간 단계에 대한 제약 만족을 보장하는 데 사용될 수 있다는 것을 기억하세요. 이는 정확히 데이터 분포와 관련하여 우리가 하고자 하는 일종의 보증입니다. 이러한 관찰을 기반으로, 우리는 새로운 종류의 장벽 함수인 리아푸노프(Lyapunov) 밀도 모델(LDM)을 제안합니다. 리아푸느포 함수의 역학 인식 측면을 밀도 모델의 데이터 인식 측면과 병합하는 것이 핵십입니다(사실상 두 가지 유형의 함수를 일반화한 것입니다). 리아푸노프 함수가 시스템이 물리적으로 안전하지 않게 되는 것과 유사하게, 리아푸노프 밀도 모델은 시스템이 분산되지 않도록 합니다.
LDM(

이러한 "역학을 인식하는 장기적" 변환은 정확히 어떻게 작동할까요? 데이터 분포
제어에서 LDM을 사용하기 위해 동일한 훈련 데이터셋에서 LDM 및 학습 기반 컨트롤러를 훈련하고 LDM 제약 조건(

지금까지 우리는 데이터 배포 및 동적 시스템에 대한 오라클 액세스 권한이 있을 경우 찾을 수 있는 "완벽한" LDM의 특징에 대해서만 설명했습니다. 그러나 실제로는 시스템의 데이터 샘플만을 사용하여 LDM을 근사화합니다. 이로 인해 문제가 발생하는데, LDM의 역할은 분포 변화를 방지하는 것이지만, LDM 자체도 분포 변화의 부정적인 영향을 받을 수 있으며, 이는 분포 이동을 방지하는 효과를 저하시킵니다. 저하가 발생하는 정도를 이해하기 위해 이론적, 경험적 관점에서 이 문제를 분석합니다. 이론적으로, 우리는 LDM 학습 절차에 오류가 있더라도 LDM 제약 제어는 여전히 에이전트를 배포 상태로 유지할 수 있음을 보여줍니다. 그러나 이 보증은 완벽한 LDM이 제공하는 원래 보증보다 약간 약하며, 여기서 저하량은 학습 절차의 오류 규모에 따라 달라집니다. 경험적으로, 우리는 심층 신경망을 사용하여 LDM을 근사화하고, 학습 기반 제어를 제한하기 위해 학습된 LDM을 사용하는 것이 여러 도메인에서 단일 단계 밀도 모델을 사용하는 것에 비해 여전히 성능 향상을 제공한다는 것을 보여줍니다.

결론 및 요점
현재, 실제 시스템에 학습 기반 제어를 배포하는 데 있어 가장 큰 어려움 중 하나는 OOD(out-of-distribution) 입력에 대한 잠재적인 취약성과 성능에 대한 보증이 부족하다는 점입니다. 편리하게도, 제어 이론에는 시스템이 어떻게 진화하는지 보장하는 데 초점을 맞춘 많은 연구가 존재합니다. 그러나 이러한 연구는 일반적으로 물리적 안전 요구 사항과 관련하여 보증하는 데 초점을 맞추고 있으며, 물리적 안전 제약뿐만 아니라 시스템의 정확한 역학 모델에 대한 접근을 가정합니다. 우리 작업의 핵심 아이디어는 훈련 데이터 분포를 안전 제약으로 대신하는 것입니다. 이를 통해 학습 기반 제어 알고리즘 설계에서 이러한 아이디어를 제어에 사용할 수 있으므로 기계학습의 확장성과 제어 이론의 엄격한 보증을 모두 이어받을 수 있습니다.
참고자료: https://bair.berkeley.edu/blog/2022/09/19/ldm-control/
Keeping Learning-Based Control Safe by Regulating Distributional Shift
The BAIR Blog
bair.berkeley.edu