늦깎이 공대생의 인공지능 연구실

사회에 도움을 주는 강화학습 시스템 설계 본문

BAIR

사회에 도움을 주는 강화학습 시스템 설계

Justin T. 2022. 6. 27. 00:50

 

 심층 강화 학습(DRL)은 게임 플레이에 중점을 둔 연구 분야에서 실제 애플리케이션을 사용하는 기술로의 전환이 시도되고 있습니다. 대표적인 예로는 원자로를 제어하거나 유튜브 비디오 압축을 개선하는 딥마인드의 작업이 있으며, 자율주행 자동차의 행동 계획을 위해 MuZero에서 영감을 받은 방법을 사용하려는 Tesla가 있습니다. 그러나 RL의 실제 적용에 대한 흥미로운 잠재력은 또한 상당한 주의를 기울여야 합니다. 예를 들어, RL 정책은 악용에 취약한 것으로 잘 알려져 있으며, 안전하고 강력한 정책 개발을 위한 방법에 대한 활발한 연구분야들이 있습니다.

 

 실제 세계에서 강력한 RL 시스템의 출현과 동시에, 시민들과 연구원들은 공정하고, 곧고, 안전한 기계 학습 시스템에 대한 증가한 욕구를 표현하고 있습니다. 지금까지 이러한 연구 노력의 초점은 개인에게 해를 끼칠 수 있는 데이터셋 또는 지도 학습 관행의 단점을 설명하는 것이었습니다. 그러나 학습에서 시간적 피드백을 활용하는 RL 시스템의 고유한 능력은 발생할 수 있는 위험 유형 및 안전 문제를 복잡하게 만듭니다.

 

 이 포스팅은 RL의 시간 축으로 증강될 때 발생할 수 있는 다양한 양상을 설명하는 것을 목표로 하는 최근 백서연구 논문 또한 다루고자 합니다. 이러한 새로운 사회적 위험과 싸우기 위해, 우리는 또한 배치 전후에 이러한 위험을 평가하고 모니터링하는 것을 목표로 하는 동적 머신 러닝 시스템을 위한 새로운 종류의 기록문서를 제안합니다.

RL의 특별한 점은? 피드백 분류법

 강화 학습 시스템은 수동적으로 예측하기보다는 환경에서 행동할 수 있는 능력으로 종종 주목받습니다. 컴퓨터 비전과 같은 다른 지도 기계 학습 시스템은 데이터를 소비하고 일부 의사 결정 규칙에 의해 사용될 수 있는 예측을 반환합니다. 대조적으로, RL의 매력은 (a) 조치의 영향을 직접 모델링할 수 있을 뿐만 아니라 (b) 정책 성과를 자동으로 개선할 수 있는 능력에 있습니다. 환경에 대한 행동과 환경 내 학습의 이러한 주요 특성은 RL 에이전트가 환경 내에서 행동할 때 발생하는 다양한 유형의 피드백을 고려하는 것으로 이해할 수 있습니다. 우리는 이러한 피드백 양식을 (1) 제어, (2) 행동 (3) 외부 피드백으로 분류합니다. 피드백의 처음 두 가지 개념인 제어와 행동은 RL 에이전트의 공식적인 수학적 정의 내에 있는 반면, 외부 피드백은 에이전트가 더 넓은 세계와 상호 작용할 때 유도됩니다.

1. 제어 피드백(Control Feedback)

 첫번째로 제어 시스템 엔지니어링 측면에서의 제어 피드백입니다. 여기서 수행되는 조치는 시스템 상태의 현재 측정에 따라 달라집니다. RL 에이전트는 정책에 따라 관찰된 상태에 따라 작업을 선택하여 환경 피드백을 생성합니다. 예를 들어, 온도 조절기는 현재 온도 측정에 따라 용광로를 켭니다. 제어 피드백을 통해 에이전트는 예기치 않은 이벤트(예: 갑자기 추워지는 날씨)에 자동으로 대응할 수 있습니다.

제어 피드백

2. 행동 피드백(Behavioral Feedback)

 RL 피드백 분류법의 다음 단계는 에이전트가 환경과의 상호 작용을 통해 정책을 개선할 수 있도록 하는 시행착오 학습인 '행동 피드백'입니다. 이는 '고전적' 제어 이론과 비교하여 RL의 정의적 특징으로 간주될 수 있습니다. RL의 정책은 향후 에이전트에서 수행할 작업을 결정하는 매개 변수 집합으로 정의할 수 있습니다. 이러한 매개 변수는 동작 피드백을 통해 업데이트되므로 실제로 이전 정책 버전의 실행에서 수집된 데이터가 반영된 것입니다. RL 에이전트는 이러한 측면에서 완전히 '기억이 없음'은 아닙니다. 현재 정책은 저장된 경험에 따라 달라지며, 새로 수집된 데이터에 영향을 미쳐 에이전트의 향후 버전에 영향을 미칩니다. 온도 조절 장치의 예를 기억해봅니다. '스마트 홈'의 온도 조절 장치는은 과거 온도 측정값을 분석하고 계절별 온도 변화에 따라 제어 매개 변수를 조정할 수 있습니다(예: 겨울철에 보다 적극적인 제어 체계를 갖출 수 있습니다).

 

행동 피드백

3. 외부 피드백(Exogenous Feedback)

 마지막으로, 지정된 RL 환경 외부의 세 번째 형태의 피드백을 고려할 수 있으며, 이를 외부(또는 'exo') 피드백이라고 합니다. RL 벤치마킹 작업은 정적 환경일 수 있지만, 실제 환경의 모든 작업은 대상 배포 환경 및 인접 환경의 역학에 영향을 미칩니다. 예를 들어, 링크를 클릭하는데 최적화된 인터넷 뉴스 추천 시스템은 편집자가 주의를 끄는낚시기사를 위해 헤드라인을 작성하는 방식을 바꿀 수 있습니다. 이 RL 공식에서, 권장되는 기사 집합은 환경의 일부로 간주되고 정적인 상태를 유지할 것으로 예상되지만, 노출 인센티브는 시간이 지남에 따라 변화를 일으킵니다.

 온도 조절 장치의 예를 계속하자면, '스마트 온도 조절 장치'가 시간이 지남에 따라 동작을 계속 조정함에 따라 가정 내 다른 인접 시스템의 동작이 이에 대응하여 변할 수 있습니다. 예를 들어, 다른 가전제품은 발열 증가로 인해 더 많은 전기를 소비하여 전기 비용에 영향을 줄 수 있습니다. 가구 거주자들은 또한 낮 동안의 다른 온도 프로파일로 인해 옷과 행동 패턴을 바꿀 수 있습니다. 또한 이러한 2차 효과는 서모스탯이 모니터링하는 온도에 영향을 미쳐 더 오랜 시간 피드백 루프로 이어질 수 있습니다.

 이러한 외부 효과의 부정적인 비용은 에이전트 중심 보상 함수에 명시되지 않으므로 이러한 외부 환경이 조작되거나 악용될 수 있습니다. Exo-feedback은 정의상 디자이너가 예측하기 어렵습니다. 대신 에이전트, 대상 환경 및 인접 환경의 진화를 문서화하여 해결해야 한다고 제안합니다.

외부(exo) 피드백

RL 시스템이 어떻게 고장날 수 있을까?

 두 가지 주요 특성이 RL 시스템에 특정한 고장 모드를 발생시키는 방법을 고려합니다. 즉, 직접 행동 선택과 행동 피드백을 통한 자율 데이터 수집입니다.

 첫 번째는 의사결정-시간 안전입니다. 안전한 결정을 만들기 위한 RL 연구의 현재 관행 중 하나는 특정 유해하거나 바람직하지 않은 상태 및 행동에 대한 페널티 조건으로 에이전트의 보상 기능을 강화하는 것입니다. 예를 들어, 로봇 영역에서 우리는 특정 동작(예: 매우 큰 토크) 또는 상태 동작 튜플값들(예: 민감한 장비 위에 물 한잔을 나르는 것)에 불이익을 줄 수 있습니다. 그러나 실패하면 안전하지 않은 이벤트가 발생할 수 있으므로 에이전트가 경로에서 중요한 작업을 수행할 수 있는 위치를 예측하기는 어렵습니다. 보상 함수가 최적화 도구와 상호 작용하는 방법의 이러한 측면은 수치 보증이 어려운 딥러닝 시스템에서 특히 문제가 됩니다.

 

의사결정-시간 실패

 RL 에이전트가 새로운 데이터를 수집하고 정책이 적용함에 따라 현재 매개 변수, 저장된 데이터 및 시스템의 진화를 관리하는 환경 간에 복잡한 상호 작용이 있습니다. 이 세 가지 정보 소스 중 하나를 변경하면 에이전트의 향후 동작이 변경되며, 더욱이 이 세 가지 구성 요소는 깊게 얽혀 있습니다. 이러한 불확실성은 실패나 성공의 원인을 뒷받침하기 어렵게 만듭니다.

 많은 동작이 표현될 수 있는 영역에서, RL 사양은 동작을 제한하는 많은 요소를 말하지 않은 채로 둡니다. 울퉁불퉁한 환경에서의 움직임을 학습하는 로봇의 경우, 시스템의 어떤 신호가 더 복잡한 걸음걸이보다 더 쉬운 경로를 찾는 것을 배울 것인지를 아는 것이 유용할 것입니다. 잘 정의되지 않은 보상 함수가 있는 복잡한 상황에서 이러한 의도되거나 의도되지 않은 행동은 설계자가 설명했거나 설명하지 않았을 수 있는 훨씬 더 광범위한 역량을 포함할 것입니다.

 

행동 예측 실패 설명

 이러한 고장 모드는 제어 및 행동 피드백과 밀접한 관련이 있지만 외부 피드백은 한 가지 유형의 오류에 명확하게 매핑되지 않으며 단순한 범주에 맞지 않는 위험을 초래합니다. 외부 피드백을 이해하려면 광범위한 커뮤니티(기계학습, 적용 도메인, 사회학 등)의 이해 관계자가 실제 RL 배포에 함께 협력해야 합니다.

현실세계 RL에 대한 리스크

 지금부터 RL 설계자가 수행해야 하는 네 가지 유형의 설계 선택과 이러한 선택이 에이전트가 일단 배치되면 나타날 수 있는 사회 기술적 실패에 어떻게 영향을 미칠 수 있는지에 대해 논의해봅시다.

수평선 확장

 RL 에이전트가 계획할 수 있는 시간 척도는 해당 에이전트의 실제 동작에 영향을 미칩니다. 실험에서 원하는 동작이 이루어질 때까지 보통은 수평선 길이를 조정하는 것이 일반적일 수 있습니다. 그러나 실제 시스템에서 최적화는 정의된 수평선에 따라 비용을 표면화합니다. 예를 들어, 자율주행 차량을 제어하는 RL 에이전트는 차선을 유지하거나, 경쟁이 치열한 교차로를 탐색하거나, 도시를 가로질러 목적지까지 경로를 지정하는 경우 매우 다른 목표와 행동을 가집니다. 이는 목표(예: "이동 시간 최소화")가 동일하게 유지되는 경우에도 마찬가지입니다.

자율 주행 차량을 기준으로 한 수평선 예제

보상 정의

 두 번째 설계법은 최대화할 보상 함수를 실제로 지정하는 것입니다. 이는 설계자와 에이전트가 지정된 보상 기능을 기반으로 행동을 협상하는 RL 시스템의 잘 알려진 위험인 보상 해킹을 즉시 발생시킵니다. 배포된 RL 시스템에서 이는 종종 예상치 못한 공격적 행동을 초래합니다. 즉, 기괴한 비디오 게임 에이전트로봇 시뮬레이터에서 오류를 일으키는 것입니다. 예를 들어 에이전트가 미로를 탐색하여 반대편에 도달하는 문제가 있는 경우, 잘못 지정된 보상으로 인해 에이전트가 실제 미로를 완전히 회피하여 시간이 걸리는 것을 최소화할 수 있습니다.

미로 탐색을 통한 보상의 예

정보 가지치기

 RL 연구의 일반적인 관행은 자신의 요구에 맞게 환경을 재정의하는 것입니다. RL 설계자는 가상 RL 에이전트가 수정할 수 있도록 하는 방식으로 작업을 모델링하기 위해 수많은 명시적이고 암묵적인 가정을 합니다. 비디오 게임과 같은 고도로 구조화된 도메인에서는 다소 온화할 수 있습니다.그러나 실제 환경에서 환경을 재정의하는 것은 현실세계와 RL 에이전트 간에 정보가 흐를 수 있는 방법을 바꾸는 것과 같습니다. 이로 인해 보상 함수의 의미가 크게 변화하고 리스크를 외부 시스템으로 떠넘길 수 있습니다. 예를 들어, 노면에만 초점을 맞춘 센서가 장착된 자율 주행 차량은 AV 설계자에서 보행자에게로 부담을 전가합니다. 이 경우, 설계자는 사회 내 견고하고 안전한 통합에 실제로 중요한 주변 환경에 대한 정보를 정리하고 있습니다.

 

자율 주행 차량의 정보 쉐이핑의 사례

다중 에이전트 훈련

 다중 에이전트 RL의 문제에 대한 관심이 높아지고 있지만, 신흥 연구 분야로서 학습 시스템이 동적 환경 내에서 어떻게 상호 작용하는지에 대해서는 거의 알려져 있지 않습니다. 환경 내에서 자율 에이전트의 상대적인 집중도가 증가하면 이러한 에이전트가 최적화되는 것이 해당 특정 응용 프로그램의 도메인에 대해 인코딩된 기준 및 값을 실제로 다시 연결될 수 있습니다. 예를 들어, 대부분의 차량이 자율 주행을 수행하고 서로 통신(또는 그렇지 않은 경우)할 때 발생하는 동작의 변화가 있다고 합시다. 이 경우, 에이전트가 운송 시간을 최소화하고자 하는 목표(예: 운송 시간)를 위해 최적화할 수 있는 자율성이 있을 때, 도로상의 유인 주행 차량들을 밀어내고 공공연히 용인된 사회적 운송 규범을 크게 방해할 수 있습니다.

자율 주행 차량에 대한 다중 에이전트의 위험 사례


적용된 RL을 이해하기 쉽게 만드는 방법: 보상 보고서

 최근 UC버클리 CLBC(Cyber for Long-Term Cybersecurity)의 백서연구 논문에서, RL 에이전트로 명시적으로 구성되는지 혹은 데이터 기반 최적화 및 피드백을 통해 암시적으로 해석되는지에 따라  순차적 데이터 기반 최적화 시스템에 의해 야기되는 사회적 위험을 전제로 하는 새로운 형태의 ML 문서인 보상 보고서(Reward Reports)를 제안했습니다. 데이터셋과 모델을 문서화하기 위한 제안을 기반으로 피드백이 많은 시스템에서 최적화 결정을 안내하는 목표인 보상 함수에 중점을 둡니다. 보상 보고서는 AI 시스템에서 최적화되고 있는 것을 정의하는 데 수반되는 약속과 위험을 강조하는 질문으로 구성되며, 사전(설계) 사양과 사후 손해의 구분을 해소하는 생생한 문서로 사용됩니다. 결과적으로, 보상 보고서는 시스템을 배치하기 전과 후에 지속적인 심의와 책임을 위한 프레임워크를 제공합니다.

 

 UC버클리에서 제안한 보상 보고서용 템플릿은 보고하는 그 자신이 시스템을 이해하고 문서화하는 것을 돕기 위해 마련된 몇 개의 섹션으로 구성되어 있습니다. 보상 보고서의 가장 중요한 특징은 온라인 배포된 RL 시스템의 시간적 진화와 보조를 맞춰 시간이 지남에 따라 문서가 진화할 수 있도록 한다는 것입니다. 이는 변경 로그에서 가장 잘 드러납니다. 변경 로그는 보상 보고서 템플릿의 가장 끝부분에 있습니다.

 

 

원문읽기: https://bair.berkeley.edu/blog/2022/04/29/reward-reports/

 

Designing Societally Beneficial Reinforcement Learning Systems

The BAIR Blog

bair.berkeley.edu

https://arxiv.org/abs/2204.10817

 

Reward Reports for Reinforcement Learning

The desire to build good systems in the face of complex societal effects requires a dynamic approach towards equity and access. Recent approaches to machine learning (ML) documentation have demonstrated the promise of discursive frameworks for deliberation

arxiv.org

 

반응형