목록BAIR (22)
늦깎이 공대생의 인공지능 연구실
요약: RLHF에서는 사람의 선호도를 비교 형태로 사용하는 보상 학습 과정과, 비교를 하지 않는 단일 보상을 최적화하는 RL 미세 조정 과정 사이에 균형이 존재합니다. RL을 비교 방식으로 수행한다면 어떨까요? 대규모 언어 모델(LLM)은 GPT-4, Claude-2, Bard 및 Bing Chat과 같이 점점 더 뛰어난 기능을 갖춘 가상 도우미를 가능하게 하였습니다. 이러한 시스템은 복잡한 사용자 쿼리에 응답하고, 코드를 작성하고, 심지어 시를 창작할 수도 있습니다. 이러한 놀라운 가상 도우미의 근간이 되는 기술은 인간 피드백을 통한 강화학습(Reinforcement Learning with Human Feedback)입니다. RLHF는 모델을 사람이 설정한 의미 있는 값에 맞추어 사전 학습 단계에서 ..
오프라인 강화 학습을 사용하면 이전에 수집한 데이터로부터 정책을 학습할 수 있습니다. 덕분에, 자율 주행이나 수술 계획과 같이 안전이 중요한 환경에서 시행착오 학습을 실행하는 것이 비현실적이거나 위험한 상황에서 RL을 사용해야 하는 관점에서, 이는 매우 중요한 의미를 갖습니다. 이러한 시나리오에서는 온라인 탐색이 너무 위험하지만 오프라인 RL 방법은 사람이나 휴리스틱하게 설계된 제어 장치가 수집한 로깅 데이터를 통해 효과적인 정책을 학습할 수 있습니다. 선행 학습 기반 제어 방법 역시 모방 학습으로 기존 데이터를 학습하는 데 있어, 데이터가 일반적으로 "충분히 좋은" 경우 데이터의 동작을 모방하는 것만으로도 좋은 결과를 얻을 수 있으며, 그렇지 않은 경우 데이터를 필터링하거나 가중치를 재조정한 다음 모방..
최근 확산 모델(Diffusion Model)이 복잡하고 고차원적인 결과물을 생성하는 사실상 표준으로 부상했습니다. 확산 모델은 멋진 AI 아트와 초현실적인 합성 이미지를 생성하는 기능으로 잘 알려져 있지만, 약물 설계 및 연속 제어와 같은 다른 분야에서도 성공을 거두었습니다. 확산 모델의 핵심 아이디어는 무작위 노이즈를 이미지나 단백질 구조와 같은 샘플로 반복적으로 변환하는 것입니다. 이는 일반적으로 최대 가능성 추정 문제(Maximum Likelihood Estimation)로 동기가 부여되며, 모델은 훈련 데이터와 최대한 가깝게 일치하는 샘플을 생성하도록 훈련됩니다. 그러나 확산 모델의 대부분의 사용 사례들은 훈련 데이터의 매칭에 직접적으로 관여하는 것이 아니라 다운스트림 목표와 관련이 있습니다. ..
요약: Text Prompt -> LLM -> Intermediate Representation (이미지 레이아웃과 같은 중간 표현) -> Stable Diffusion -> Image. 확산 모델(Diffusion Model)을 사용한 Text-to-Image 생성 기술의 최근 발전은 매우 사실적이고 다양한 이미지를 합성하는 놀라운 결과를 산출했습니다. 그러나, 이토록 인상적인 능력에도 불구하고, Stable-Diffusion과 같은 확산 모델은 종종 공간적 또는 상식적 추론이 필요할 때 프롬프트를 정확하게 나타내는 것이 어려워보입니다. 다음 그림은 Stable-Diffusion이 주어진 프롬프트에 정확하게 해당되는 이미지를 생성하는 데 부족한 네 가지 시나리오, 즉 부정, 수치 및 속성 할당, 공간 ..
지난 몇 년 동안 우리는 로봇공학과 인공지능의 경이롭고 흥미로운 발전을 보아왔습니다. 대규모 로봇군단들이 연구실을 떠나 드디어 현실 세계로 진입했습니다. 예를 들어, Waymo는 피닉스와 샌프란시스코에서 운영되는 700대 이상의 자율주행차를 보유하고 있으며 현재 로스앤젤레스로 영업구역을 확장하고 있습니다. 대규모 로봇군단이 현실에 적용된 또다른 사례로 Nuro와 Kiwibot의 음식 배달뿐만 아니라 Amazon 및 Ambi Robotics의 전자 상거래 주문 수행과 같은 응용 프로그램이 포함됩니다. 이러한 로봇은 구조화되지 않은 환경에서 자율적으로 동작하기 위해 최근까지도 경이로운 발전을 거듭한 딥러닝 기술을 사용합니다.. 모든 로봇 군단으로부터 데이터를 수집함으로써, 전체 군단은 각 개별 로봇의 경험을..
본 논문에서, 저자들은 이동 조작자가 탐색과 파악의 조합을 필요로 하는 기술을 자율적으로 배울 수 있는 방법을 연구하였습니다. 현실세계에서 로봇 기술을 배우는 것은 대규모 데이터 수집 및 감독 없이는 여전히 어렵습니다. 이러한 어려움은 로봇을 조작이나 탐색으로만 제한하고 훈련 과정에서 시연, 작업 재설정/랜덤화 및 데이터 레이블링을 제공하기 위해 사람의 노력을 사용함으로써 종종 해결되었습니다. 이 작업에서, 저자들은 로봇이 땅에서 떨어진 물체를 모아 바구니에 넣어 서로 다른 방에서 청소하는 방법을 자율적으로 배울 수 있는 방법을 구체적으로 연구합니다. 이 논문의 목표는 로봇이 인간의 개입을 최소화하거나 지도, 물체 위치 또는 주변 환경의 전체 모습과 같은 모든 정보에 대한 접근 없이 현실적인 설정 하에서..
최근 기계학습의 발전은 종종 해석력을 희생하면서 점점 더 복잡한 예측 모델로 발전하였습니다. 우리는 종종 해석력이 필요하며, 특히 임상 의사 결정과 같은 고위험 적용에서 해석 가능한 모델은 오류 식별, 도메인 지식 활용 및 신속한 예측과 같은 모든 종류의 해석을 도와줍니다. 이번 포스팅에서는 트리 합계의 형태를 취하는 해석할 수 있는 모델을 적합화하는 새로운 방법인 FIGS에 대해 다루고자 합니다. 실제 실험과 이론적 결과에 따르면 FIGS는 데이터의 광범위한 구조에 효과적으로 적응하여 해석력을 희생하지 않고 여러 설정에서 최첨단 성능을 달성할 수 있습니다. FIGS의 동작 원리 직관적으로, FIGS는 의사결정 트리를 성장시키기 위한 전형적인 탐욕 알고리즘인 CART를 확장하여 트리 합계를 동시에 성장시..
실제 시스템을 제어함에 있어 기계학습과 강화학습을 활용하기 위해서는 우수한 성능 달성 뿐만 아니라 안전하고 신뢰할 수 있는 방식으로 시스템과 상호 작용하는 알고리즘을 설계해야 합니다. 안전 필수 제어와 관련된 이전의 연구는 다리 달린 로봇이 넘어지거나 자율 주행 차량이 장애물에 충돌하지 않도록 물리적 시스템의 안전을 유지하는 데 중점을 두고 있었습니다. 그러나 학습 기반 제어의 경우, 또 다른 안전 문제가 내재되어 있습니다. 기계학습 모델은 훈련 데이터에 대한 정확한 예측 결과가 나오도록 최적화되어 있기 때문에 분포 외 입력에 대해 평가할 때 잘못된 예측을 하기 쉽습니다. 따라서 에이전트가 훈련 데이터와는 매우 다른 상태(State)나 행동(Action)을 취하는 경우, 학습 가능 제어는 학습된 구성 요..