목록전체 글 (79)
늦깎이 공대생의 인공지능 연구실
최근 기계학습의 발전은 종종 해석력을 희생하면서 점점 더 복잡한 예측 모델로 발전하였습니다. 우리는 종종 해석력이 필요하며, 특히 임상 의사 결정과 같은 고위험 적용에서 해석 가능한 모델은 오류 식별, 도메인 지식 활용 및 신속한 예측과 같은 모든 종류의 해석을 도와줍니다. 이번 포스팅에서는 트리 합계의 형태를 취하는 해석할 수 있는 모델을 적합화하는 새로운 방법인 FIGS에 대해 다루고자 합니다. 실제 실험과 이론적 결과에 따르면 FIGS는 데이터의 광범위한 구조에 효과적으로 적응하여 해석력을 희생하지 않고 여러 설정에서 최첨단 성능을 달성할 수 있습니다. FIGS의 동작 원리 직관적으로, FIGS는 의사결정 트리를 성장시키기 위한 전형적인 탐욕 알고리즘인 CART를 확장하여 트리 합계를 동시에 성장시..
실제 시스템을 제어함에 있어 기계학습과 강화학습을 활용하기 위해서는 우수한 성능 달성 뿐만 아니라 안전하고 신뢰할 수 있는 방식으로 시스템과 상호 작용하는 알고리즘을 설계해야 합니다. 안전 필수 제어와 관련된 이전의 연구는 다리 달린 로봇이 넘어지거나 자율 주행 차량이 장애물에 충돌하지 않도록 물리적 시스템의 안전을 유지하는 데 중점을 두고 있었습니다. 그러나 학습 기반 제어의 경우, 또 다른 안전 문제가 내재되어 있습니다. 기계학습 모델은 훈련 데이터에 대한 정확한 예측 결과가 나오도록 최적화되어 있기 때문에 분포 외 입력에 대해 평가할 때 잘못된 예측을 하기 쉽습니다. 따라서 에이전트가 훈련 데이터와는 매우 다른 상태(State)나 행동(Action)을 취하는 경우, 학습 가능 제어는 학습된 구성 요..
지금까지 다음과 같은 대표적인 알고리즘을 포함하여 현존하는 다양한 알고리즘과 카테고리의 배경을 사용할 것입니다. 앞서 살펴본 것처럼, 우리는 세 가지 방법으로 모델을 사용할 수 있습니다. 이어서 각 사례에 대한 몇 가지 예를 살펴보겠습니다. 환경 시뮬레이션(Simulating the environment) 한 가지 방법은 실제 데이터를 모델에서 생성된 경험(Experience)과 혼합한 다음 Q-러닝, 정책 기울기 등과 같은 기존의 모델이 없는 알고리즘을 적용하는 것입니다. 이 경우 모델은 더 크고 강화된 학습 데이셋을 제공합니다. Dyna-Q는 학습된 모델과 함께 Q-러닝을 사용하는 예입니다. Dyna는 실제 전이(Transition)에 대한 기존 Q-러닝 업데이트를 수행하고 모델을 사용하여 실제 상태..
2022년 들어 텍스트로부터 이미지를 생성하는 기술들이 소개되고 있습니다. AI가 그려내는 그림들은 흡사 인간 화가의 위상을 위협할 정도로 발전하였습니다. 이는 DALL-E 2부터 시작되어 Midjourney와 StableDiffusion 등 이미지를 그려내는 알고리즘들의 등장으로부터 알 수 있습니다. 앞에서 소개해드린 Midjourney, DALL-E 2, Stable Diffusion 중 어떤 것이 가장 좋은 text-to-image 생성 모델일까요? DALL-E의 2세대인 DALL-E 2는 바로 전에 나왔던 DALL-E보다 더 작지만, 틀림 없이 더 나은 성능을 보이고 있습니다. DALL-E 2는 거의 모든 이미지들을 생성하는데, unCLIF 방식을 사용하여 사람들이 표현하기 조차 어려웠던 이미지를..
실제 애플리케이션을 위한 AI 시스템을 어떻게 구축하고 평가할 수 있을까요? 대부분의 AI 연구에서 AI 방법의 평가는 훈련-검증-테스트 과정을 수반합니다. 실제 데이터 분포는 검증 및 테스트 데이터에 의해 모델링된다고 가정하기 때문에 일반적으로 모델이 작성된 데이터셋에서 테스트 성능이 좋을 때 실험은 중지됩니다. 그러나 실제 애플리케이션은 일반적으로 단일 훈련-검증-테스트 프로세스보다 더 복잡합니다. 가장 큰 차이점은 끊임없이 변화하는 데이터입니다. 예를 들어, 야생동물 데이터셋은 동물의 침입, 다른 곳에 있던 동물들의 재진입, 재정착 및 계절별 동물 이동으로 인해 클래스 구성이 항상 변경됩니다. 기존 데이터셋에 대해 훈련, 검증 및 테스트된 모델은 새로 수집된 데이터에 새로운 종(種)이 포함된 경우 ..
심층 강화 학습(DRL)은 게임 플레이에 중점을 둔 연구 분야에서 실제 애플리케이션을 사용하는 기술로의 전환이 시도되고 있습니다. 대표적인 예로는 원자로를 제어하거나 유튜브 비디오 압축을 개선하는 딥마인드의 작업이 있으며, 자율주행 자동차의 행동 계획을 위해 MuZero에서 영감을 받은 방법을 사용하려는 Tesla가 있습니다. 그러나 RL의 실제 적용에 대한 흥미로운 잠재력은 또한 상당한 주의를 기울여야 합니다. 예를 들어, RL 정책은 악용에 취약한 것으로 잘 알려져 있으며, 안전하고 강력한 정책 개발을 위한 방법에 대한 활발한 연구분야들이 있습니다. 실제 세계에서 강력한 RL 시스템의 출현과 동시에, 시민들과 연구원들은 공정하고, 곧고, 안전한 기계 학습 시스템에 대한 증가한 욕구를 표현하고 있습니다..
이 논문은 대규모 언어 모델링의 진전에 영감을 받아, 텍스트 출력의 영역을 넘어 단일의 박학다식한 에이전트를 구축하는 데 유사한 접근 방식을 적용합니다. Gato라 이름을 붙인 에이전트는 멀티모달, 다중 작업, 다중 구현 팔방미인 정책으로 작동합니다. 동일한 가중치를 가진 동일한 신경망은 실제 로봇 팔로 Atari, 캡션 이미지, 채팅, 블록 쌓기 등을 수행하여 텍스트, 관절 돌림힘, 버튼 누르기 또는 다른 토큰을 출력할 것인지 여부를 맥락에 따라 결정할 수 있습니다. 이 포스팅에서는 모델과 데이터를 설명하고 Gato의 현재 기능을 설명하고자 합니다. Gato는 동일한 가중치셋을 가진 단일 신경망을 사용하여 광범위한 환경에서 다양한 구현을 감지하고 행동할 수 있습니다. Gato는 다양한 양식, 관찰 및 ..
위성 사진은 현재 러시아의 우크라이나 침공 상황에서 중요한 정보원입니다. 군사 전략가, 언론인, 그리고 연구원들은 위성 사진을 분석하여 결정을 내리고, 국제 협약의 위반을 밝히고, 대중에게 전쟁의 냉엄한 현실을 알리기 위해 이 이미지를 사용합니다. 우크라이나가 많은 양의 구름이 나라를 덮고 있는 것을 경험한데다가, 밤 시간 동안 종종 공격이 발생하면서, 대다수의 위성 사진이 지상을 보는 이러한 요소들에 의해 방해가 됩니다. 합성 개구경 레이더(SAR) 이미지는 두꺼운 구름을 관통하지만 해석하려면 특수 교육이 필요합니다. 이 지루한 작업을 자동화하면 실시간 통찰력을 얻을 수 있지만, 일반적인 RGB 이미지에서 개발된 현재의 컴퓨터 비전 방법은 SAR의 현상학을 제대로 설명하지 못합니다. 이로 인해 이 중요..