목록전체 글 (79)
늦깎이 공대생의 인공지능 연구실
2023년 AI는 명령어만으로 번역이나 코딩과 같은 일반적인 작업을 수행하도록 지시할 수 있는 대규모 언어 모델(LLM)로 많은 주목을 받았습니다. 이는 자연스럽게 AI 애플리케이션 개발의 주요 요소인 모델에 대한 집중적인 연구로 이어졌고, 모두가 새로운 LLM이 어떤 기능을 제공할지 관심을 갖게 되었습니다. 그런데 더 많은 개발자가 LLM을 사용하여 개발하기 시작하면서 이러한 관점이 빠르게 변화하고 있으며, 단일 모델이 아닌 여러 구성 요소가 포함된 복합 시스템에서 최첨단 AI 결과를 얻는 경우가 점점 더 많아지고 있습니다. 예를 들어 Google의 AlphaCode 2는 LLM을 사용하여 하나의 작업에 대해 최대 100만 개의 가능한 솔루션을 생성한 다음 세심하게 설계된 시스템을 통해 프로그래밍의 가..
AI의 발전 속도가 참으로 빠르다는 것을 느끼다보니, 그 발전 흐름에 뒤쳐지지 않기 위해 지속적으로 트랜드를 따라고자 하는 것은 AI를 연구하는 사람으로서 하나의 사명이기도 합니다. 그러기에 한때는 최신 기술을 빠르게 받아들이는 것이 정도라고 생각했었으나, 최근에는 앞만 바라보다 정작 AI 기술에 대한 기초 상식을 소흘히 하지 않았나 하는 생각이 들기도 합니다. 이번 포스팅에서는 멀티 GPU 학습시 적용되는 기술 중 하나인 Synchronized Batch Normalization에 대해 설명드리도록 하겠습니다. 먼저 Synchronized Batch Normalization의 토대라 할 수 있는 Batch와 Normalization부터 살펴보도록 하겠습니다. 1. Batch (배치) Batch란 우리가..
이 블로그 게시물에서는 신경망 학습을 위한 데이터 증강에 대한 최적의 방법으로 데이터를 빠르고 효율적으로 학습하는 알고리즘인 Population Based Augmentation(PBA)을 소개합니다. PBA는 CIFAR 및 SVHN의 이전 최고 결과와 일치하지만 컴퓨팅 사용량은 1,000배나 적기 때문에 연구원 및 현업 사용자가 단일 워크스테이션 GPU를 사용하여 새로운 증강 정책을 효과적으로 학습할 수 있습니다. PBA는 이미지 인식 작업에서 딥 러닝 성능을 개선하는 데 광범위하게 사용할 수 있습니다. 여기에서는 PBA 결과를 살펴본 후, Tune 프레임워크의 새로운 데이터에서 PBA를 직접 쉽게 실행하는 방법을 보여드리겠습니다. 데이터 증강에 관심을 가져야 하는 이유는? 딥러닝 모델의 최근 발전은 ..
ChatGPT와 같은 대형 언어 모델은 놀라울 정도로 글을 잘 써서 실제 문제가 되고 있습니다. 학생들이 과제를 대필하는 데 이러한 모델을 사용하기 시작하면서 일부 학교에서는 ChatGPT를 금지하기도 했습니다. 또한 이러한 모델은 팩트에 오류가 있는 글을 생성하기 쉽기 때문에 주의 깊은 독자들은 뉴스 기사나 기타 자료를 대필하는 데 생성 AI 도구가 사용되었는지 여부를 확인한 다음 신뢰 여부를 결정해야 할 것입니다. 교수와 학생들은 무엇을 할 수 있나요? AI가 생성한 텍스트를 감지하는 기존 도구는 학습된 데이터와 다른 데이터에 대해 제대로 작동하지 않는 경우가 있습니다. 또한 이러한 모델이 실제 사람이 작성한 글을 AI가 작성한 것으로 잘못 분류할 경우, 진위 여부에 대한 의심을 받는 학생이 과제 대..
로봇 학습 분야의 오랜 목표는 인간을 대신해 작업을 수행할 수 있는 범용 에이전트를 만드는 것이었습니다. 자연어는 인간이 임의의 작업을 지정할 수 있는 사용하기 쉬운 인터페이스가 될 수 있는 잠재력을 가지고 있지만, 로봇이 언어 명령어를 따르도록 훈련하기는 어렵습니다. 언어 조건부 행동 복제(Language-Conditioned Behavioral Cloning)와 같은 접근 방식은 언어에 기반한 전문가의 행동을 직접 모방하도록 정책을 학습시키지만, 사람이 모든 학습 경로에 주석을 달아야 하고 여러 장면과 행동에 걸쳐 일반화가 잘 되지 않는 단점이 있습니다. 한편, 최근의 목표 조건부 접근 방식은 일반적인 조작 작업에서는 훨씬 더 나은 성능을 보이지만, 인간 작업자가 작업을 쉽게 지정할 수 없습니다. L..
요약: RLHF에서는 사람의 선호도를 비교 형태로 사용하는 보상 학습 과정과, 비교를 하지 않는 단일 보상을 최적화하는 RL 미세 조정 과정 사이에 균형이 존재합니다. RL을 비교 방식으로 수행한다면 어떨까요? 대규모 언어 모델(LLM)은 GPT-4, Claude-2, Bard 및 Bing Chat과 같이 점점 더 뛰어난 기능을 갖춘 가상 도우미를 가능하게 하였습니다. 이러한 시스템은 복잡한 사용자 쿼리에 응답하고, 코드를 작성하고, 심지어 시를 창작할 수도 있습니다. 이러한 놀라운 가상 도우미의 근간이 되는 기술은 인간 피드백을 통한 강화학습(Reinforcement Learning with Human Feedback)입니다. RLHF는 모델을 사람이 설정한 의미 있는 값에 맞추어 사전 학습 단계에서 ..
오프라인 강화 학습을 사용하면 이전에 수집한 데이터로부터 정책을 학습할 수 있습니다. 덕분에, 자율 주행이나 수술 계획과 같이 안전이 중요한 환경에서 시행착오 학습을 실행하는 것이 비현실적이거나 위험한 상황에서 RL을 사용해야 하는 관점에서, 이는 매우 중요한 의미를 갖습니다. 이러한 시나리오에서는 온라인 탐색이 너무 위험하지만 오프라인 RL 방법은 사람이나 휴리스틱하게 설계된 제어 장치가 수집한 로깅 데이터를 통해 효과적인 정책을 학습할 수 있습니다. 선행 학습 기반 제어 방법 역시 모방 학습으로 기존 데이터를 학습하는 데 있어, 데이터가 일반적으로 "충분히 좋은" 경우 데이터의 동작을 모방하는 것만으로도 좋은 결과를 얻을 수 있으며, 그렇지 않은 경우 데이터를 필터링하거나 가중치를 재조정한 다음 모방..
최근 확산 모델(Diffusion Model)이 복잡하고 고차원적인 결과물을 생성하는 사실상 표준으로 부상했습니다. 확산 모델은 멋진 AI 아트와 초현실적인 합성 이미지를 생성하는 기능으로 잘 알려져 있지만, 약물 설계 및 연속 제어와 같은 다른 분야에서도 성공을 거두었습니다. 확산 모델의 핵심 아이디어는 무작위 노이즈를 이미지나 단백질 구조와 같은 샘플로 반복적으로 변환하는 것입니다. 이는 일반적으로 최대 가능성 추정 문제(Maximum Likelihood Estimation)로 동기가 부여되며, 모델은 훈련 데이터와 최대한 가깝게 일치하는 샘플을 생성하도록 훈련됩니다. 그러나 확산 모델의 대부분의 사용 사례들은 훈련 데이터의 매칭에 직접적으로 관여하는 것이 아니라 다운스트림 목표와 관련이 있습니다. ..