목록분류 전체보기 (83)
늦깎이 공대생의 인공지능 연구실

인간은 방대한 시각 자료 처리에 탁월하며, 이는 인공 일반 지능(AGI)을 구현하는 데 매우 중요한 기술입니다. 수십 년 동안 AI 연구자들은 단일 이미지 내의 장면을 해석하고 관련 질문에 답하는 VQA(Visual Question Answering) 시스템을 개발해 왔습니다. 최근 기초 모델의 발전으로 인간과 기계의 시각 처리 사이의 격차가 크게 좁혀졌지만, 기존의 VQA는 전체 시각 데이터 집합보다 한 번에 단 하나의 이미지에 대해서만 추론하는 것으로 제한되어 왔습니다. 이러한 한계는 보다 복잡한 시나리오에서 문제가 발생합니다. 예를 들어 의료 이미지 자료에서 패턴을 식별하거나, 위성 이미지를 통해 삼림 벌채를 모니터링하거나, 자율 주행 데이터를 사용하여 도심 변화를 매핑하거나, 대규모 미술품 컬렉..

자연어(예: 영어)를 통해 명령을 실행하는 LLM의 능력 덕분에 적절한 도구들(ToolFormer, Gorilla)을 조율하여 사용자 쿼리를 완료할 수 있는 에이전트 시스템을 구현할 수 있게 되었습니다. 이는 GPT-4o 또는 Gemeni-1.5 모델과 같은 최근의 멀티모달 연구와 함께 AI 에이전트의 가능성의 영역을 확장시켰습니다. 이는 매우 흥미로운 일이지만, 이러한 모델의 규모가 크고 계산 요구사항이 많기 때문에 클라우드에서 연산을 수행해야 하는 경우가 많습니다. 이로 인하여 광범위한 도입에는 몇 가지 문제가 발생할 수 있습니다. 무엇보다도 비디오, 오디오 또는 텍스트 문서와 같은 데이터를 타사 클라우드 공급업체에 업로드 하게되면 개인정보 보호문제가 발생할 수 있습니다. 둘째로, 클라우드/Wi-Fi..

비전 AI 분야에서 물체 탐지(Object Detection) 모델의 결과는 보통 해당 물체의 위치를 직사각형 모양의 Bounding Box로 둘러싸 직접 표현합니다. 이러한 방법은 단지 이미지 내에 원하는 물체가 어느 위치에 있는지 파악하는 것이 목적이라면 더없이 충분합니다. 그러나 Bounding Box 내에는 찾고자 하는 물체 뿐 아니라 물체 주변의 배경(Background)정보도 포함되기 때문에 대각선으로 긴 물체가 탐지된 경우 실제 물체가 Bounding Box에서 차지하는 비중이 배경보다 픽셀 갯수가 적기 때문에 오히려 배경 정보가 원하는 물체의 정보보다 더 비중이 클 수 있습니다. 실제 우리가 접하는 사진들은 의도대로 찍히지 않는 경우가 많기 때문에 자연 상태의 이미지에서는 Bounding ..

저는 컴퓨터 비전 연구자로서 모든 픽셀 하나하나가 하나의 이야기를 담고 있다고 믿습니다. 그러나 큰 이미지를 처리하는 데 있어서는 이 분야에 장애물이 있는 것 같습니다. 우리가 주머니에 넣고 다니는 카메라와 지구 궤도를 도는 카메라가 너무 크고 세밀한 사진을 찍어 현재 최고의 모델과 하드웨어가 처리할 수 있는 한계에 도달할 정도로 큰 이미지가 널리 사용되고 있습니다. 일반적으로 이미지 크기에 따라 메모리 사용량이 4배로 증가합니다. 오늘날 우리는 대용량 이미지를 처리할 때 다운샘플링 또는 크롭이라는 두 가지 차선책 중 하나를 선택합니다. 이러한 두 가지 방법은 이미지에 존재하는 정보와 컨텍스트의 양에 상당한 손실을 초래합니다. 이러한 접근 방식을 다시 한 번 살펴보고 최신 GPU에서 대규모 이미지를 엔드..

2023년 AI는 명령어만으로 번역이나 코딩과 같은 일반적인 작업을 수행하도록 지시할 수 있는 대규모 언어 모델(LLM)로 많은 주목을 받았습니다. 이는 자연스럽게 AI 애플리케이션 개발의 주요 요소인 모델에 대한 집중적인 연구로 이어졌고, 모두가 새로운 LLM이 어떤 기능을 제공할지 관심을 갖게 되었습니다. 그런데 더 많은 개발자가 LLM을 사용하여 개발하기 시작하면서 이러한 관점이 빠르게 변화하고 있으며, 단일 모델이 아닌 여러 구성 요소가 포함된 복합 시스템에서 최첨단 AI 결과를 얻는 경우가 점점 더 많아지고 있습니다. 예를 들어 Google의 AlphaCode 2는 LLM을 사용하여 하나의 작업에 대해 최대 100만 개의 가능한 솔루션을 생성한 다음 세심하게 설계된 시스템을 통해 프로그래밍의 가..

AI의 발전 속도가 참으로 빠르다는 것을 느끼다보니, 그 발전 흐름에 뒤쳐지지 않기 위해 지속적으로 트랜드를 따라고자 하는 것은 AI를 연구하는 사람으로서 하나의 사명이기도 합니다. 그러기에 한때는 최신 기술을 빠르게 받아들이는 것이 정도라고 생각했었으나, 최근에는 앞만 바라보다 정작 AI 기술에 대한 기초 상식을 소흘히 하지 않았나 하는 생각이 들기도 합니다. 이번 포스팅에서는 멀티 GPU 학습시 적용되는 기술 중 하나인 Synchronized Batch Normalization에 대해 설명드리도록 하겠습니다. 먼저 Synchronized Batch Normalization의 토대라 할 수 있는 Batch와 Normalization부터 살펴보도록 하겠습니다. 1. Batch (배치) Batch란 우리가..

이 블로그 게시물에서는 신경망 학습을 위한 데이터 증강에 대한 최적의 방법으로 데이터를 빠르고 효율적으로 학습하는 알고리즘인 Population Based Augmentation(PBA)을 소개합니다. PBA는 CIFAR 및 SVHN의 이전 최고 결과와 일치하지만 컴퓨팅 사용량은 1,000배나 적기 때문에 연구원 및 현업 사용자가 단일 워크스테이션 GPU를 사용하여 새로운 증강 정책을 효과적으로 학습할 수 있습니다. PBA는 이미지 인식 작업에서 딥 러닝 성능을 개선하는 데 광범위하게 사용할 수 있습니다. 여기에서는 PBA 결과를 살펴본 후, Tune 프레임워크의 새로운 데이터에서 PBA를 직접 쉽게 실행하는 방법을 보여드리겠습니다. 데이터 증강에 관심을 가져야 하는 이유는? 딥러닝 모델의 최근 발전은 ..

ChatGPT와 같은 대형 언어 모델은 놀라울 정도로 글을 잘 써서 실제 문제가 되고 있습니다. 학생들이 과제를 대필하는 데 이러한 모델을 사용하기 시작하면서 일부 학교에서는 ChatGPT를 금지하기도 했습니다. 또한 이러한 모델은 팩트에 오류가 있는 글을 생성하기 쉽기 때문에 주의 깊은 독자들은 뉴스 기사나 기타 자료를 대필하는 데 생성 AI 도구가 사용되었는지 여부를 확인한 다음 신뢰 여부를 결정해야 할 것입니다. 교수와 학생들은 무엇을 할 수 있나요? AI가 생성한 텍스트를 감지하는 기존 도구는 학습된 데이터와 다른 데이터에 대해 제대로 작동하지 않는 경우가 있습니다. 또한 이러한 모델이 실제 사람이 작성한 글을 AI가 작성한 것으로 잘못 분류할 경우, 진위 여부에 대한 의심을 받는 학생이 과제 대..