늦깎이 공대생의 인공지능 연구실

[논문프리뷰] 인공증강지능을 위해 HITL(Human-in-the-Loop)을 다시 생각하다 본문

BAIR

[논문프리뷰] 인공증강지능을 위해 HITL(Human-in-the-Loop)을 다시 생각하다

Justin T. 2022. 7. 10. 13:27

 

실제 현실에 적용될 때, 인간과 기계가 상호 보완하는 인간-기계 루프가 존재. 이를 인공지능이라 부른다.

 

 실제 애플리케이션을 위한 AI 시스템을 어떻게 구축하고 평가할 수 있을까요? 대부분의 AI 연구에서 AI 방법의 평가는 훈련-검증-테스트 과정을 수반합니다. 실제 데이터 분포는 검증 및 테스트 데이터에 의해 모델링된다고 가정하기 때문에 일반적으로 모델이 작성된 데이터셋에서 테스트 성능이 좋을 때 실험은 중지됩니다. 그러나 실제 애플리케이션은 일반적으로 단일 훈련-검증-테스트 프로세스보다 더 복잡합니다. 가장 큰 차이점은 끊임없이 변화하는 데이터입니다. 예를 들어, 야생동물 데이터셋은 동물의 침입, 다른 곳에 있던 동물들의 재진입, 재정착 및 계절별 동물 이동으로 인해 클래스 구성이 항상 변경됩니다. 기존 데이터셋에 대해 훈련, 검증 및 테스트된 모델은 새로 수집된 데이터에 새로운 종(種)이 포함된 경우 쉽게 깨질 수 있습니다. 다행히도, 이 논문은 새로운 종의 표본을 탐지하는 데 도움을 줄 수 있는 분포 외 탐지 방법을 가지고 있습니다. 그러나 인식 용량을 확장하고 싶을 때(즉, 미래에 새로운 종을 인식하기 위해) 우리가 할 수 있는 최선의 방법은 새로운 Ground-Truth Label로 모델을 미세 조정하는 것입니다. 즉, 이전 테스트셋에서 모델이 어떻게 수행되는지 여부에 관계없이 인간의 노력/주석을 통합해야 합니다.

 

피할 수 없는 HITL(Human-in-the-Loop)

 사람이 Label을 작성하는 것이 불가피할 때, 실제 인식 시스템은 데이터 수집 → 주석 → 모델 미세 조정의 끝없는 루프가 됩니다. 결과적으로, 모델 평가의 한 단계 성능은 모델이 새로운 데이터 주석으로 업데이트되고 새로운 평가가 수행되기 때문에 전체 인식 시스템의 실제 일반화를 나타내지 않습니다. 이러한 루프를 염두에 두고, 우리는 더 나은 테스트 성능을 가진 모델을 구축하는 대신, 인간의 노력을 얼마나 절약할 수 있는지에 초점을 맞추는 것이 실제 애플리케이션에서 더 일반화되고 실용적인 목표라고 생각합니다.

 

데이터 수집(Data collection), 주석(Annotation) 및 모델 업데이트의 루프에서 최적화의 목표는 단일 단계 인식 성능보다는 인간 주석(Human annotation)의 요구 사항을 최소화하는 것.

야생동물의 인식에 관한 사례 연구

 작년에 Nature-Machine Intelligence에 발표된 논문에서, 저자들은 HITL을 야생동물 인식에 통합하는 것에 대해 논의했고 단순한 테스트 성능 대신 모델 업데이트에서 인간의 노력 효율성을 조사할 것을 제안했습니다. 시연을 위해, 저자들은 능동 학습, 준지도 학습 및 HITL의 조합인 인식 프레임워크를 설계했습니다. 또한 인식 모델이 단일 시간 단계에서 멈추지 않았음을 나타내기 위해 시간 구성요소를 이 프레임워크에 통합했습니다. 일반적으로 프레임워크에서 새로운 데이터가 수집될 때마다 인식 모델은 예측 신뢰도 메트릭을 기반으로 Label을 달 데이터를 능동적으로 선택합니다. 신뢰도 예측이 낮을 때는 사람에게 직접 모델에 주석을 다는 작업을 하기 위해 전달되고, 신뢰도 예측이 높을 때는 다운스트림 작업 호은 모델 업데이트를 위한 유사 레이블(Pseudo-label)에 대한 믿음을 갖습니다.

최신 이미지 인식 방법의 유용성을 극대화하고 모델 업데이트를 위한 수동 주석 의존성을 최소화할 수 있는 반복 인식 프레임워크.

 모델 업데이트에 대한 인간 주석 효율성 측면에서 1) 검증에 대한 높은 신뢰도 예측 비율(예: 주석을 위한 인간의 노력이 절약), 2) 높은 신뢰도 예측의 정확성(예: 신뢰도)  3) 낮은 신뢰도 예측으로 감지된 새로운 카테고리의 백분율로 평가를 나눕니다. (예: 새로움에 대한 민감도)입니다. 이 세 가지 메트릭을 통해 프레임워크의 최적화는 인간의 노력을 최소화하고(즉, 높은 신뢰도를 최대화하기 위한) 모델 업데이트 성능과 높은 신뢰도의 정확도를 최대화합니다.

 

 이 논문의 시연 목적으로 모잠비크 국립공원에서 수집된 대규모 야생 카메라 트랩 데이터셋에 대한 2단계 실험을 보고했습니다. 첫 번째 단계는 데이터셋의 일부만으로 모델을 초기화하는 초기화 단계였습니다. 두 번째 단계에서는 알려진 클래스와 새로운 클래스를 가진 새로운 데이터셋이 초기화된 모델에 적용되었습니다. 이 프레임워크에 따라 모델은 높은 신뢰도 예측을 유사 레이블로 신뢰하고 낮은 신뢰도 예측을 인간 주석과 함께 제공하는 새로운 데이터셋에 대해 확신을 가지고 예측했습니다. 그 다음 유사 레이블과 주석을 모두 사용하여 모델을 업데이트하고 향후 시간 단계에 대한 준비를 마쳤습니다. 그 결과, 2단계 검증에 대한 고신뢰 예측의 비율은 72.2%, 고신뢰 예측의 정확도는 90.2%, 저신뢰로 감지된 새로운 클래스의 비율은 82.6%로 나타났습니다. 다시 말해, 이 프레임워크는 모든 2단계 데이터에 주석을 다는 데 드는 인간의 노력을 72% 줄였습니다. 모델이 신뢰가 있는 동안 예측의 90%가 정확했습니다. 또한 새로운 샘플의 82%가 성공적으로 검출되었습니다. 프레임워크와 실험에 대한 자세한 내용은 원문 논문에서 확인할 수 있습니다.

인공증강지능 - Artificial Augmented Intelligence (\(A^2I\))

 방금전의 그림을 자세히 살펴보면 데이터 수집 - 인간 주석 - 모델 업데이트 루프 외에도 프레임워크에 숨겨진 또 다른 인간-기계 루프가 있습니다(첫번째 그림). 이는 모델 업데이트와 인간의 개입을 통해 인간과 기계가 끊임없이 서로를 향상시켜 가는 루프입니다. 예를 들어, AI 모델이 새로운 클래스를 인식할 수 없을 때, 인간의 개입은 모델의 인식 능력을 확장하기 위한 정보를 제공할 수 있습니다. 반면에, AI 모델이 점점 더 일반화되면, 인간의 노력에 대한 요구는 줄어들게 됩니다. 다시 말해, 인간의 노력을 사용하는 것이 더 효율적인 것입니다.

 

 또한, 논문에서 제안한 신뢰 기반 HITL 프레임워크는 새로운 클래스 탐지에 국한되지 않고 긴 꼬리 분포 및 다중 도메인 불일치와 같은 문제를 해결할 수 있습니다. AI 모델이 신뢰를 잃는 동안에는, 모델을 개선하는 데 도움이 되는 인간의 개입이 필요합니다. 마찬가지로, AI 모델이 신뢰를 얻는 한 인간의 노력은 절약되며, 때로는 인간의 오류가 수정될 수도 있습니다. 이 경우 인간과 기계의 관계는 상승적으로 변합니다. 따라서 AI 개발의 목표는 인간의 지능을 대체하는 것에서 인간과 기계 지능을 상호 증강하는 것으로 바뀝니다. 우리는 이런 종류의 인공지능을 \(A^2I\)라고 부릅니다.

 

 우리가 인공지능을 연구하기 시작한 이후로, 우리는 스스로에게 물어왔습니다. 우리는 무엇을 위해 인공지능을 만들까요? 처음에, 우리는 이상적으로, 대규모 이미지 인식과 자동차 운전과 같은 간단하고 지루한 작업에서 AI가 인간의 노력을 완전히 대체해야 한다고 믿었습니다. 따라서, 우리는 오랜 시간 동안 "인간 수준의 성능"이라고 불리는 아이디어로 우리의 모델을 밀어왔습니다. 그러나 인간의 노력을 대체하는 이 목표는 본질적으로 인간과 기계 사이의 대립 또는 상호 배타적인 관계를 구축하는 것입니다. 실제 응용 프로그램에서 AI 방법의 성능은 긴 꼬리 분포, 다중 도메인 불일치, 레이블 노이즈, 약한 지도학습, 배포 외 탐지 등과 같은 많은 영향 요인에 의해 제한됩니다. 이러한 문제의 대부분은 적절한 인간의 개입으로 어떻게든 해결될 수 있습니다. 우리가 제안한 프레임워크는 이러한 별개의 문제를 어떻게 신뢰도가 높은/낮은 예측 문제로 요약할 수 있는지와 인간의 노력이 어떻게 전체 AI 시스템에 도입될 수 있는지를 보여주는 하나의 예일 뿐입니다. 우리는 이것이 속임수를 쓰거나 어려운 문제에 굴복하는 것이 아니라고 생각합니다. 모델이 인식할 수 있는 테스트 이미지 수보다 인간의 노력을 얼마나 아껴야 하는지에 초점이 맞춰진 AI를 개발하는 것이 보다 인간 중심적인 방식입니다. 인공 일반 지능(Artificial General Intelligenc)의 실현에 앞서 AI가 다양한 실무 분야에서 더 많은 영향을 미치기 시작할 수 있도록 기계와 인간의 상호작용과 \(A^2I\)의 방향을 더 탐구하는 것이 가치 있다고 생각합니다.

 

원본 주석과 일치하지 않는 높은 신뢰도 예측의 예제.   많은 고신뢰도 예측은 (학생 및 시민 과학자에 의해 제공된 검증 레이블을 기반으로 정확하지 않게 레이블링됨) 야생동물 전문가들이 더 자세히 조사하여 이를 사실상 수정한다.

 

참고논문: https://arxiv.org/abs/2105.02320

 

Iterative Human and Automated Identification of Wildlife Images

Camera trapping is increasingly used to monitor wildlife, but this technology typically requires extensive data annotation. Recently, deep learning has significantly advanced automatic wildlife recognition. However, current methods are hampered by a depend

arxiv.org

 

반응형