목록해석할 수 있는 기계학습/5. 모델 불특정성 방법 (11)
늦깎이 공대생의 인공지능 연구실
Lundberg와 Lee (2016)의 SHAP(SHAPley Additional exPlanations)는 개별 예측을 설명하는 방법입니다. SHAP는 최적의 섀플리값을 이론적으로 한 게임을 기반으로 합니다. 여기서 SHAP가 자체 챕터로 다루는 이유는 두 가지가 있습니다. 먼저, SHAP 저자들은 지역 대체모델에서 영감을 받은 섀플리값에 대한 대안적인 커널 기반 추정 접근 방식인 KernelSHAP를 제안했습니다. 그리고 나무 기반 모델을 위한 효율적인 추정 방식인 TreeSHAP를 제안했습니다. 두 번째로, SHAP는 섀플리값의 집계를 기반으로 한 많은 전역 해석 방법을 제공합니다. 이 포스팅에서 새로운 추정 방법과 전역 해석 방법을 모두 설명하고자 합니다. 정의 SHAP의 목적은 예측에 대한 각 ..
예측이 성과물인 게임에서 인스턴스(instance)의 각각의 특징적 가치를 "플레이어"라고 가정함으로써 예측을 설명할 수 있습니다. 협력 게임 이론(Coalitional game theory)의 한 방법인 섀플리 값은 특성들 사이에서 "성과물"을 공평하게 분배하는 방법을 알려줍니다. 일반적인 관점 다음과 같은 경우를 생각해봅시다. 아파트 가격을 예측하는 기계 학습 모델을 교육하셨습니다. 특정 아파트의 경우 30만 유로를 예측하고 이 예측을 설명해야 한다. 이 아파트의 면적은 50㎡이며 2층에 위치하고 있으며 근처에 공원이 있으며 고양이는 금지되어 있다. 모든 아파트의 평균 전망치는 31만 유로라는 결론을 얻었습니다. 각 특성값이 평균 예측과 비교하여 예측에 얼마나 영향을 주었을까요? 선형 회귀 모형의 경..
Anchor는 예측을 충분히 "고정"시키는 의사결정 규칙을 찾아 블랙박스 분류 모델에 대한 개별 예측을 설명합니다. 규칙은 다른 특성값의 변화가 예측에 영향을 미치지 않는 경우 예측을 고정시킵니다. Ancohr는 그래프 검색 알고리즘과 함께 강화 학습 기법을 활용하여 모델 호출 횟수(필요한 실행시간)를 최소로 줄이면서도 지역 최적화에서 회복될 수 있습니다. Ribeiro, Singh, Guestrin은 2018년에 이 알고리즘을 제안하였습다. 이들은 LIME 알고리즘을 도입하였던 분들이기도 합니다. 이전 모델과 마찬가지로 Anchor 접근방식은 미세변동 기반 전략을 배치하여 블랙박스 기계 학습 모델의 예측에 대한 지역 설명을 생성합니다. 그러나 LIME이 사용하는 대리모델 대신 결과적인 설명은 Ancho..
지역 대체모델은 블랙박스 기계 학습 모델의 개별 예측을 설명하는 데 사용되는 해석할 수 있는 모델입니다. 지역적 해석 가능한 모델 불특정성 설명(Local interpretable model-agnostic explanations, LIME)은 저자들이 지역 대체모델의 구체적 구현을 제안하는 논문입니다. 대체모델은 기본 블랙박스 모델의 예측에 근사하게 학습됩니다. LIME은 전역 대체모델을 양성하는 대신 지역 대체모델을 학습시켜 개별 예측을 설명하는 데 주력합니다. 이 아이디어는 상당히 직관적입니다. 먼저, 학습 데이터는 잊고 데이터 포인트를 입력하여 모델의 예측을 얻을 수 있는 블랙박스 모델만 있다고 상상해 봅시다. 여러분은 자신이 원하는 만큼 이 블랙박스를 자주 탐색할 수 있습니다. 여러분의 목표는 ..
전역 대체모델(Global surrogate model)은 블랙박스 모델의 예측에 근사하게 학습된 해석할 수 있는 모델입니다. 대체 모델을 해석함으로서 블랙박스 모델에 대한 결과를 도출할 수 있습니다. 기계학습을 더 많이 사용하여 기계학습의 해석력을 해결하는 것이지요! 이론 대체모델은 공학에서도 사용됩니다. 관심 대상의 결과물을 도출하기에 비싸거나, 시간이 많이 걸리거나, 측정하기 어려운 경우(복잡한 컴퓨터 시뮬레이션과 같은 경우), 그 결과물에 대한 값싸고 빠른 대체모델을 대신 사용할 수 있습니다. 엔지니어링에 사용되는 대체모델과 해석할 수 있는 기계학습에 사용되는 대체모델의 차이는 기본 모델이(시뮬레이션이 아닌) 기계학습 모델이며 대체모델은 반드시 해석할 수 있어야 한다는 점입니다. (해석할 수 있는..
순열 특성 중요도(Permutation Feature Importance)는 특성값의 순서를 변경한 후 모델의 예측 오차 증가량을 측정하여 특성값과 실제 결과 사이의 관계를 끊어버립니다. 이론 순열 특성 중요도의 개념은 매우 간단합니다. 특성값을 순열로 만든 후 모델의 예측 오차 증가량을 계산하여 특성값의 중요도를 측정하는 것입니다. 이는 모델의 예측을 위해 특성값에 의존했을 경우 특성값을 섞였을 때 모델 오차가 증가한다면 특성값은 "중요하다"고 할 수 있습니다. 반면, 모델의 예측을 위해 특성을 무시하였을 경우 모델의 값을 섞었을 때 모델 오류가 변경되지 않는 경우 특성은 "중요하지 않다"고 할 수 있습니다. 순열 특성 중요도 측정은 랜덤포레스트에 대하여 Breiman(2001)이 도입한 개념입니다. ..
특성값이 예측 모델에서 서로 상호 작용할 때 하나의 특성에 대한 효과는 다른 특성값에 따라 결정되기 때무에 예측값은 항상 특성값의 합으로만 표현되지 않습니다. 아리스토엘레스의 "전체는 부분의 합보다 크다"라는 말은 상호작용의 존재하에 적용되어 있습니다. 특성 상호작용이란 무엇인가? 기계학습 모델이 두 가지 특성을 기반으로 예측을 하는 경우 예측을 네 가지 측면, 즉 상수항, 첫 번째 특성에 대한 측면, 두 번째 특성에 대한 측면, 그리고 두 가지 특성 사이의 상호작용에 대한 측면으로 나누어서 볼 수 있습니다. 두 가지 특성값 사이의 상호작용은 개별 특성값의 효과를 고려한 후 특성값을 변경함으로써 발생하는 예측값의 변화를 나타냅니다. 예를 들어 모델은 집의 크기(큰 경우 및 작은 경우)및 위치(좋거나 나쁘..
누적 지역 효과(Accumulated Local Effects)는 특성값이 기계학습 모델의 예측에 평균적으로 어떤 영향을 미치는지 설명합니다. ALE 플롯은 부분의존도(PDP)에 비해 빠르고 편향되지 않은 대안책입니다. 부분의존도는 이해하기 쉽고 두 방법 모두 동일한 목표를 지향하므로 먼저 부분의존도에 대한 내용을 읽어보기를 권해드립니다. 둘 다 특성값이 평균적으로 예측에 어떤 영향을 주는지 설명해줍니다. 지금부터 부분의존도가 각 특성값들이 상관관계가 있을 때 심각한 문제를 나타내고 있다는 점을 설명드리고자 합니다. 동기 및 직관 기계 학습 모델의 특성값들이 서로 상관관계가 있을때, 부분의존도를 신뢰할 수 없게 됩니다. 다른 특성값과 강한 상관관계가 있는 어떤 특성값에 대한 부분의존도의 계산에는 현실적으..