목록해석할 수 있는 기계학습 (35)
늦깎이 공대생의 인공지능 연구실
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bWoFpP/btqDOj91qRh/QKqvVKGe2MB55cGW3UVsnk/img.png)
누적 지역 효과(Accumulated Local Effects)는 특성값이 기계학습 모델의 예측에 평균적으로 어떤 영향을 미치는지 설명합니다. ALE 플롯은 부분의존도(PDP)에 비해 빠르고 편향되지 않은 대안책입니다. 부분의존도는 이해하기 쉽고 두 방법 모두 동일한 목표를 지향하므로 먼저 부분의존도에 대한 내용을 읽어보기를 권해드립니다. 둘 다 특성값이 평균적으로 예측에 어떤 영향을 주는지 설명해줍니다. 지금부터 부분의존도가 각 특성값들이 상관관계가 있을 때 심각한 문제를 나타내고 있다는 점을 설명드리고자 합니다. 동기 및 직관 기계 학습 모델의 특성값들이 서로 상관관계가 있을때, 부분의존도를 신뢰할 수 없게 됩니다. 다른 특성값과 강한 상관관계가 있는 어떤 특성값에 대한 부분의존도의 계산에는 현실적으..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/CCd4U/btqCVD0YX4m/vwtkDdmnWyk46GbkaP3eA0/img.png)
개별 조건부 기대치(ICE)는 특성값이 변경될 때 인스턴스(Instance)의 예측값이 어떻게 변하는지 보여주는 인스턴스당 하나의 선그래프를 나타냅니다. 특성값의 평균 효과에 대한 부분의존도는 특정 인스턴스에 초점을 맞추지 않고 전체 평균에 초점을 맞추기 때문에 전반적인 방법입니다. 개별 데이터 인스턴스에 대한 PDP와 같은 것을 개별 조건부 기대치(ICE)라고 합니다(Goldstein et al. 2017). ICE는 각 인스턴스에 대한 예측 의존도를 개별적으로 시각화하여, 부분의존도에서 전체적으로 하나의 선그래프에 비해 인스턴스당 하나의 선그래프가 됩다. PDP는 ICE의 선 평균입니다. 선(그리고 하나의 인스턴스)에 대한 값은 다른 모든 특성값을 동일하게 유지함으로써 계산할 수 있으며, 특성값을 그..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/eidult/btqCPAdDEw9/ak0K6kC9WrZ6rwO49KItbk/img.png)
부분의존도(PDP 또는 PD plot)는 기계학습 모델의 예측 결과에 대한 하나 또는 두개의 특성들이 갖는 한계 효과(Marginal effect)를 보여줍니다(J. H. Friedman 2001). 부분의존도는 목표값과 특성값 사이의 관계가 선형인지, 변화가 없는지, 혹은 복잡한지를 나타냅니다. 예를 들어, 선형 회귀 모델을 적용할 때, 부분의존도는 선형 관계를 보여줍니다. 회귀에 대한 부분의존함수는 다음과 같은 식으로 나타냅니다. $$\hat{f}_{x_S}(x_S)=E_{x_C}\left[\hat{f}(x_S,x_C)\right]=\int\hat{f}(x_S,x_C)d\mathbb{P}(x_C)$$ \(x_S\)는 부분의존함수를 나타내기 위한 특성값이고, \(x_C\)는 기계학습 모델 \(\hat{..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bqq3ih/btqCHvPH209/8OeaeM9xxi2dKd2KcQhZ5k/img.png)
기계학습 모델(=모델 불특정 해석 방법)에서 설명을 구분하는 것은 몇 가지 이점이 있습니다.(Ribeiro, Singh, and Guestrin 2016). 모델별 특정법보다 모델불특정법의 큰 장점은 유연성입니다. 기계학습 개발자들은 해석 방법이 어떤 모델에 적용할 수 있을 때 그들이 좋아하는 기계학습 모델을 자유롭게 사용할 수 있습니다. 그래픽 또는 사용자 인터페이스와 같은 기계학습 모델의 해석에 기초하는 것은 기본 기계학습 모델과 독립적이기도 합니다. 일반적으로 한 가지뿐 아니라 여러 가지 유형의 기계학습 모델을 평가하여 과제를 해결하는데, 해석력의 측면에서 모델을 비교할 때 어떤 종류의 모델에도 동일한 방법을 사용할 수 있기 때문에 모델불특정법 설명으로 하기가 더 쉽습니다. 모델 불특정 해석 방법의..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cWRDnf/btqCxQUzmdE/lGlVrZexWkKSTwJUELyvkK/img.png)
해석할 수 있는 모델은 끊임없이 증가하고 있으며 그 크기 또한 알 수 없습니다. 선형 모델, 의사결정 트리, 나이브 베이즈(Naive Bayes)와 같은 단순한 모델을 포함하지만, 해석할 수 없는 기계 학습 모델을 결합하거나 수정하여 해석할 수 있도록 하는 매우 복잡한 모델도 포함합니다. 특히 후자의 모델에 관한 논문들은 현재 매우 빈번하게 개제되고 있어서 발전 과정을 따라잡기 어렵습니다. 여기서는 오직 나이브 베이즈 분류기(Naive Bayes classifier)와 k-최근접 이웃 알고리즘(k-nearest neighbors)에 대해서만 다루고자 합니다. 나이브 베이즈 분류기(Naive Bayes classifier) 나이브 베이즈 분류기는 조건부 확률에 대한 베이즈 정리를 사용합니다. 각 피쳐(Fe..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/JGtps/btqCkQHKrpk/dWSt6iWcL7r5dUQPDTBk50/img.jpg)
Friedman과 Popescu(2008)이 제안한 룰핏(RuleFit)알고리즘은 의사결정 규칙의 형태로 자동으로 검출된 상호작용 효과를 포함하는 희박한 선형 모델(Sparse linear models)을 학습합니다. 선형 회귀 모델은 특성값 사이의 상호작용을 설명하지 않습니다. 선형 모델처럼 단순하고 해석 가능한 모델이면서도 특성값의 상호작용을 통합하는 것이 편리하지 않을까요? 룰핏은 이러한 질문에 대한 답이라고 할 수 있습니다. 룰핏은 본래 특성값과 함께 희박한 선형 모델을 학습하고 또한 의사결정 규칙인 다수의 새로운 특성값을 학습합니다. 이러한 새로운 특성값은 원래의 특성값과의 상호작용을 찾아냅니다. 룰핏은 의사결정 트리에서 이와 같은 특성값을 자동으로 생성합니다. 트리를 통과하는 각 경로는 분할된..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bQ3IPz/btqBVL69yDF/UPPWnNCXzeqLigc99zIVfK/img.png)
의사결정 규칙은 조건(antecedent)과 예측으로 구성된 단순한 IF-THEN 문입니다. 예를 들어 오늘 비가 오고 4월(조건)이면 내일 비가 올 것이다(예상) 와 같은 가정과 같이 말이지요. 이와 같이 단일 결정 규칙 또는 여러 규칙의 조합을 사용하여 예측할 수 있다는 것이 바로 의사결졍 규칙입니다. 의사결정 규칙은 다음과 같은 일반적인 구조와 같습니다. 만약 조건이 THEN을 만족한다면 특정한 예측을 합니다. 의사결정 규칙은 아마도 가장 해석 가능한 예측 모델일 것입니다. IF-THEN 구조는 의미적으로 자연어와 우리가 생각하는 방식과 유사하며, 그 조건이 이해할 수 있는 특징으로부터 만들어 진다면, 조건의 길이는 짧고(소수의 feature=value와 결합된 값 쌍) 규칙도 그리 많지 않습니다...
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/CCCPj/btqARYz2Kfr/HJK9nVcnOKm6QRCDHdK37k/img.png)
특성값 및 결과값 간의 관계가 비선형적이거나 서로 상호작용하는 상황에서는 선형 회귀 및 로지스틱 회귀 모델을 사용하는 것이 적합하지 않습니다. 이러한 데이터에는 의사결정 트리(Decision Tree)이 빛을 발하게 됩니다! 트리 기반 모델은 특성값의 특정 컷오프 값에 따라 데이터를 여러 분 분할합니다. 분할을 통해 각 인스턴스가 하나의 부분 집합에 속하는 데이터 집합의 서로 다른 부분 집합이 생성됩니다. 최종 부분집합을 말단(Terminal) 또는 리프 노드(Leaf node)라고 하고 중간 부분집합을 내부 노드 혹은 분할 노드라고 합니다. 각 리프 노드의 결과를 예측하기 위해 이 노드의 학습 데이터의 평균 결과를 사용합니다. 트리는 분류와 회귀에 사용할 수 있습니다. 트리를 기를 수 있는 다양한 알고..