늦깎이 공대생의 인공지능 연구실

[해석할 수 있는 기계학습(4-7)] 기타 해석할 수 있는 모델 본문

해석할 수 있는 기계학습/4. 해석할 수 있는 모델

[해석할 수 있는 기계학습(4-7)] 기타 해석할 수 있는 모델

Justin T. 2020. 3. 7. 01:27

 해석할 수 있는 모델은 끊임없이 증가하고 있으며 그 크기 또한 알 수 없습니다. 선형 모델, 의사결정 트리, 나이브 베이즈(Naive Bayes)와 같은 단순한 모델을 포함하지만, 해석할 수 없는 기계 학습 모델을 결합하거나 수정하여 해석할 수 있도록 하는 매우 복잡한 모델도 포함합니다. 특히 후자의 모델에 관한 논문들은 현재 매우 빈번하게 개제되고 있어서 발전 과정을 따라잡기 어렵습니다. 여기서는 오직 나이브 베이즈 분류기(Naive Bayes classifier)와 k-최근접 이웃 알고리즘(k-nearest neighbors)에 대해서만 다루고자 합니다.

나이브 베이즈 분류기(Naive Bayes classifier)

 나이브 베이즈 분류기는 조건부 확률에 대한 베이즈 정리를 사용합니다. 각 피쳐(Feature)에 대해 특성값에 따라 클래스의 확률을 계산합니다. 나이브 베이즈 분류기는 각 특성값에 대한 클래스 확률을 독립적으로 계산하는데, 이는 특성값의 독립성에 대한 강한(= 순진한) 가정에 해당한다. 나이브 베이즈는 조건부 확률 모델이며 다음과 같이 클래스 \(C_k\)의 확률을 모델링합니다.

$$P(C_k|x)=\frac{1}{Z}P(C_k)\prod_{i=1}^n{}P(x_i|C_k)$$

 Z는 모든 클래스에 대한 확률의 합계가 1이 되도록 하는 스케일링 파라미터입니다(그렇지 않다면 확률이라고 볼 수 없지요). 클래스의 조건부 확률은 클래스에 주어진 각 특성값의 확률의 클래스 확률 곱으로, Z에 의해 일반화(Normalized)됩니다. 이 공식은 베이즈 정리를 이용하여 도출할 수 있습니다.

 나이브 베이즈는 독립적인 가정을 할 수 있으므로 해석할 수 있는 모델에 해당합니다. 이는 모듈 단계에서 해석할 수 있습니다. 조건부 확률을 해석할 수 있기 때문에, 그것이 특정 클래스 예측에 얼마나 기여하는지는 각각의 특성값에 대해 매우 분명하게 나타나기 때문이지요.

K-최근접 이웃 알고리즘(K-nearest neighbors)

 k-최근접 이웃 알고리즘은 회귀와 분류에 사용할 수 있으며 데이터 포인트의 가장 가까운 이웃을 예측하는 데에 사용합니다. 분류를 위해 k-최근접 이웃 알고리즘은 인스턴스의 가장 가까운 이웃의 가장 흔한 클래스를 할당합니다. 회귀의 경우, 이웃들의 결과의 평균을 취한다. 까다로운 부분은 올바른 k를 찾아내고 인스턴스 간의 거리를 측정하는 방법을 결정하는 것인데, 이는 궁극적으로 이웃을 정의한다.

 

https://wikipedia.org/wiki/K-nearest_neighbors_algorithm

 

 k-최근접 이웃 모델은 인스턴스 기반의 학습 알고리즘이기 때문에 여기서 제시된 다른 해석할 수 있는 모델과 다릅니다. k-최근접 이웃 알고리즘은 어떻게 해석될 수 있을까요? 우선 학습할 파라미터가 없어 모듈 단계에서의 해석력이 없습니다. 더욱이 모델은 본래 지역적(local)이며 명시적(explicitly)으로 학습된 전역 가중치나 구조가 없기 때문에 전반적 모델 해석력이 부족하게 됩니다. 그렇다면 지역적 차원에서는 해석할 수 있을까요? 이러한 예측을 설명하기 위해, 예측에 사용되었던 k 이웃을 언제든지 반환할 수 있습니다. 모델이 해석 가능한지의 여부는 데이터셋에서 단일 인스턴스를 '해석'할 수 있는지의 여부에만 달려 있습니다. 만약 한 인스턴스가 수백 또는 수천 개의 특성값으로 구성되어 있다면, 저라면 해석할 수 없다고 주장할 것입니다. 그러나 여러분이 인스턴스를 가장 중요한 특성값으로 축소시킬 수 있는 특징이나 방법이 거의 없다면, k-최근접 이웃 알고리즘을 제안하는 것이 좋은 설명을 해줄 수 있는 방법이 될 것입니다.

 

참고자료: https://christophm.github.io/interpretable-ml-book/other-interpretable.html

 

4.7 Other Interpretable Models | Interpretable Machine Learning

Machine learning algorithms usually operate as black boxes and it is unclear how they derived a certain decision. This book is a guide for practitioners to make machine learning decisions interpretable.

christophm.github.io

 

반응형