목록분류 전체보기 (79)
늦깎이 공대생의 인공지능 연구실
특성값이 예측 모델에서 서로 상호 작용할 때 하나의 특성에 대한 효과는 다른 특성값에 따라 결정되기 때무에 예측값은 항상 특성값의 합으로만 표현되지 않습니다. 아리스토엘레스의 "전체는 부분의 합보다 크다"라는 말은 상호작용의 존재하에 적용되어 있습니다. 특성 상호작용이란 무엇인가? 기계학습 모델이 두 가지 특성을 기반으로 예측을 하는 경우 예측을 네 가지 측면, 즉 상수항, 첫 번째 특성에 대한 측면, 두 번째 특성에 대한 측면, 그리고 두 가지 특성 사이의 상호작용에 대한 측면으로 나누어서 볼 수 있습니다. 두 가지 특성값 사이의 상호작용은 개별 특성값의 효과를 고려한 후 특성값을 변경함으로써 발생하는 예측값의 변화를 나타냅니다. 예를 들어 모델은 집의 크기(큰 경우 및 작은 경우)및 위치(좋거나 나쁘..
누적 지역 효과(Accumulated Local Effects)는 특성값이 기계학습 모델의 예측에 평균적으로 어떤 영향을 미치는지 설명합니다. ALE 플롯은 부분의존도(PDP)에 비해 빠르고 편향되지 않은 대안책입니다. 부분의존도는 이해하기 쉽고 두 방법 모두 동일한 목표를 지향하므로 먼저 부분의존도에 대한 내용을 읽어보기를 권해드립니다. 둘 다 특성값이 평균적으로 예측에 어떤 영향을 주는지 설명해줍니다. 지금부터 부분의존도가 각 특성값들이 상관관계가 있을 때 심각한 문제를 나타내고 있다는 점을 설명드리고자 합니다. 동기 및 직관 기계 학습 모델의 특성값들이 서로 상관관계가 있을때, 부분의존도를 신뢰할 수 없게 됩니다. 다른 특성값과 강한 상관관계가 있는 어떤 특성값에 대한 부분의존도의 계산에는 현실적으..
개별 조건부 기대치(ICE)는 특성값이 변경될 때 인스턴스(Instance)의 예측값이 어떻게 변하는지 보여주는 인스턴스당 하나의 선그래프를 나타냅니다. 특성값의 평균 효과에 대한 부분의존도는 특정 인스턴스에 초점을 맞추지 않고 전체 평균에 초점을 맞추기 때문에 전반적인 방법입니다. 개별 데이터 인스턴스에 대한 PDP와 같은 것을 개별 조건부 기대치(ICE)라고 합니다(Goldstein et al. 2017). ICE는 각 인스턴스에 대한 예측 의존도를 개별적으로 시각화하여, 부분의존도에서 전체적으로 하나의 선그래프에 비해 인스턴스당 하나의 선그래프가 됩다. PDP는 ICE의 선 평균입니다. 선(그리고 하나의 인스턴스)에 대한 값은 다른 모든 특성값을 동일하게 유지함으로써 계산할 수 있으며, 특성값을 그..
부분의존도(PDP 또는 PD plot)는 기계학습 모델의 예측 결과에 대한 하나 또는 두개의 특성들이 갖는 한계 효과(Marginal effect)를 보여줍니다(J. H. Friedman 2001). 부분의존도는 목표값과 특성값 사이의 관계가 선형인지, 변화가 없는지, 혹은 복잡한지를 나타냅니다. 예를 들어, 선형 회귀 모델을 적용할 때, 부분의존도는 선형 관계를 보여줍니다. 회귀에 대한 부분의존함수는 다음과 같은 식으로 나타냅니다. $$\hat{f}_{x_S}(x_S)=E_{x_C}\left[\hat{f}(x_S,x_C)\right]=\int\hat{f}(x_S,x_C)d\mathbb{P}(x_C)$$ \(x_S\)는 부분의존함수를 나타내기 위한 특성값이고, \(x_C\)는 기계학습 모델 \(\hat{..
기계학습 모델(=모델 불특정 해석 방법)에서 설명을 구분하는 것은 몇 가지 이점이 있습니다.(Ribeiro, Singh, and Guestrin 2016). 모델별 특정법보다 모델불특정법의 큰 장점은 유연성입니다. 기계학습 개발자들은 해석 방법이 어떤 모델에 적용할 수 있을 때 그들이 좋아하는 기계학습 모델을 자유롭게 사용할 수 있습니다. 그래픽 또는 사용자 인터페이스와 같은 기계학습 모델의 해석에 기초하는 것은 기본 기계학습 모델과 독립적이기도 합니다. 일반적으로 한 가지뿐 아니라 여러 가지 유형의 기계학습 모델을 평가하여 과제를 해결하는데, 해석력의 측면에서 모델을 비교할 때 어떤 종류의 모델에도 동일한 방법을 사용할 수 있기 때문에 모델불특정법 설명으로 하기가 더 쉽습니다. 모델 불특정 해석 방법의..
해석할 수 있는 모델은 끊임없이 증가하고 있으며 그 크기 또한 알 수 없습니다. 선형 모델, 의사결정 트리, 나이브 베이즈(Naive Bayes)와 같은 단순한 모델을 포함하지만, 해석할 수 없는 기계 학습 모델을 결합하거나 수정하여 해석할 수 있도록 하는 매우 복잡한 모델도 포함합니다. 특히 후자의 모델에 관한 논문들은 현재 매우 빈번하게 개제되고 있어서 발전 과정을 따라잡기 어렵습니다. 여기서는 오직 나이브 베이즈 분류기(Naive Bayes classifier)와 k-최근접 이웃 알고리즘(k-nearest neighbors)에 대해서만 다루고자 합니다. 나이브 베이즈 분류기(Naive Bayes classifier) 나이브 베이즈 분류기는 조건부 확률에 대한 베이즈 정리를 사용합니다. 각 피쳐(Fe..
Friedman과 Popescu(2008)이 제안한 룰핏(RuleFit)알고리즘은 의사결정 규칙의 형태로 자동으로 검출된 상호작용 효과를 포함하는 희박한 선형 모델(Sparse linear models)을 학습합니다. 선형 회귀 모델은 특성값 사이의 상호작용을 설명하지 않습니다. 선형 모델처럼 단순하고 해석 가능한 모델이면서도 특성값의 상호작용을 통합하는 것이 편리하지 않을까요? 룰핏은 이러한 질문에 대한 답이라고 할 수 있습니다. 룰핏은 본래 특성값과 함께 희박한 선형 모델을 학습하고 또한 의사결정 규칙인 다수의 새로운 특성값을 학습합니다. 이러한 새로운 특성값은 원래의 특성값과의 상호작용을 찾아냅니다. 룰핏은 의사결정 트리에서 이와 같은 특성값을 자동으로 생성합니다. 트리를 통과하는 각 경로는 분할된..
Ground-truth는 기상학에서 유래된 용어로 어느한 장소에서 수집된 정보를 의미합니다. Ground-truth는 보통 '지상 실측 정보'로 해석되며 인공위성과 같이 지구에서 멀리 떨어져서 지구를 관찰하였을 때 지구의 전체적인 관점을 보는 것에는 넓은 시야를 가질 수 있지만 실제 지면의 구조를 세밀하게 보는 것은 빛이 구름이나 대기를 통과하게 되면서 실제 모습이 왜곡되어 제대로 파악하는 것은 어렵습니다. 이러한 상황에세 지상 정보를 직접 측정한다면 보다 정확한 정보를 얻을 수 있는 것입니다. 이러한 정보에 인공위성에서 관측된 데이터를 참조하여 사용한다면 좀 더 정확한 데이터를 얻을 수 있습니다. 기계학습의 관점에서 보았을때 Ground-truth는 학습하고자 하는 데이터의 원본 혹은 실제 값을 표현할..