목록해석할 수 있는 기계학습/4. 해석할 수 있는 모델 (7)
늦깎이 공대생의 인공지능 연구실
해석할 수 있는 모델은 끊임없이 증가하고 있으며 그 크기 또한 알 수 없습니다. 선형 모델, 의사결정 트리, 나이브 베이즈(Naive Bayes)와 같은 단순한 모델을 포함하지만, 해석할 수 없는 기계 학습 모델을 결합하거나 수정하여 해석할 수 있도록 하는 매우 복잡한 모델도 포함합니다. 특히 후자의 모델에 관한 논문들은 현재 매우 빈번하게 개제되고 있어서 발전 과정을 따라잡기 어렵습니다. 여기서는 오직 나이브 베이즈 분류기(Naive Bayes classifier)와 k-최근접 이웃 알고리즘(k-nearest neighbors)에 대해서만 다루고자 합니다. 나이브 베이즈 분류기(Naive Bayes classifier) 나이브 베이즈 분류기는 조건부 확률에 대한 베이즈 정리를 사용합니다. 각 피쳐(Fe..
Friedman과 Popescu(2008)이 제안한 룰핏(RuleFit)알고리즘은 의사결정 규칙의 형태로 자동으로 검출된 상호작용 효과를 포함하는 희박한 선형 모델(Sparse linear models)을 학습합니다. 선형 회귀 모델은 특성값 사이의 상호작용을 설명하지 않습니다. 선형 모델처럼 단순하고 해석 가능한 모델이면서도 특성값의 상호작용을 통합하는 것이 편리하지 않을까요? 룰핏은 이러한 질문에 대한 답이라고 할 수 있습니다. 룰핏은 본래 특성값과 함께 희박한 선형 모델을 학습하고 또한 의사결정 규칙인 다수의 새로운 특성값을 학습합니다. 이러한 새로운 특성값은 원래의 특성값과의 상호작용을 찾아냅니다. 룰핏은 의사결정 트리에서 이와 같은 특성값을 자동으로 생성합니다. 트리를 통과하는 각 경로는 분할된..
의사결정 규칙은 조건(antecedent)과 예측으로 구성된 단순한 IF-THEN 문입니다. 예를 들어 오늘 비가 오고 4월(조건)이면 내일 비가 올 것이다(예상) 와 같은 가정과 같이 말이지요. 이와 같이 단일 결정 규칙 또는 여러 규칙의 조합을 사용하여 예측할 수 있다는 것이 바로 의사결졍 규칙입니다. 의사결정 규칙은 다음과 같은 일반적인 구조와 같습니다. 만약 조건이 THEN을 만족한다면 특정한 예측을 합니다. 의사결정 규칙은 아마도 가장 해석 가능한 예측 모델일 것입니다. IF-THEN 구조는 의미적으로 자연어와 우리가 생각하는 방식과 유사하며, 그 조건이 이해할 수 있는 특징으로부터 만들어 진다면, 조건의 길이는 짧고(소수의 feature=value와 결합된 값 쌍) 규칙도 그리 많지 않습니다...
특성값 및 결과값 간의 관계가 비선형적이거나 서로 상호작용하는 상황에서는 선형 회귀 및 로지스틱 회귀 모델을 사용하는 것이 적합하지 않습니다. 이러한 데이터에는 의사결정 트리(Decision Tree)이 빛을 발하게 됩니다! 트리 기반 모델은 특성값의 특정 컷오프 값에 따라 데이터를 여러 분 분할합니다. 분할을 통해 각 인스턴스가 하나의 부분 집합에 속하는 데이터 집합의 서로 다른 부분 집합이 생성됩니다. 최종 부분집합을 말단(Terminal) 또는 리프 노드(Leaf node)라고 하고 중간 부분집합을 내부 노드 혹은 분할 노드라고 합니다. 각 리프 노드의 결과를 예측하기 위해 이 노드의 학습 데이터의 평균 결과를 사용합니다. 트리는 분류와 회귀에 사용할 수 있습니다. 트리를 기를 수 있는 다양한 알고..
선형 회귀 모델의 가장 큰 장점은 예측값이 특성값의 가중치합으로 모델링된다는 것입니다. 또한, 선형 모델은 많은 가정등을 세울 수 있습니다. 그러나 이러한 가정들이 종종 현실에서는 틀릴 경우가 있다는 것입니다. 특성값에 주어진 결과값은 정규분포를 가질 수 있고, 특성값이 상호작용할 수 있으며 특성값과 결과값 사이의 관계가 비선형적일 수도 있습니다. 다행히도 통계학계에서 선형 회귀 모델을 단순한 칼에서 스위스칼로 변형시키는 다양한 수정방법을 개발했다는 것입니다. 이 포스팅에서 다루는 내용을 선형 모델을 확장하기 위한 것이라고 장담하지는 않겠습니다. 여기서는 GLM(Generalized Linear Model)과 GAM(Generalized Additive Models)과 같은 확장 개념에 대한 간단한 소개..
로지스틱 회귀는 두 가지 가능한 결과를 갖고 있는 데이터를 분류하는 문제에 대한 확률을 모델링합니다. 이는 즉 분류 문제에 대한 선형 회귀 모델의 확장이라 할 수 있습니다. 선형 회귀의 단점은 무엇인가? 선형 회귀는 회귀 분석에서는 요긴하게 사용될 수 있지만 분류에서는 실패하는 경우가 발생합니다. 왜 그런것일까요? 두 가지 클래스가 있을 때 하나의 클래스에 0을, 다른 클래스에 1을 라벨로 지정하고 선형 회귀 분석을 사용할 수 있습니다. 기술적으로 이는 효과가 있고 납들할 만한 가중치값을 보입니다. 그러나 이러한 선형 회귀 접근법에는 몇 가지 문제가 있습니다. 선형 모델은 확률을 파악하는 것은 것은 매우 어려우며 두 클래스를 숫자(0과 1)로 처리하며 각 클래스 특성값의 점과 초평면(Hyper plane..
선형 회귀 모델은 특성값(Feature)의 입력과 가중치(Weight)의 곱의 합으로 목표값으로 예측하는 것을 말합니다. 학습된 관계의 선형성은 해석을 쉽게 만들줍니다. 선형 회귀 모델 오랫동안 통계학자와 컴퓨터 과학자들은 물론 상당한 양의 문제를 다다루는 사람들이 주로 사용하는 알고리즘입니다. 선형 모델들은 일부 특성값 x에 대한 회귀 목표값 y의 의존성을 모델로 만들 수 있습니다. 학습된 관계는 선형이고 이는 단일 인스턴스 i로서 다음과 같이 나타낼 수 있습니다. $$y=\beta_{0}+\beta_{1}x_{1}+\ldots+\beta_{p}x_{p}+\epsilon$$ 위 식의 결과는 특성값 p개에 가중치를 곱한 합으로 나타냅니다. \(\beta_j\)값들은 계수의 가중치입니다. 첫 번째 가중치값..