늦깎이 공대생의 인공지능 연구실

[해석할 수 있는 기계학습(2-5)] 인간 친화적 설명 본문

해석할 수 있는 기계학습/2. 해석력

[해석할 수 있는 기계학습(2-5)] 인간 친화적 설명

Justin T. 2019. 11. 17. 20:39

  사람들이 "좋은" 설명이라고 하는 것은 무엇인지, 그리고 해석할 수 있는 기계학습이 담고 있는 의미는 무엇인지 좀 더 자세히 알아보도록 합시다. 이를 위해 인문학에 대한 연구가 답을 찾아내는데 도움이 될 수 있을 것입니다. Miller(2017)는 설명에 대한 대규모 조사를 수행한 논문을 발표하였는데 여기서 그의 논문 내용을 요약해보고자 합니다.

 

 한 사건에 대한 설명으로서 사람들은 지금의 상황을 그 사건이 벌어지지 않았을 때와 비교할 수 있는 한 두가지의 경우를 예로 들어 최대한 짧은 설명을 선호합니다. 특히 평소에는 벌어지지 않는 비정상적인 상황은 설명하기가 더 쉽습니다. 설명은 설명하는 사람과 설명을 듣는 사람 사이의 사회적 상호 작용이며, 따라서 사회적 맥락은 설명의 실제 내용에 큰 영향을 줍니다.

 

 특정한 예측이나 행동에 대해 모든 요인들을 포함하여 설명해야 할 때, 인간 친화적 설명 보다는 완벽한 인과관계를 이용하여 설명하고자 할 것입니다. 몇몇 분들께서는 영향을 미치는 모든 특성을 법률적으로 명시하여야 하거나 기계학습 모델을 디버그해야 하는 경우, 인과관계를 따져보고자 할 것입니다. 그러한 분들께 여기서 다루고자 하는 내용이 큰 도움이 되지 않을 수 있습니다. 반면, 이러한 것에 전문적이지 않거나 시간이 없는 분들이라면 여기서 다루고자 하는 내용들이 흥미있을 것입니다.

 

 여기서 가장 궁극적인 질문을 되짚어봅니다.

 

설명이란 무엇일까?

  호주 멜버른 대학교 공과대학 부교수이신 팀 밀러(Tim Miller)교수는 설명을 다음과 같이 정의하였습니다. 

설명이란 "왜?" 라는 물음의 답이다(Miller, 2017)

https://eliiza.com.au/episode-2/

  •  왜 환자에게 그 치유법이 효과가 없었던 것일까?
  •  왜 은행에서 나에게 대출을 거절한걸까?
  •  왜 우리는 외계인과 연락을 주고 받지 못하고 있을까?

 위의 첫 번째와 두 번째 질문의 경우 전문가의 수준에서 쉽게 대답할수 있습니다. 반면 세 번째 질문의 경우 "더 일반적인 과학 현상과 철학적인 질문" 범주에서 답변이 가능한 수준입니다. 해석할 수 있는 기계학습의 관점에서 우리는 전자의 유형에 집중하고자 합니다. 이는 "왜 은행에서 나에게 대출을 거절한걸까?" 라는 질문이 "어떻게 은행에서 나에게 대출을 거절한걸까?"로 질문을 바꿀 수 있는 것과 같습니다.

 

 "설명"이라는 용어가 사회적, 인지적 과정을 의미할 뿐 아니라 아래에서 설명하고자 하는 과정의 결과물을 가르킵니다. 설명자는 인간일 수도 있고 기계일 수도 있습니다.

 

좋은 설명이란 무엇일까?

 우리는 "좋은" 설명에 대한 Miller 교수의 관점과 해석할 수 있는 기계 학습에 대한 구체적인 의미에 대해 알아보고자 합니다.

 

1. 설명은 대조적이다.(Lipton, 1990)

 사람들은 대개 왜 그러한 예측을 하게 되었는지 묻지 않고, 또 다른 예측 대신 왜 이 예측이 이루어졌는지를 묻지 않습니다. 우리는 반사실적인 경우, 즉 "입력 X가 다르다면 예측은 어떻게 되었을까?"라고 생각하는 경향이 있다. 집값 예측을 위해, 집주인은 예상했던 낮은 가격에 비해 왜 예측 가격이 높은지에 관심을 가질지도 모릅니다. 만약 우리의 대출 신청이 거절되었을 때, 의외로 우리는 일반적으로 거절에 요인을 준 모든 요소들을 알나내는 데에 관심이 없습니다. 오히려 우리는 대출을 받기 위해 변경해야 할 요소들에 관심을 갖습니다. 즉, 대출 신청을 하기 위해 어떤 점을 바꿔야 하는지에 더 집중하게 되는 것이지요. 설명의 대조를 이루는 인식은 해석할 수 있는 기계 학습의 관점에서 중요한 요소입니다.

 대부분의 해석 가능한 모델에서 인스턴스 예측과 인위적 데이터 인스턴스 예측 또는 평균 인스턴스 예측을 암묵적으로 대조하는 설명을 추출할 수 있습니다. 의사들은 "왜 그 약이 환자에게 효과가 없었는가?"라는 의문을 가질 수 있습니다. 그리고 의사들은 약이 잘 듣는 환자와 반응이 없는 환자와 대조되는 설명을 원할 수도 있습니다. 대조적인 설명은 완전한 설명보다 이해하기 쉽습니다. 약이 효과가 없는 이유에 대해 의사의 질문에 대해 완벽히 설명해달라고 한다면 다음과 같이 말할 것입니다.

 

환자는 10년 동안 이 병에 걸렸고, 11개의 유전자가 과다 발현되었으며, 환자의 몸은 약물을 비효과적인 화학 물질로 분해하는 데 매우 빠르다. 그리고...

 대조적인 설명은 훨씬 간단할 것입니다. 약에 반응하는 환자와는 대조적으로 무반응 환자는 일정한 유전자 조합을 가지고 있어 약효가 제대로 적용되지 않습니다. 가장 좋은 설명은 관심 대상과 기준 대상 사이의 가장 큰 차이를 강조하는 것이지요.


해석할 수 있는 기계학습의 관점에서: 인간은 예측에 대한 완전한 설명을 원하는 것이 아니라, 차이점이 무엇인지 다른 예시의 예측과 비교하는 것을 원합니다(인공적인 예측일 수도 있습니다). 대조적인 설명을 작성하는 것은 비교를 위한 참고사항이 필요하기 때문에 응용 프로그램에 의존합니다. 그리고 대조적인 설명은 설명해야 할 데이터 포인트에 따라 달라질 수 있지만, 또한 사용자가 설명을 받아들이는 것에 달려 있습니다. 집값 예측 웹사이트 사용자는 집값 예측에 대해 자신의 집이나 웹사이트에 있는 다른 집, 또는 이웃동네의 평균 주택과 대비되는 설명을 듣고 싶을 것입니다. 대조적 설명의 자동 생성을 위한 해결책에는 데이터에서 프로토타입이나 원형 데이터를 찾는것이 포함될 수 있습니다.

 

2. 설명은 결정되어 있다.

 사람들은 사건의 실제적이고 완전한 원인 분석을 포함하는 설명을 기대하지 않습니다. 특정 사건에 대한 설명으로 가능한 여러 가지 원인 중에서 한 가지나 두 가지 원인을 선택하는 데 익숙하다. 그 증거로, "주가의 하락은 최근의 소프트웨어 업데이트 문제로 인해 회사 제품에 대한 반발이 커지고 있기 때문"이라는 소식등을 본다면 알 수 있을 것입니다.

 "프로야구팀은 약한 수비 때문에 시합에서 졌다. 그들은 상대팀에게 그들의 전략을 펼치기에는 너무 많은 여유를 주었다."
 "기존 기관과 우리 정부에 대한 불신 증가가 투표율을 떨어뜨린 주요 요인"


 어떤 사건이 여러 가지 원인에 의해 설명될 수 있다는 사실을 라쇼몽 효과(Rashomon Effect)라고 합니다. 라쇼몬은 어떤 사무라이의 죽음에 대해 대체적이고 모순되는 이야기(설명)를 들려주는 일본 영화입니다. 기계학습 모델의 관점에서 다른 특징으로 좋은 예측을 할 수 있다면 상당히 좋은 이점이라 할 수 있습니다. 여러 모델과 다른 형상(다른 설명)을 결합하는 앙상블 기법은 대개 그러한 "스토리"에 대한 평균이 예측을 더 견고하고 정확하게 하기 때문에 자주 사용되는 기법입니다. 물론 앙상블 기법 또한 왜 특정한 예측을 하게 되었는지 데한 하나 이상의 선택적 설명이 있다는 것을 의미합니다.

 

라쇼몽 효과는 마치 장님이 코끼리를 만지는 것과 같은 현상이다. 

해석할 수 있는 기계학습의 관점에서: 설명이 매우 복잡하다 하더라도 매우 짧게, 1개에서 2개 정도의 이유만 제시합니다. LIME 방법이 가장 좋은 예시라 할 수 있습니다.

 

3. 설명은 사회적이다

 설명의 사회적 관점은 설명자와 설명을 받는 사람 사이의 대화나 상호작용의 일부분이라 할 수 있습니다. 사회적 문맥은 설명의 내용과 성격을 결정합니다. 디지털 암호화폐가 왜 그렇게 가치가 있는지 기술자에게 설명한다면 다음과 같이 말할 것입니다

 

"중앙집단이 통제할 수 없는 분권형, 분산형, 블록체인 기반의 거래장부는 부를 확보하려는 사람들을 불러모으고, 이것이 높은 수요와 가격을 설명할 수 있다."

그러나 일반적인 사람들에게 있어 다음과 같은 설명이 좀 더 설득력을 얻을 수 있습니다.

"암호화폐는 컴퓨터 금과 약간 비슷해요. 사람들은 금을 좋아하고 많은 돈을 지불할 의향이 있고, 젊은 사람들은 컴퓨터 금을 좋아하고 이를 구매하려고 하는 거에요."

해석할 수 있는 기계학습의 관점에서: 기계학습이 적용되는 분야와 대상의 사회적 환경을 주의깊게 살펴보아야 합니다. 기계학습 모델의 사회적 부분의 적용이 올바르게 되기 위해서는 전적으로 특정 분야의 적용자에 달려있습니다. 이를 위해서는 인류학의 전문가들(심리학자 또는 사회학자)의 도움이 필요합니다.

 

4. 설명은 비정상적인 것에 주목한다.

 사람들은 사건을 설명하기 위해 비정상적인 원인에 더 초점을 맞춥니다(Kahnemann and Tversky, 1981). 비정상적인 사건이 벌어질 가능성은 작지만 종종 발생할 수 밖에 없습니다. 비정상적인 요소들을 제거한다면 상당히 다른결과(반사실적 설명)를 얻을 수있습니다. 사람들은 이런 종류의 "비정상적인" 원인을 좋은 설명으로 생각합니다.

 

 Štrumbelj 와 Kononenko(2011)는 다음과 같은 n의 예제를 설명합니다. 교사와 학생 사이의 실험 상황에 대한 데이터 세트를 가지고 있다고 가정해봅니다. 학생들은 성공적으로 프레젠테이션을 한 후에 강좌에 참석하고 바로 강의를 통과합니다. 선생님은 학생들의 지식을 시험하기 위해 추가로 질문을 할 수 있는 선택권이 있습니다. 이 질문에 답할 수 없는 학생들은 그 과목에서 낙제할 것입니다. 학생들은 각자 공부량이 다를 수 있어, (시험을 치루기로 결정한 경우)교사의 질문에 정확하게 대답할 수 있는 각각의 확률을 의미합니다. 학생이 강의를 통과할 것인지 예측하고 그 예측을 설명하기 원합니다. 교사가 추가 질문을 하지 않을 경우 합격 확률은 100%이며, 그렇지 않을 경우 합격 확률은 학생의 공부량과 그에 따른 질문에 대한 정답 확률에 따라 달라집니다.

 

시나리오 1: 교사는 보통 학생들에게 95%의 확률로 추가 질문을 합니다. 공부를 하지 않은 학생(10% 확률로 일부 문제를 통과)은 운이 좋은 학생이 아니었고, 이 학생이 대답하지 못하는 추가 질문이 들어옵니다. 왜 이학생은 해당 수업을 통과하지 못했을까요? 누군가는 그 학생이 공부를 하지 않았기 때문이라 할 것입니다.

 

시나리오 2: 교사는 드물게 학생들에게 2%의 확률로 추가 질문을 합니다. 그 질문에 대해 공부를 하지 않은 학생에게 있어 수업을 통과하지 못할 가능성은 낮다고 판단합니다. 만약 이 학생이 추가 질문을 받고 해당 수업을 통과하지 못했다면 누군가는 선생님의 비정상적인 행동으로 인해 낙제했다고 판단할 것입니다.

 

해석할 수 있는 기계학습의 관점에서: 만약 예측에 대한 입력 특성중 하나가 어떤 의미(카테고리 특징 중 흔치 않는 범주의 경우)에서 비정상적이고 그 특성이 결과에 영향을 주었다면, 비록 다른 '정상적인' 특성이 비정상적인 특성과 같은 예측에 영향을 주었더라도 이를 설명에 포함시켜야 합니다. 집값 예측 예제에서 비싼 집은 두 개의 발코니가 있어서라는 결론을 내릴 수도 있습니다. 비록 실제 집 가격이 집의 크기, 역세권, 주변 상권 등의 영향때문임에도, 비정상적인 특성인 '두 개의 발코니'는 그 집값이 비싼 이유에 대한 가장 좋은 설명이 될 수도 있을 것입니다.

5. 설명은 진실이다.

 좋은 설명은 현실(즉, 다른 상황에서)에서 진실임이 분명합니다. 그러나 불안하게도, 이것이 "좋은" 설명의 가장 중요한 요소는 아닙니다. 예를 들어, 진실성보다 선택성이 더 중요한 것 처럼 보일 수 있습니다. 가능한 원인 중 하나 또는 두 가지만 선택하는 설명은 관련 원인 목록 전체를 거의 다루지 않습니다. 선택성은 진실의 일부를 생략합니다. 예를 들어 주식시장 붕괴를 초래한 요인은 한 두 가지에 불과하다는 것은 사실이 아니지만, 사실은 수백만 명의 사람들에게 영향을 미치는 원인이 수백만 명에 달해 결국 주가 하락의 원인이 된 것입니다.

 

해석할 수 있는 기계학습의 관점에서: 설명은 가능한 한 솔직하게 사건을 예측해야 하며, 기계 학습에서는 이를 충실도(fidelity)라고 합니다. 그래서 만약 우리가 제2의 발코니가 집값을 올린다고 주장한다면, 그것은 다른 집들(또는 적어도 비슷한 집들)에도 적용되어야만 합니다. 사람들에게 설명의 충실도는 선택성, 대조성, 사회적 측면만큼 중요하지 않습니다.

6. 좋은 설명은 설명자의 이전의 믿음(prior beliefs)과 일치한다.

 사람들은 자신이 갖고 이전의 믿음이 일관적이지 않은 정보를 무시하는 경향이 있습니다. 이러한 현상은 확증편향(confimation bias)이라 합니다(Nickerson, 1998). 자신이 믿고 있는 신념과 배치되는 정보를 들으려 하지 않고 자신이 듣고 싶은 정보를(설령 그 정보가 거짓이라 하더라도) 굳게 믿는 현상을 말합니다. 이러한 믿음은 전세계적으로 특히 정치적인 문제에서 발생하고 있습니다.

해석할 수 있는 기계학습의 관점에서: 좋은 설명은 이전의 믿음과 일치합니다. 그러나 좋은 설명을 기계학습에 흡수되게 하는 것은 어려운데다가 예측 성능을 크게 떨어뜨릴 것입니다. 집 크기가 예측 가격에 미치는 영향에 대한 우리의 이전의 믿음은 집이 클수록 가격이 높다는 것입니다. 모델 또한 몇 채 안 되는 집의 예측 가격에 부정적인 영향을 미친다고 가정해 봅니다. 모델은 (일부 복잡한 상호작용 때문에) 예측 성능을 향상시키기 때문에 이를 학습하지만, 이러한 행동은 우리의 이전의 믿음과 강하게 모순되어버립니다. 단조성 제약 조건(특성은 한 방향의 예측에만 영향을 미칠 수 있음)을 적용하거나 이 속성을 갖는 선형 모델과 같은 것을 사용할 수 있습니다.

7. 좋은 설명은 일반적이고 개의성이 있다.

 많은 사건을 설명할 수 있는 원인은 매우 일반적이며 좋은 설명으로 여겨질 수 있습니다. 이는 비정상적인 원인이 좋은 설명을 한다는 주장과 배치된다는 점이 흥미롭습니다. 자신이 볼 때, 비정상적인 원인은 일반적인 원인을 능가한다. 비정상적인 원인은 정의상 주어진 시나리오에서는 드물게 벌어집니다. 비정상적인 사건이 없을 경우, 일반적인 설명은 좋은 설명으로 여겨집니다. 또한 사람들은 공동 사건의 확률을 오판하는 경향이 있습니다. 좋은 예로 "집이 크기 때문에 비싸다"는 것인데, 이것은 왜 집이 비싼지에 대한 매우 일반적인, 좋은 설명입니다.

해석할 수 있는 기계학습의 관점에서: 일반성은 특성의 지지도(설명이 적용되는 인스턴스 수를 총 인스턴스 수로 나눈 값)로 쉽게 측정 할 수 있습니다.

 

참고자료: https://christophm.github.io/interpretable-ml-book/explanation.html

 

2.6 Human-friendly Explanations | Interpretable Machine Learning

Machine learning algorithms usually operate as black boxes and it is unclear how they derived a certain decision. This book is a guide for practitioners to make machine learning decisions interpretable.

christophm.github.io

 

반응형