늦깎이 공대생의 인공지능 연구실
[논문프리뷰] ChatGPT의 언어적 편향: 방언 차별을 강화하는 언어 모델 본문

ChatGPT는 영어로 사람들과 놀랍도록 잘 소통할 수 있습니다. 그렇다면 어떤 영어를 사용할까요?
ChatGPT 사용자의 15%만이 표준 미국 영어를 기본으로 사용하는 미국 출신입니다. 그러나 이 모델은 다른 종류의 영어를 사용하는 국가와 커뮤니티에서도 일반적으로 사용됩니다. 전 세계 10억 명 이상의 사람들이 인도 영어, 나이지리아 영어, 아일랜드 영어, 미국 흑인 영어와 같은 다양한 영어를 사용합니다.
이러한 '표준'이 아닌 언어를 사용하는 사람들은 현실 세계에서 종종 차별에 직면합니다. 모든 언어가 똑같이 복잡하고 적법하다는 광범위한 연구 결과가 있음에도 불구하고 이들은 자신의 말하기 방식이 비전문적이거나 부정확하다는 말을 듣거나, 증언으로서 불신을 받거나, 주택 임대를 거부당하기도 합니다. 누군가의 말하기 방식을 차별하는 것은 종종 인종, 민족 또는 국적을 차별하는 것과 같은 맥락입니다. ChatGPT가 이러한 차별을 악화시킨다면 어떻게 해야 할까요?
이 질문에 답하기 위해 최근 발표된 논문을 통해 다양한 종류의 영어 텍스트에 따라 ChatGPT의 반응이 어떻게 달라지는지 살펴봤습니다. 그 결과 ChatGPT의 응답은 고정관념과 비하하는 내용의 증가, 이해력 저하, 겸손한 응답 등 '표준'이 아닌 유형에 대해 일관되고 만연한 편향성을 보인다는 사실을 발견했습니다.
연구 방법
두 종류의 “표준” 영어인 표준 미국 영어(Standard American English, SAE)와 표준 영국 영어(Standard British English, SBE)와 비 “표준” 영어인 아프리카계 미국인, 인도, 아일랜드, 자메이카, 케냐, 나이지리아, 스코틀랜드, 싱가포르 영어 등 8가지 종류의 텍스트로 GPT-3.5 Turbo와 GPT- 4 모두에 10가지 종류의 영어를 프롬프트했습니다. 그런 다음 '표준' 언어 유형과 비'표준' 언어 유형에 대한 언어 모델 응답을 비교했습니다.
먼저, 프롬프트에 있는 다양한 언어적 특징이 해당 프롬프트에 대한 GPT-3.5 Turbo의 응답에서도 유지되는지 여부를 알고 싶었습니다. 각 언어의 특징과 미국식 또는 영국식 철자 사용 여부(예 “colour” 또는 “”practise")에 대한 프롬프트와 모델 응답에 대해 설명을 달았습니다. 이를 통해 ChatGPT가 언제 특정 언어를 모방하거나 모방하지 않는지, 그리고 모방 정도에 영향을 미칠 수 있는 요인이 무엇인지 파악할 수 있었습니다.
그런 다음, 각 언어의 원어민이 모델 응답에 대해 긍정적( 온화함, 공감, 순진함 등)과 부정적(고정관념, 비하하는 내용, 겸손함 등)으로 평가하도록 했습니다. 여기에서는 원래의 GPT-3.5 응답과 함께 모델에게 입력된 스타일을 모방하도록 지시한 GPT-3.5 및 GPT-4의 응답을 포함했습니다.
결과
이 모델은 미국에서 개발되었고 표준 미국 영어가 학습 데이터에서 가장 잘 대표되는 방언이기 때문에 ChatGPT는 기본적으로 표준 미국 영어를 생성할 것으로 예상했습니다. 실제로 모델 응답이 “표준” 방언이 아닌 어떤 방언보다 표준 미국 영어의 특징을 훨씬 더 많이 유지한다는 사실을 발견했습니다(60% 이상의 차이). 하지만 놀랍게도 이 모델은 일관되지는 않지만 다른 종류의 영어도 모방합니다. 실제로 나이지리아 영어와 인도 영어처럼 사용자가 많은 방언의 모방이 자메이카 영어처럼 사용자가 적은 방언의 모방보다 더 자주 이루어집니다. 이는 학습 데이터 구성이 비표준 방언에 대한 반응에 영향을 미친다는 것을 시사합니다.
또한 ChatGPT는 기본적으로 미국식 방언을 사용하므로 비미국계 사용자가 불편을 느낄 수 있습니다. 예를 들어, 대부분의 미국 외 국가에서 기본값인 영국식 철자를 사용하는 입력에 대한 모델 응답은 거의 보편적으로 미국식 철자로 되돌아갑니다. 이는 ChatGPT 사용자 중 상당수가 현지 철자법을 수용하지 않아 불편을 겪고 있는 것으로 보입니다.
모델 응답은 지속적으로 비 '표준' 유형에 대해 편향되어 있습니다. 비'표준' 유형에 대한 기본 GPT-3.5 응답은 고정관념(표준 유형에 비해 19% 더 심함), 비하하는 내용(25% 더 심함), 공감 부족(9% 더 심함), 겸손한 응답(15% 더 심함) 등 다양한 문제를 일관되게 나타냅니다.

GPT-3.5에서 입력된 방언을 모방하라는 메시지가 표시되면 고정관념적인 내용(9% 악화)과 공감 부족(6% 악화) 응답이 더 심해집니다. GPT-4는 GPT-3.5보다 더 새롭고 강력한 모델이기 때문에 GPT-3.5보다 개선되기를 기대할 수 있습니다. 그러나 입력을 모방한 GPT-4 응답은 온화함, 공감, 친근함 측면에서 GPT-3.5보다 개선되었지만, 고정관념을 악화시켰습니다(소수의 경우 GPT-3.5보다 14% 더 나빴습니다). 이는 더 크고 새로운 모델이 방언 차별을 자동으로 해결하는 것이 아니라 오히려 더 악화시킬 수 있음을 시사합니다.
시사점
ChatGPT는 '표준' 언어가 아닌 언어를 사용하는 사용자에 대한 언어적 차별을 지속시킬 수 있습니다. 이러한 사용자가 ChatGPT를 이해하는 데 어려움을 겪는다면 이러한 채팅 도구를 사용하기가 더 어려워집니다. 이는 AI 모델이 일상 생활에서 점점 더 많이 사용됨에 따라 비'표준' 화자에 대한 장벽을 강화시킬 수 있습니다.
또한, 편견과 비하적 반응은 '표준'이 아닌 언어를 사용하는 화자들이 상대적으로 부정확하고 존중받지 못한다는 생각으로 이어질 수 있습니다. 전 세계적으로 언어 모델 사용이 증가함에 따라 이 같은 AI 플랫폼은 소수의 언어 커뮤니티에 피해를 주는 권력 역학 관계를 강화하고 불평등을 증폭시킬 위험이 있습니다.
참고자료: https://bair.berkeley.edu/blog/2024/09/20/linguistic-bias/
Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination
The BAIR Blog
bair.berkeley.edu