늦깎이 공대생의 인공지능 연구실
[용어 정리]유니그램 확률(Unigram Probability) 본문

인공지능이 우리가 쓰는 말을 어떻게 이해하고 숫자로 계산하는지, 그 가장 기초가 되는 개념인 '유니그램 확률(Unigram Probability)'에 대해 알아보려고 합니다. 이름은 거창하지만, 알고 보면 아주 단순한 원리랍니다.
유니그램(Unigram)이란 무엇인가
유니그램이란 다음과 같은 의미를 가집니다.
Uni (하나의) + Gram (글자/단어)
즉, 문장에서 단어를 딱 하나씩만 떼어서 보는 것을 말합니다.
예를 들어 "오늘 날씨가 정말 좋다"라는 문장이 있다면, 유니그램 방식으로는 [오늘], [날씨가], [정말], [좋다] 이렇게 네 개의 조각으로 나누어 생각하는 것이죠.
유니그램 확률: "단어 주머니에서 제비뽑기"
유니그램 확률은 쉽게 말해 "전체 단어들 중에서 특정 단어가 나타날 확률"입니다. 이해를 돕기 위해 큰 주머니 하나를 상상해 보세요.
- 우리가 읽은 모든 책과 기사에 나온 단어들을 종이에 적어 주머니에 넣습니다.
- 주머니를 마구 흔든 뒤, 눈을 감고 종이 한 장을 뽑습니다.
- 이때 '사과'라는 단어가 적힌 종이가 나올 확률이 바로 '사과의 유니그램 확률'입니다.
계산 방법
계산 방법은 아주 간단합니다. 전체 단어 개수 중에서 그 단어가 몇 번 나왔는지만 알면 됩니다.
예를 들어, 총 10개의 단어가 들어있는 아주 작은 주머니가 있다고 가정해 봅시다.
* 주머니 내용물: {나, 너, 사과, 사과, 사과, 바나나, 먹다, 먹다, 좋다, 공부}
| 단어 | 나타난 횟수 | 유니그램 확률 |
| 사과 | 3번 | 3/10 = 30% |
| 먹다 | 2번 | 2/10 = 20% |
| 나 | 1번 | 1/10 = 10% |
이 주머니에서 아무 단어나 뽑았을 때 '사과'가 나올 확률이 가장 높죠? 인공지능은 이를 보고 "이 데이터에서는 '사과'라는 단어가 중요하거나 자주 쓰이는구나!"라고 판단합니다.
유니그램 확률의 한계
유니그램 확률은 매우 간단하지만 큰 단점이 하나 있습니다. 바로 '문맥'을 전혀 모른다는 점이에요.
- "나는 [ ]를 먹는다"라는 문장에서 빈칸을 채울 때,
- 유니그램 확률만 따지면 주머니에서 가장 개수가 많은 단어(예: '그는', '매우')를 무작정 추천할 수도 있습니다.
- '먹는다' 앞에 '사과'가 올 확률이 높은지, '하늘'이 올 확률이 높은지는 고려하지 않죠.
그럼에도 불구하고 유니그램 확률은 텍스트 마이닝, 검색 엔진 순위 결정, 그리고 더 복잡한 언어 모델(ChatGPT 같은 것들!)의 가장 밑바닥 기초가 되기 때문에 매우 중요합니다.
요악하자면,
- 유니그램은 단어를 하나씩 쪼갠 조각이다.
- 유니그램 확률은 전체 단어 중 그 단어가 얼마나 자주 등장하는지 나타내는 수치다.
- 주머니에서 제비뽑기를 하는 것과 같은 원리다!
'AI용어정리' 카테고리의 다른 글
| [용어 정리]Modeling Power (0) | 2025.11.02 |
|---|---|
| [용어정리]Weight Decay (0) | 2024.12.22 |
| [용어정리]Synchronized Batch Normalization (0) | 2024.02.12 |
| [용어정리]Temporal difference learning(시간차 학습) (0) | 2022.12.10 |
| [용어정리]Ground-truth (9) | 2020.02.25 |