늦깎이 공대생의 인공지능 연구실

[용어 정리]유니그램 확률(Unigram Probability) 본문

AI용어정리

[용어 정리]유니그램 확률(Unigram Probability)

Justin T. 2026. 2. 1. 00:46

 

 


 인공지능이 우리가 쓰는 말을 어떻게 이해하고 숫자로 계산하는지, 그 가장 기초가 되는 개념인 '유니그램 확률(Unigram Probability)'에 대해 알아보려고 합니다. 이름은 거창하지만, 알고 보면 아주 단순한 원리랍니다.


유니그램(Unigram)이란 무엇인가


유니그램이란 다음과 같은 의미를 가집니다.

Uni (하나의) + Gram (글자/단어)

 

즉, 문장에서 단어를 딱 하나씩만 떼어서 보는 것을 말합니다.

예를 들어 "오늘 날씨가 정말 좋다"라는 문장이 있다면, 유니그램 방식으로는 [오늘], [날씨가], [정말], [좋다] 이렇게 네 개의 조각으로 나누어 생각하는 것이죠.

유니그램 확률: "단어 주머니에서 제비뽑기"


유니그램 확률은 쉽게 말해 "전체 단어들 중에서 특정 단어가 나타날 확률"입니다. 이해를 돕기 위해 큰 주머니 하나를 상상해 보세요.

  1. 우리가 읽은 모든 책과 기사에 나온 단어들을 종이에 적어 주머니에 넣습니다.
  2. 주머니를 마구 흔든 뒤, 눈을 감고 종이 한 장을 뽑습니다.
  3. 이때 '사과'라는 단어가 적힌 종이가 나올 확률이 바로 '사과의 유니그램 확률'입니다.

 

계산 방법



계산 방법은 아주 간단합니다. 전체 단어 개수 중에서 그 단어가 몇 번 나왔는지만 알면 됩니다.
예를 들어, 총 10개의 단어가 들어있는 아주 작은 주머니가 있다고 가정해 봅시다.

* 주머니 내용물: {나, 너, 사과, 사과, 사과, 바나나, 먹다, 먹다, 좋다, 공부}

단어 나타난 횟수 유니그램 확률
사과 3번 3/10 = 30%
먹다 2번 2/10 = 20%
1번 1/10 = 10%

 

이 주머니에서 아무 단어나 뽑았을 때 '사과'가 나올 확률이 가장 높죠? 인공지능은 이를 보고 "이 데이터에서는 '사과'라는 단어가 중요하거나 자주 쓰이는구나!"라고 판단합니다.


유니그램 확률의 한계


유니그램 확률은 매우 간단하지만 큰 단점이 하나 있습니다. 바로 '문맥'을 전혀 모른다는 점이에요.

  • "나는 [ ]를 먹는다"라는 문장에서 빈칸을 채울 때,
  • 유니그램 확률만 따지면 주머니에서 가장 개수가 많은 단어(예: '그는', '매우')를 무작정 추천할 수도 있습니다.
  • '먹는다' 앞에 '사과'가 올 확률이 높은지, '하늘'이 올 확률이 높은지는 고려하지 않죠.

 

그럼에도 불구하고 유니그램 확률은 텍스트 마이닝, 검색 엔진 순위 결정, 그리고 더 복잡한 언어 모델(ChatGPT 같은 것들!)의 가장 밑바닥 기초가 되기 때문에 매우 중요합니다.

요악하자면,

  1. 유니그램은 단어를 하나씩 쪼갠 조각이다.
  2. 유니그램 확률은 전체 단어 중 그 단어가 얼마나 자주 등장하는지 나타내는 수치다.
  3. 주머니에서 제비뽑기를 하는 것과 같은 원리다!

 

반응형