늦깎이 공대생의 인공지능 연구실

[논문프리뷰]word2vec은 정확히 무엇을 학습하는가? 본문

BAIR

[논문프리뷰]word2vec은 정확히 무엇을 학습하는가?

Justin T. 2026. 3. 1. 15:48

word2vec은 정확히 무엇을, 그리고 어떻게 학습할까요? 이 질문에 답하는 것은 규모는 작지만 흥미로운 언어 모델링 작업 내에서 표현 학습(Representation Learning)을 이해하는 것과 같습니다. word2vec이 현대 언어 모델의 잘 알려진 선구자임에도 불구하고, 수년 동안 연구자들에게는 그 학습 과정을 설명할 정량적이고 예측 가능한 이론이 부족했습니다.

이 논문을 통해 마침내 그러한 이론을 제시합니다. 학습 문제가 '가중치 없는 최소 제곱 행렬 분해(unweighted least-squares matrix factorization)'로 귀결되는 현실적이고 실용적인 체계가 존재함을 증명했습니다. 또한 경사 흐름 역학(gradient flow dynamics)을 폐쇄형(closed form)으로 풀어냈으며, 최종적으로 학습된 표현은 단순히 PCA(주성분 분석)에 의해 결정된다는 것을 밝혀냈습니다.
 

word2vec의 학습 역학(Learning Dynamics). 작은 초깃값(small initialization)에서 훈련을 시작할 때, word2vec은 이산적이고 순차적인 단계를 거치며 학습됨. 왼쪽: 가중치 행렬의 계수(rank)가 증가하는 학습 단계를 보여줌. 각 단계가 진행될 때마다 손실(loss)이 단계적으로 감소. 오른쪽: 잠재 임베딩 공간을 세 개의 시점으로 포착한 모습. 임베딩 벡터가 각 학습 단계에서 어떻게 점점 더 높은 차원의 부분 공간(subspace)으로 확장되는지 보여주며, 이 과정은 모델의 용량이 포화될 때까지 계속됨.

 
이 결과에 대해 자세히 설명하기 전에, 먼저 이 문제의 동기를 살펴보겠습니다. word2vec은 단어의 밀집 벡터 표현(dense vector representations)을 학습하는 것으로 잘 알려진 알고리즘입니다. 이러한 임베딩 벡터는 대조 학습(contrastive algorithm)을 통해 훈련되며, 훈련이 끝나면 두 단어 사이의 의미적 관계는 그에 대응하는 임베딩 사이의 각도로 포착됩니다.

실제로 학습된 임베딩은 기하학적으로 놀라운 선형 구조를 보여줍니다. 잠재 공간(latent space)의 선형 부분 공간은 종종 성별, 동사 시제 또는 방언과 같이 해석 가능한 개념을 인코딩합니다.

이른바 '선형 표현 가설(linear representation hypothesis)'은 최근 대규모 언어 모델(LLM)에서도 이러한 특성이 나타나면서 많은 주목을 받고 있습니다. 이는 내부 표현의 의미적 분석을 가능하게 하고, 새로운 모델 제어(steering) 기술을 제공합니다. word2vec에서 학습된 임베딩이 벡터 덧셈을 통해 유추(예: “남자 : 여자 :: 왕 : 여왕”)를 수행할 수 있는 것은 바로 이러한 선형적 방향성 덕분입니다.


어쩌면 이는 그리 놀라운 일이 아닐지도 모릅니다. 결국 word2vec 알고리즘은 단순히 텍스트 코퍼스를 반복하며 자기 지도 경사 하강법(self-supervised gradient descent)을 사용해 자연어의 통계적 규칙성을 모델링하는 2계층 선형 네트워크를 학습시키는 것이기 때문입니다. 이러한 관점에서 볼 때, word2vec최소한의 신경망 언어 모델임이 분명합니다. 따라서 word2vec을 이해하는 것은 더 정교한 언어 모델링 작업에서 특징 학습(feature learning)을 이해하기 위한 필수적인 전제 조건입니다.
 

분석 결과


이러한 동기를 바탕으로 주요 결과를 설명해 보겠습니다. 구체적으로, 모든 임베딩 벡터를 원점에 매우 가깝게 무작위로 초기화하여 사실상 0차원인 상태라고 가정해 봅시다. 그러면 (몇 가지 가벼운 근사를 전제로) 임베딩들은 일련의 이산적인 학습 단계를 거치며 한 번에 하나의 '개념'(즉, 직교 선형 부분 공간)을 집합적으로 학습하게 됩니다.

이는 수학의 새로운 분야를 공부하기 위해 맨땅에 헤딩하는 것과 비슷합니다. 처음에는 모든 전문 용어가 뒤섞여 들립니다. '함수(function)'와 '범함수(functional)'의 차이는 무엇일까요? '선형 연산자(linear operator)'와 '행렬(matrix)'은 또 어떻게 다를까요? 하지만 점차 새로운 설정들을 접하면서 머릿속에서 단어들이 서로 분리되고 그 진정한 의미가 명확해집니다.

그 결과, 새롭게 구현된 각 선형 개념은 임베딩 행렬의 계수(rank)를 사실상 증가시키며, 각 단어 임베딩이 자기 자신과 그 의미를 더 잘 표현할 수 있도록 더 넓은 공간을 제공합니다. 이러한 선형 부분 공간은 한 번 학습되면 회전하지 않기 때문에, 이것이 사실상 모델이 학습한 '특징(feature)'이 됩니다.
 
핵심 요약: 통해 이러한 특징들을 각각 사전에 폐쇄형(closed form)으로 계산할 수 있습니다. 이 특징들은 단순히 측정 가능한 코퍼스 통계와 알고리즘 하이퍼파라미터만으로 정의되는 특정 타겟 행렬의 고유벡터(eigenvectors)일 뿐입니다.
 

특징(Feature)이란 무엇인가?

 
그 대답은 놀라울 정도로 명쾌합니다. 잠재 특징(latent features)은 단순히 다음 행렬의 상위 고유벡터(top eigenvectors)입니다.
 
$$M^{\star}_{ij} = \frac{P(i,j) - P(i)P(j)}{\frac{1}{2}(P(i,j) + P(i)P(j))}$$
 
여기서 변수들의 의미는 다음과 같습니다.

  • \(i, j\): 어휘 사전(vocabulary) 내의 단어 인덱스
  • \(P(i, j)\): 단어 \(i\)와 \(j\)의 공출현 확률(co-occurrence probability)
  • \(P(i)\): 단어 \(i\)의 유니그램 확률(unigram probability) (즉, \(P(i, j)\)의 주변 확률)

위키피디아 통계를 바탕으로 이 행렬을 구성하고 대각화(diagonalizing)해 보면 다음과 같은 사실을 발견할 수 있습니다.

  • 첫 번째 고유벡터: 유명 인사의 전기(biography)와 관련된 단어들을 선택합니다.
  • 두 번째 고유벡터: 정부 및 지방 행정과 관련된 단어들을 선택합니다.
  • 세 번째 고유벡터: 지리 및 지도 제작 기술 관련 용어들과 연관되어 있습니다. (이런 식으로 계속 이어집니다.)

핵심 요약:
학습 과정에서 word2vec은 \(M^*\) 행렬에 대한 일련의 최적 저계수 근사(optimal low-rank approximations)를 찾아냅니다. 이는 결과적으로 \(M^*\) 행렬에 대해 PCA(주성분 분석)를 수행하는 것과 사실상 동일합니다.
아래의 그래프들은 이러한 동작 방식을 시각적으로 보여줍니다.
 
 

학습 역학 비교: 이산적이고 순차적인 학습 단계

 
왼쪽 그래프를 보면, word2vec(저희의 가벼운 근사가 포함된)이 본질적으로 일련의 이산적인 단계를 거치며 학습한다는 중요한 실증적 관찰 결과를 확인할 수 있습니다. 각 단계는 임베딩의 유효 계수(effective rank)를 증가시키며, 그 결과 손실(loss)이 단계적으로 감소합니다. 오른쪽은 잠재 임베딩 공간을 세 개의 시점으로 나타낸 것으로, 각 학습 단계마다 임베딩이 새로운 직교 방향을 따라 어떻게 확장되는지 보여줍니다.

나아가 이러한 특이 방향(singular directions)과 가장 강하게 일치하는 단어들을 조사해 보면, 각각의 이산적인 '지식 조각'이 해석 가능한 주제 단위의 개념(topic-level concept)과 일치함을 알 수 있습니다. 이러한 학습 역학은 폐쇄형(closed form)으로 풀어낼 수 있으며, 이론과 수치 실험 결과가 훌륭하게 일치하는 것을 확인했습니다.

네 가지 '가벼운 근사(Mild Approximations)'란 무엇인가?

이 이론적 결과를 도출하기 위해 사용된 조건들은 다음과 같습니다.

  1. 4차 근사(Quartic approximation): 원점 근처에서 목적 함수를 4차 식으로 근사함.
  2. 하이퍼파라미터 제약: 알고리즘 하이퍼파라미터에 대한 특정 제약 조건.
  3. 작은 초기 가중치: 충분히 작은 초기 임베딩 가중치 설정.
  4. 미세한 경사 하강 단계: 극도로 작은 학습률(gradient descent steps).

다행히 이 조건들은 그리 까다롭지 않으며, 실제로 오리지널 word2vec 논문에서 묘사된 설정과 매우 유사합니다.

 

이론의 강점: 데이터 분포에 의존하지 않음

 
중요한 점은, 이러한 근사 중 그 어떤 것도 데이터의 분포(data distribution)와 관련이 없다는 것입니다! 실제로 이 이론의 큰 강점은 분포에 대한 가정을 하지 않는다는 점에 있습니다. 결과적으로, 이 이론은 코퍼스 통계와 알고리즘 하이퍼파라미터만으로 어떤 특징이 학습될지 정확히 예측합니다. 분포에 구애받지 않는 설정(distribution-agnostic setting)에서 학습 역학을 세밀하게 묘사하는 것은 매우 드물고 얻기 힘든 결과입니다. 저희가 알기로는, 실제 자연어 처리 작업에 대해 이러한 분석이 이루어진 것은 이번이 처음입니다.
저희가 적용한 근사 모델이 실제 word2vec을 얼마나 충실히 설명하는지 확인하기 위해, 표준 유추 완성 벤치마크(analogy completion benchmark)에서 실증적 점수를 비교해 보았습니다.

  • Original word2vec: 68% 정확도
  • 본 연구의 근사 모델: 66% 정확도
  • 고전적 대안(PPMI): 51% 정확도

근사 모델임에도 불구하고 오리지널 모델과 단 2% 차이밖에 나지 않으며, 기존 방식보다 훨씬 뛰어난 성능을 보입니다. 상세한 비교 그래프는 논문에서 확인하실 수 있습니다.


결론 및 응용: 추상적 선형 표현의 등장

이 결과의 유용성을 입증하기 위해, 저희는 추상적인 선형 표현(남성/여성, 과거/미래와 같은 이진 개념에 대응함)이 어떻게 나타나는지 연구하는 데 이 이론을 적용했습니다.
그 결과, word2vec이 학습 과정 전반에 걸쳐 노이즈가 섞인 학습 단계를 거치며 이러한 선형 표현을 구축한다는 것을 발견했습니다. 또한 그 기하학적 구조는 '스파이크 랜덤 행렬 모델(spiked random matrix model)'로 잘 설명됩니다. 학습 초기에는 의미적 신호(semantic signal)가 지배적이지만, 학습 후반부에는 노이즈가 지배하기 시작하여 모델이 선형 표현을 명확히 구분하는 능력이 저하될 수 있습니다.

결론적으로, 이 결과는 규모는 작지만 유의미한 자연어 작업에서 특징 학습(feature learning)에 관한 최초의 완전한 폐쇄형 이론 중 하나를 제공합니다. 이런 의미에서 저희의 연구는 실제 머신러닝 알고리즘의 성능을 설명하는 현실적인 분석 솔루션을 얻으려는 더 큰 프로젝트의 중요한 진전이라고 믿습니다.
 
 참고자료: https://arxiv.org/abs/2502.09863

 

Closed-Form Training Dynamics Reveal Learned Features and Linear Structure in Word2Vec-like Models

Self-supervised word embedding algorithms such as word2vec provide a minimal setting for studying representation learning in language modeling. We examine the quartic Taylor approximation of the word2vec loss around the origin, and we show that both the re

arxiv.org

 

반응형