튼튼발자 개발 성장기🏋️

언어 모델 (Language Model) 본문

AI/LLM 서비스 개발

언어 모델 (Language Model)

시뻘건 튼튼발자 2026. 3. 17. 19:38
반응형
언어 모델의 이해: 역사부터 거대 언어 모델까지

언어 모델의 이해

역사부터 거대 언어 모델(LLM)까지의 완벽 가이드

최근 ChatGPT의 등장으로 Large Language Model(LLM, 거대 언어 모델)이 대중에게 큰 충격을 주었다. 이 글에서는 언어 모델의 기본 개념부터 시작하여 트랜스포머, BERT, GPT 등의 핵심 모델들을 살펴 보자.

1. 언어 모델의 역사

언어 모델이란?

언어 모델(Language Model)은 가장 자연스러운 다음 단어(Token)를 예측하는 모델이다. 정의상 딥러닝일 필요는 없으며, 현재는 딥러닝으로 구현할 뿐이다.

통계적 언어 모델

통계를 이용하여 다음 단어를 예측하는 초기 모델로, 딥러닝을 사용하지 않았다.

RNN 언어 모델 (2017년까지)

RNN(Recurrent Neural Network)이라는 인공 신경망으로 다음 단어를 예측했다. 2010년대 구글 번역기가 이를 통해 구현되었다.

트랜스포머 (2017년)

구글이 제안한 딥러닝 모델로, RNN보다 뛰어난 성능으로 자연어 처리를 지배하기 시작했다. 인코더와 디코더라는 구조를 갖고 있다.

BERT vs GPT vs T5

트랜스포머에 방대한 데이터를 학습하여 다양한 변형들이 등장했다. 인코더만 추출한 BERT, 디코더만 추출한 GPT, 인코더-디코더 구조를 유지한 T5가 대표적이다.

LLM의 시대 (2022년~)

디코더로만 구성된 GPT의 크기가 커지자 굉장히 뛰어난 성능을 보여주었다. 특히 OpenAI의 ChatGPT(2022)로 인해 거대 언어 모델 열풍이 시작되었다.

2. 트랜스포머(Transformer)

트랜스포머의 등장

2017년 구글(Google)이 AI 번역기를 만들기 위해 트랜스포머라는 모델을 제안했다. 번역하고자 하는 문장을 입력하면 번역 문장이 출력되는 구조이다.

트랜스포머 아키텍처의 핵심

  • 인코더-디코더 구조: 번역할 문장이 인코더로 입력되고, 번역된 문장이 디코더로 출력된다.
  • 멀티 레이어: 인코더와 디코더 층(Layer)이 N개 존재하며, 초기 제안 당시 각 6개의 층으로 구성되었다.
  • 셀프 어텐션(Self-Attention): 트랜스포머의 뛰어난 언어 성능의 비결이다.

인코더와 디코더의 특화

구성 요소 특화 분야 설명
인코더 자연어 이해 (NLU) 입력 텍스트의 의미를 이해하고 표현
디코더 자연어 생성 (NLG) 새로운 텍스트를 생성

셀프 어텐션(Self-Attention)의 원리

셀프 어텐션은 주어진 입력에서 각 단어와 모든 단어와의 연관 관계를 파악하는 메커니즘이다.

예시: "그 동물은 길을 건너지 않았다. 왜냐하면 그것은 너무 피곤하였기 때문이다."

여기서 '그것(it)'이 '길(street)'을 가리키는지, '동물(animal)'을 가리키는지 문맥을 통해 파악할 수 있다.

3. 트랜스포머에서 파생된 모델들

초기 트랜스포머는 인코더-디코더로 구성되었으나, 이후 세 가지 분류로 나뉘게 되었다:

인코더 Only: BERT

트랜스포머의 인코더만 추출하여 만든 모델로, 자연어 이해(NLU)에 특화되어 있다.

디코더 Only: GPT

트랜스포머의 디코더만 추출하여 만든 모델로, 자연어 생성(NLG)에 특화되어 있다.

인코더-디코더: BART, T5

기존 트랜스포머 아키텍처를 그대로 유지한 모델들이다.

4. 구글의 BERT

BERT란?

BERT(Bidirectional Encoder Representations from Transformers)는 구글이 2018년에 공개한 모델로, 트랜스포머의 인코더만을 사용한다.

BERT의 특징

  1. 기존 트랜스포머 구조에서 인코더만 분리
  2. 층을 쌓고 방대한 데이터를 특유의 방식으로 학습 (12층과 24층 버전)
  3. 학습 방식: Masked Language Model
  4. 양방향 문맥을 모두 고려하여 뛰어난 언어 이해 능력 보유

BERT의 사전 학습 방법

1) Masked Language Model (MLM)

입력 문장의 특정 단어를 [MASK] 토큰으로 가리고, BERT가 원래 단어를 맞추도록 학습한다. 이 과정에서 BERT는 양쪽 문맥을 모두 참고하여 문제를 풀 수 있으며, 이를 통해 언어 능력이 향상된다.

  • 15%의 토큰을 선택하여 그중 80%는 [MASK]로 변경
  • 10%는 랜덤한 다른 단어로 변경
  • 10%는 원래 단어 유지

2) Next Sentence Prediction (NSP)

두 개의 문장을 주고 이어지는 문장인지 맞추는 문제를 푼다. 50:50 비율로 실제 이어지는 문장과 랜덤으로 이어붙인 문장을 주고 학습한다.

주의: BERT는 자연어 이해에는 뛰어나지만, 다음 단어를 예측하는 '언어 모델'이 아니기 때문에 글쓰기와 같은 '생성' 문제를 푸는 것에 적합하지 않다.

BERT로 풀 수 있는 문제들

1. 텍스트 분류 (Classification)

문서가 주어지면 주어진 카테고리로 분류하는 문제이다. 예: Technology, Sports, Entertainment 등으로 분류

2. 개체명 인식 (Entity Recognition)

문서에서 특정 항목(사람 이름, 장소 등)에 해당하는 키워드를 추출한다.

예: "홍길동은 주말이면 투썸 플레이스에서 일을 하고는 한다." → 홍길동(사람), 투썸 플레이스(장소)

3. 임베딩 (Embedding)

텍스트의 의미를 수치화하여 벡터로 변환한다. RAG(Retrieval-Augmented Generation)에서 많이 사용된다.

예: '선생님'과 '교사'는 벡터 변환 후 유사도가 높게 나온다.

5. OpenAI의 GPT

GPT는 언어 모델

GPT(Generative Pre-trained Transformer)는 트랜스포머의 디코더를 기반으로 만들어진 모델로, 이전 단어들로부터 다음 단어를 예측하는 언어 모델이다.

BERT vs GPT 비교

특징 BERT GPT
기반 구조 인코더 디코더
학습 방식 양방향 문맥 (빈칸 채우기) 이전 단어로 다음 단어 예측
생성 능력 제한적 (언어 모델 아님) 가능 (언어 모델)
적합한 작업 분류, 추출, 이해 생성, 요약, 번역, 챗봇

GPT의 발전

  • GPT-1, GPT-2, GPT-3: 아키텍처 면에서는 큰 차이가 없으며, 차이는 학습한 데이터의 양과 모델의 크기
  • GPT-4: 추정 파라미터는 5천억에서 1조 8천억으로 추정됨
  • ChatGPT (2022): GPT-3.5, GPT-4 기반의 웹 서비스로 거대 언어 모델 열풍의 시작

GPT가 풀 수 있는 문제

BERT와 달리 생성이 가능한 GPT는 풀 수 있는 문제의 범위가 훨씬 넓다. 텍스트 요약, 번역, 챗봇 답변 등 글로 쓸 수 있다면 거의 모든 자연어 처리 문제를 풀 수 있다.

6. BART와 T5

인코더-디코더 구조 모델

인코더의 이해 능력과 디코더의 생성 능력을 모두 살리고자, 기존 트랜스포머 아키텍처를 유지한 모델들이 개발되었다.

BART (Bidirectional Auto-Regressive Transformer)

  • 트랜스포머 인코더-디코더를 모두 사용하여 사전 학습
  • 입력 문장에 노이즈 추가(Masking) 후 인코더로부터 정보를 받아 디코더에서 원래 문장 복원
  • 인코더-디코더 구조는 입출력 길이가 달라도 되어 마스킹이 유연하게 가능

T5 (Text-To-Text Transfer Transformer)

  • BART와 함께 인코더-디코더 구조에서 가장 유명한 모델
  • LLM(디코더 Only)이 지금처럼 뛰어나기 이전에 생성 문제에서 가장 많이 사용
  • 1B(10억 파라미터 이하) 모델에서는 여전히 좋은 선택
  • 간단한 요약, 키워드 추출, 번역 등에서 작은 크기임에도 강력한 성능

실제 T5 활용 사례

공장에서 고장 내용 기록으로부터 '고장 제품', '불량유형', '조치내용'을 추출하는 작업을 자동화하는 데 사용되었다. 소형 한국어 T5를 파인튜닝하여 저사양 PC에서도 구동 가능한 서비스로 구현되었다.

현재의 LLM은 왜 디코더 Only인가?

트랜스포머 계열은 모델의 크기가 커지면 성능이 좋아진다는 특징이 있다. 그러나 크게 만들려면:

  1. 계산이 효율적일 것
  2. 텍스트 생성이 가능할 것

인코더-디코더 모델은 인코더와 디코더의 연결 부분인 크로스 어텐션(Cross Attention)에서 병목이 발생하여 학습이 느리다. 따라서 현재의 거대 언어 모델은 대부분 디코더 Only 모델이다.

7. 인코더와 디코더의 문제 풀이 방식

분류(Classification)

  • 인코더: 전체 문맥을 한 번에 보고 판단 (양방향)
  • 디코더: 순차적으로 토큰을 생성하며 판단

엔티티 인식(Entity Recognition)

  • 인코더: 각 토큰의 문맥을 동시에 고려하여 라벨링
  • 디코더: 순차적으로 엔티티를 생성

모델별 장단점

구조 장점 단점
인코더 Only (BERT) 양방향 문맥 이해, 분류/추출에 강함 생성 불가능
디코더 Only (GPT) 생성 가능, 확장성 우수 단방향 문맥 (미래 토큰 미고려)
인코더-디코더 (T5) 이해와 생성 모두 가능 대규모 확장 시 비효율적

8. 거대 언어 모델(LLM)

토크나이저(Tokenzier)

언어 모델은 내부적으로 텍스트를 특정 단위로 분할하여 처리한다. 이를 토큰화(Tokenization)라 하며, 분할된 단위를 토큰(Token)이라 한다.

토큰화 특징

파라미터 수의 이해

딥러닝 언어 모델의 파라미터 개수를 표현할 때 10억 개부터는 B(Billion)라는 표현을 사용한다.

  • GPT-3: 1,750억개 = 175B
  • LLaMA-3: 700억개 = 70B

파라미터 수가 클수록 더 좋은 성능을 가지는 경향이 있지만, 그만큼 더 많은 GPU를 필요로 한다.

허깅페이스(Hugging Face)

허깅페이스는 인공지능 스타트업으로 데이터셋, 공개된 모델들, 그리고 관련 라이브러리를 제공하는 플랫폼이다. 거대 언어 모델들을 다운로드하고 학습할 수 있다.

한국어 LLM 리더보드

Open Korean LLM Leaderboard에서 다양한 한국어 LLM의 성능을 비교할 수 있다. 다만 일부 모델은 리더보드 점수만 높고 실제 성능이 좋지 않은 모델 오염(contamination)이 있을 수 있으니 참고만 하자.

반응형

'AI > LLM 서비스 개발' 카테고리의 다른 글

프롬프트 엔지니어링  (0) 2026.03.23
에이전틱 AI 디자인 패턴  (0) 2026.03.10