Search

AIKU 25-1 DeepIntoDeep 4회 : 딥러닝 입문하기 - Word Vectors & Language Modeling & Recurrent Neural Networks

분류
AIKU
세부 분류
DeepIntoDeep
게시일
2025/02/13 03:16
발표일
작성자
작성 완료

4강: Word Vectors & Language Modeling & Recurrent Neural Networks

1. Word Embedding

기본 개념
컴퓨터가 자연어를 이해하기 위해 단어를 수치로 표현.
기존 방식: One-hot Encoding
단점: 고차원, 메모리 낭비, 벡터 문제로 단어 간 유사도 표현 부족.
Distributional Semantics
단어의 의미는 주변 단어들로부터 정의됨 (J.R. Firth).
단어를 밀집된 벡터로 변환하는 Word Embedding 방식 등장.
Word2Vec
단어 벡터 표현들을 가져오기 위한 자연어 처리 기술
더욱 큰 단어들 뭉치 내에서 특정 단어의 등장 확률을 학습해 word vector를 더욱 정교하게 만들어줌
중심 단어(C)와 주변 단어(O)의 관계를 학습하여 단어 벡터 생성.
문제점: 서로 의미가 다른 단어인데, 주변 맥락이 유사하면 가깝게 임베딩됨.
GloVe
Window based co-occurrence matrix
동시 발생여부를 matrix로 표현해 단어 간 관계 학습.
문제점: 대규모 코퍼스에서는 계산 부담!
Word Embedding
단어의 의미를 반영해 vector space에 embed된다.

2. Language Modeling

Statistic Language Model (통계적 언어 모델)
조건부 확률로 주어진 단어 다음에 올 단어 예측.
문제점: 데이터 희소성 문제(Sparsity).
N-gram 모델
이전 N-1개의 단어들로, N번째의 단어 예측 (Unigram, Bigram 등).
문제점: Sparsity problem, Storage proplem
Neural Language Model
장점: Sparsity problem, Storage problem 해결.
단점: 고정된 input 크기 문제.

3. Recurrent Neural Networks (RNN)

개념
순환 구조를 통해 시퀀스 데이터를 다룸.
이전 상태(hidden state)를 다음 단계로 전달.
특징
가변 길이 입력 지원.
시계열 정보와 문맥 반영 가능.
단점: 느린 계산 속도, Long-term Dependency 문제, Vanishing/Exploding Gradient 문제.
Gradient 문제 해결
Exploding Gradient: Gradient Clipping 사용.
Vanishing Gradient: LSTM, GRU로 개선.

4. LSTM & GRU

LSTM (Long Short-Term Memory)
3개의 Gate로 구성: Input, Forget, Output.
이전 정보를 저장하는 Cell State 추가로 장기 의존성 문제 해결.
GRU (Gated Recurrent Unit)
LSTM의 간소화 버전.
Reset Gate와 Update Gate만으로 구성.

5. RNN 활용

텍스트 데이터 외에도 음성 인식, 감정 분석, 질의응답 등 다양한 시퀀스 데이터 처리 가능.