Search

AIKU 25-1 DeepIntoDeep 8회 : 딥러닝 입문하기 - Large Language Models

분류
AIKU
세부 분류
DeepIntoDeep
게시일
2025/04/28 15:01
발표일
작성자
작성 완료
작성 완료

Introduction of LLM

LLM : Deep learning model based on the Transformer-decoder architecture
generative 해야 LLM으로 보기 때문에 Bert 같은 경우는 LLM으로 보기 어렵다.

Computation & Scaling Law

Pretrain → finetune
GPT-3 부터 모델 사이즈가 커지면서 finetune 없어도 성능이 올라갔음 (In-context Learning )
1.
zero-shot : 설명만 주어짐
2.
one-shot : 설명 주어지고 예시 1개
3.
few-shot : 설명 주어지고 예시 여러 개
LLM 성능 좌우하는 요인
1) 학습에 필요한 계산량
2) 데이터셋 크기
3.
파라미터
Emergent Abilities of LLM
: LLM의 성능은 선형적으로 증가하는 것이 아니라 특정 스케일 기준으로 갑작스럽게 상승
진짜로? 그렇게 보이는 것은 평가 방식 때문이라는 논문도 있다! (Cross Entropy)
고정된 FLOPs 예산 → 모델 크기도 중요하지만 데이터 셋 확장에 더 집중!
모델 크기가 데이터 크기에 비해 너무 크면 과소적합 가능성
데이터의 중요성 커져서 좋은 품질의 데이터를 다량으로 확보하는 것이 중요해졌다.
: 실제 데이터 + LLM 통해 생성한 합성 데이터

Fine-Tuning paradigm

과거의 fine-tuning paradigm은 하나의 downstream task 잘하기 위해 수행
최근 fine-tuning
Instruction Tuning : 지시사항 잘 수행
→ 많은 데이터 필요 x 대신 좋은 quality, pre-train 때 많이 학습해야 한다. safety 취약
Alignment Tuning : 인간 선호 답변 생성
Resource Efficient Fine Tuning : 적은 자원
RLHF
→ 인간의 피드백을 reward model로, 강화학습으로 LLM 튜닝
→ Instruction Tuning & Maximize reward
PEFT
→ 대부분 파라미터는 그대로, 일부분 파라미터만 학습 (원하는 Downstream task 맞게 조정)
Low-Rank Adaptaion : 학습 가능한 Rank decomposition 행렬 삽입하여 파라미터 업데이트
Prompt-tuning : 학습 가능한 프롬프트 벡터를 입력 계층에 추가
Memory-efficient fine-tuning
→ float32 대신 더 낮은 precision data type(ex. int8) 사용
→ 정확도 희생 대신 메모리 절약
Industry vs Academia
Academia
→ novelty, performance on benchmarks 중요
Industry
→ inference speed, Cost, performance on specific areas 중요

Evaluation of LLM

Benchmark
→ 어떤 모델이 좋은 모델인지 보여주는 지표
1.
MMLU : 종합적 이해도 평가
2.
TruthfulQA : 허위정보 인식
3.
MATH : 수학적 추론
만약에 사용자 선호 LLM 답변과 벤치마크 기준이 다르다면?
→ LLM as a judge
LLM agent
목적 : 업무 자동화 & 복잡 업무 수행
질문 파악 → 계획 수립 → 도구 활용 → 반복수행