AIKU 25-1 DeepIntoDeep 8회 : 딥러닝 입문하기 - Large Language Models

분류

AIKU

세부 분류

DeepIntoDeep

게시일

2025/04/28 15:01

발표일

작성자

작성 완료

Introduction of LLM

LLM : Deep learning model based on the Transformer-decoder architecture

generative 해야 LLM으로 보기 때문에 Bert 같은 경우는 LLM으로 보기 어렵다.

Computation & Scaling Law

Pretrain → finetune

GPT-3 부터 모델 사이즈가 커지면서 finetune 없어도 성능이 올라갔음 (In-context Learning )

zero-shot : 설명만 주어짐

one-shot : 설명 주어지고 예시 1개

few-shot : 설명 주어지고 예시 여러 개 

LLM 성능 좌우하는 요인

1) 학습에 필요한 계산량

2) 데이터셋 크기

파라미터 

Emergent Abilities of LLM

: LLM의 성능은 선형적으로 증가하는 것이 아니라 특정 스케일 기준으로 갑작스럽게 상승

진짜로? 그렇게 보이는 것은 평가 방식 때문이라는 논문도 있다! (Cross Entropy)

고정된 FLOPs 예산 → 모델 크기도 중요하지만 데이터 셋 확장에 더 집중!

모델 크기가 데이터 크기에 비해 너무 크면 과소적합 가능성

데이터의 중요성 커져서 좋은 품질의 데이터를 다량으로 확보하는 것이 중요해졌다.

: 실제 데이터 + LLM 통해 생성한 합성 데이터

Fine-Tuning paradigm

과거의 fine-tuning paradigm은 하나의 downstream task 잘하기 위해 수행

•

최근 fine-tuning

Instruction Tuning : 지시사항 잘 수행

→ 많은 데이터 필요 x 대신 좋은 quality, pre-train 때 많이 학습해야 한다. safety 취약

Alignment Tuning : 인간 선호 답변 생성

Resource Efficient Fine Tuning : 적은 자원

RLHF

→ 인간의 피드백을 reward model로, 강화학습으로 LLM 튜닝

→ Instruction Tuning & Maximize reward

PEFT

→ 대부분 파라미터는 그대로, 일부분 파라미터만 학습 (원하는 Downstream task 맞게 조정)

•

Low-Rank Adaptaion : 학습 가능한 Rank decomposition 행렬 삽입하여 파라미터 업데이트

•

Prompt-tuning : 학습 가능한 프롬프트 벡터를 입력 계층에 추가

Memory-efficient fine-tuning

→ float32 대신 더 낮은 precision data type(ex. int8) 사용

→ 정확도 희생 대신 메모리 절약

Industry vs Academia

•

Academia

→ novelty, performance on benchmarks 중요

•

Industry

→ inference speed, Cost, performance on specific areas 중요

Evaluation of LLM

•

Benchmark

→ 어떤 모델이 좋은 모델인지 보여주는 지표

MMLU : 종합적 이해도 평가

TruthfulQA : 허위정보 인식

MATH : 수학적 추론

만약에 사용자 선호 LLM 답변과 벤치마크 기준이 다르다면?

→ LLM as a judge

•

LLM agent

목적 : 업무 자동화 & 복잡 업무 수행

질문 파악 → 계획 수립 → 도구 활용 → 반복수행