AI/ML
RLHF: 인간 피드백으로 LLM 정렬하기
RLHF(Reinforcement Learning from Human Feedback) 완전 가이드: 보상 모델 학습, PPO 알고리즘으로 LLM 파인튜닝, DPO(Direct Preference Optimization) 비교, trlX/TRL 라이브러리 활용, 선호도 데이터 수집 파이프라인을 다룹니다.
RLHFLLM 정렬PPODPO파인튜닝
주제별로 묶어 둔 AI·데이터·인프라 블로그 글입니다. 가이드·비교·실험 노트를 함께 열람할 수 있습니다.
AI/ML · 1건