[논문리뷰] Efficient Exploration at Scale오늘날 대규모 언어 모델(LLM)은 방대한 데이터를 학습하며 발전했지만, LLM의 능력을 인간의 선호도에 맞춰 정렬하는 데 필요한 고품질의 informative한 데이터를 효율적으로 수집하는 것은 여전히 중요한 과제입니다.#Review#RLHF#Data Efficiency#Active Exploration#Epistemic Neural Network#Information-Directed Sampling#Scaling Laws#Large Language Models#Online Learning2026년 3월 18일댓글 수 로딩 중