[논문리뷰] OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-TrainingLLM의 도메인 및 언어 적응을 위해 CPT 를 수행할 때, 데이터의 혼합 비율(Mixture Ratio)은 매우 민감한 하이퍼파라미터입니다. 기존에는 이 비율을 학습 전에 고정해야 하며, 부적절할 경우 수주간의 GPU 연산 자원이 낭비되는 문제가 있었습니다.#Review#Continual Pre-training#Model Merging#Distribution Vector#Bayesian Optimization#LLM Adaptation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.#Review#LLM Adaptation#Reinforcement Learning#Data Curation#Data Pipelines#Data Recipes#Data Verifier#Data-centric AI2026년 2월 11일댓글 수 로딩 중
[논문리뷰] ASA: Training-Free Representation Engineering for Tool-Calling Agents본 논문은 진화하는 인터페이스, 스키마 변화 및 엄격한 파서 조건 하에서 LLM 에이전트의 도구 호출 기능이 취약한 문제를 해결하고자 합니다.#Review#Tool-Calling Agents#LLM Adaptation#Representation Engineering#Activation Steering#Training-Free#Inference-Time Control#Domain Adaptation2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Evaluating Parameter Efficient Methods for RLVR본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 패러다임 하에서 다양한 Parameter-Efficient Fine-Tuning (PEFT) 방법론 을 체계적으로 평가하여 최적의 아키텍처를 식별하는 것을 목표로 합니다.#Review#Parameter-Efficient Fine-Tuning (PEFT)#Reinforcement Learning with Verifiable Rewards (RLVR)#Low-Rank Adaptation (LoRA)#Mathematical Reasoning#LLM Adaptation#SVD Initialization2025년 12월 30일댓글 수 로딩 중
[논문리뷰] From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs본 논문은 순차적인 자동회귀(AR) LLM의 추론 병목 현상을 해결하고자 합니다.#Review#Diffusion Language Models#LLM Adaptation#Block-Diffusion#Autoregressive Models#Attention Masks#Parallel Generation#Transfer Learning#Generative Models2025년 12월 9일댓글 수 로딩 중