#LLM Adaptation

5개의 포스트

[논문리뷰] OptiMer: Optimal Distribution Vector Merging Is Better than Data Mixing for Continual Pre-Training

LLM의 도메인 및 언어 적응을 위해 CPT 를 수행할 때, 데이터의 혼합 비율(Mixture Ratio)은 매우 민감한 하이퍼파라미터입니다. 기존에는 이 비율을 학습 전에 고정해야 하며, 부적절할 경우 수주간의 GPU 연산 자원이 낭비되는 문제가 있었습니다.

#Review #Continual Pre-training #Model Merging #Distribution Vector #Bayesian Optimization #LLM Adaptation

2026년 3월 31일

[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.

#Review #LLM Adaptation #Reinforcement Learning #Data Curation #Data Pipelines #Data Recipes #Data Verifier #Data-centric AI

2026년 2월 11일

[논문리뷰] ASA: Training-Free Representation Engineering for Tool-Calling Agents

본 논문은 진화하는 인터페이스, 스키마 변화 및 엄격한 파서 조건 하에서 LLM 에이전트의 도구 호출 기능이 취약한 문제를 해결하고자 합니다.

#Review #Tool-Calling Agents #LLM Adaptation #Representation Engineering #Activation Steering #Training-Free #Inference-Time Control #Domain Adaptation

2026년 2월 11일

[논문리뷰] Evaluating Parameter Efficient Methods for RLVR

본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 패러다임 하에서 다양한 Parameter-Efficient Fine-Tuning (PEFT) 방법론 을 체계적으로 평가하여 최적의 아키텍처를 식별하는 것을 목표로 합니다.

#Review #Parameter-Efficient Fine-Tuning (PEFT)#Reinforcement Learning with Verifiable Rewards (RLVR)#Low-Rank Adaptation (LoRA)#Mathematical Reasoning #LLM Adaptation #SVD Initialization

2025년 12월 30일

[논문리뷰] From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

본 논문은 순차적인 자동회귀(AR) LLM의 추론 병목 현상을 해결하고자 합니다.

#Review #Diffusion Language Models #LLM Adaptation #Block-Diffusion #Autoregressive Models #Attention Masks #Parallel Generation #Transfer Learning #Generative Models

2025년 12월 9일