[논문리뷰] Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders본 논문은 LLM post-training에서 데이터 엔지니어링이 모델 성능 향상의 핵심임에도 불구하고, 기존 방식들은 주로 외부 피드백(인간 선호도, 보상 모델, rollout 결과 등)에 의존하여 비용이 높고 효율성이 제한적이라는 문제에서 출발한다.#Review#Sparse Autoencoder#LLM Post-training#Reinforcement Learning#Data Engineering#Mechanistic Interpretability#Curriculum Learning#Data Selection2026년 5월 27일댓글 수 로딩 중
[논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models본 논문은 LLaMA-Factory의 모델 관리 및 최적화 기능을 보존하면서, 데이터 최적화 전략을 모듈형으로 통합한 DataFlex를 제안합니다. DataFlex는 7개의 데이터 선택, 2개의 데이터 혼합, 1개의 재가중치 알고리즘을 통합하여 단일 인터페이스 하에서 연구 및 실행할 수 있도록 설계되었습니다 .#Review#Data-Centric AI#Large Language Models#Dynamic Training#Data Selection#Data Mixture#Data Reweighting#LLaMA-Factory2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Efficient RLVR Training via Weighted Mutual Information Data Selection본 논문은 대규모 언어 모델(LLMs)의 강화 학습(RL) 훈련 과정에서 발생하는 데이터 선택의 비효율성 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Data Selection#Mutual Information#Epistemic Uncertainty#LLMs#RLVR#Training Efficiency2026년 3월 2일댓글 수 로딩 중
[논문리뷰] A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)대규모 언어 모델(LLMs)의 표적 명령어 선택(targeted instruction selection) 연구 분야가 파편화되어 있고 명확한 지침이 부족하다는 문제점을 해결하고자 합니다.#Review#Instruction Tuning#Data Selection#Large Language Models (LLMs)#Gradient-based Representations#Optimal Transport#Generalization Bounds#Data Representation2026년 2월 16일댓글 수 로딩 중
[논문리뷰] OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration대규모 언어 모델(LLM) 사전 훈련에서 고품질 데이터의 고갈 문제인 '데이터 장벽(Data Wall)'에 직면함에 따라, 기존의 비효율적이거나 최적화기 비인지적인 데이터 선택 방법의 한계를 해결하고자 합니다.#Review#Data Selection#Large Language Model#Pre-training#Optimizer-Induced Utility#Ghost Technique#CountSketch#Boltzmann Sampling2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Training Data Efficiency in Multimodal Process Reward Models본 논문은 Multimodal Process Reward Models (MPRMs) 훈련의 데이터 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Process Reward Models (MPRMs)#Data Efficiency#Monte Carlo Annotation#Data Selection#Balanced-Information Score (BIS)#Label Mixture#Label Reliability#Computational Cost Reduction2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data SelectionText-to-Image(T2I) 생성 모델(예: Imagen, Stable Diffusion, FLUX)의 훈련 효율성을 개선하고 시각적 품질 저하, 불안정한 훈련 및 비효율적인 연산을 야기하는 저품질/과잉 데이터 문제를 해결하는 것입니다.#Review#Text-to-Image#Data Selection#Meta-Learning#Meta-Gradient#Data Efficiency#Generative Models#Coreset Selection#Data Pruning2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Data-Efficient RLVR via Off-Policy Influence Guidance본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 Verifiable Rewards를 사용한 강화 학습(RLVR) 에서 데이터 선택의 비효율성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions#Data Selection#Off-Policy Learning#Curriculum Learning#Large Language Models (LLMs)#Sparse Random Projection#Data Efficiency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?본 논문은 대규모 추론 모델(LRMs)에서 안전 정렬(safety alignment) 이 실패하는 근본적인 메커니즘을 기계론적 해석 가능성(mechanistic interpretability) 관점에서 조사하는 것을 목표로 합니다.#Review#Safety Alignment#Large Reasoning Models#Mechanistic Interpretability#Refusal Cliff#Attention Heads#Data Selection#Linear Probing2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection대규모 언어 모델(LLMs) 사전 훈련 시, 기존의 점수 기반 데이터 선택 방식이 다양성 부족으로 인해 성능 저하를 초래하는 문제를 해결하고자 합니다.#Review#Data Selection#Large Language Models (LLMs)#Data Diversity#Data Quality#Principal Component Analysis (PCA)#Orthogonal Dimensions#Pre-training2025년 10월 23일댓글 수 로딩 중