[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.#Review#Reinforcement Learning#Large Language Models#Proximal Policy Optimization#Early Stopping#Reasoning#Compute Efficiency#Credit Assignment2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency본 논문은 현대의 Large Language Models 학습이 직면한 불안정성(Instability)과 이로 인한 컴퓨팅 자원 낭비 문제를 시스템 차원의 제어 문제로 정의합니다.#Review#Large Language Models#Training Control Governance#LBW-Guard#AdamW#Training Stability#Bounded Autonomous Control#Compute Efficiency2026년 5월 20일댓글 수 로딩 중
[논문리뷰] HRM-Text: Efficient Pretraining Beyond Scaling본 논문은 대규모 컴퓨팅 자원과 인터넷 규모의 raw text에 의존하는 기존의 Large Language Model(LLM) pretraining 패러다임이 가진 극심한 비효율성을 해결하고자 합니다.#Review#Hierarchical Recurrent Model#Efficient Pretraining#MagicNorm#Task-completion Objective#PrefixLM#Compute Efficiency2026년 5월 20일댓글 수 로딩 중
[논문리뷰] An Information Theoretic Perspective on Agentic System Design논문은 에이전트형 언어 모델(LM) 시스템, 특히 컴프레서-프레딕터(compressor-predictor) 아키텍처 의 설계에 대한 체계적인 이해 부족을 해결하고자 합니다.#Review#Agentic Systems#Language Models#Mutual Information#Rate-Distortion Theory#Compute Efficiency#Scaling Laws#Compressor-Predictor Architecture#On-device AI2025년 12월 29일댓글 수 로딩 중
[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.#Review#Test-Time Scaling#LLMs#Reasoning#Compute Efficiency#Inference Optimization#Decoding Strategies#Model Behavior2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Jailbreaking in the Haystack본 연구는 장문(long-context) 언어 모델(LMs)의 확장된 컨텍스트 창이 가지는 안전성 함의를 분석하고, 심지어 양성(benign) 컨텍스트 내에서도 안전 기능이 어떻게 저하되는지 탐구하는 것을 목표로 합니다.#Review#Jailbreaking#LLM Safety#Long-Context Models#Positional Bias#Attack Success Rate (ASR)#Prompt Engineering#Compute Efficiency#AI Agents2025년 11월 9일댓글 수 로딩 중
[논문리뷰] The Art of Scaling Reinforcement Learning Compute for LLMs본 연구는 LLM 훈련에 필수적인 RL(강화 학습)의 확장(Scaling) 특성에 대한 예측 방법론이 부족하다는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLMs#Scaling Laws#Compute Efficiency#Predictability#Sigmoidal Curves#ScaleRL#Off-Policy RL2025년 10월 16일댓글 수 로딩 중