[논문리뷰] Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling본 논문은 LLM의 추론 성능을 높이기 위한 Test-Time Scaling이 과도한 연산 비용과 지연 시간(Latency)을 초래한다는 문제를 해결하고자 합니다.#Review#Test-Time Scaling#Adaptive Sampling#Reinforcement Learning#Markov Decision Process#Inference Efficiency#Large Language Models2026년 6월 2일댓글 수 로딩 중
[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.#Review#Unified Policy Optimization#Reinforcement Learning#Reasoning-Driven Generation#Interleaved Generation#Flow Matching#Markov Decision Process#Classifier-Free Guidance#Reward Hacking2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Learning Unmasking Policies for Diffusion Language Models마스킹된 이산 확산 언어 모델(dLLMs)에서 토큰 마스킹 해제(unmasking) 방식이 추론 효율성과 생성 품질에 중요한 영향을 미칩니다.#Review#Diffusion Language Models#Reinforcement Learning#Masked Diffusion#Sampling Policy#Inference Optimization#Markov Decision Process#Generative AI#Text Generation2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.#Review#LLM Agents#Reinforcement Learning#Markov Decision Process#Tool Use#Multi-turn Interaction#Policy Optimization#Reward Shaping#Agent Framework2025년 11월 18일댓글 수 로딩 중
[논문리뷰] DynaAct: Large Language Model Reasoning with Dynamic Action Spaces본 논문의 핵심 연구 목표는 LLM(Large Language Model) 기반의 순차적 추론 과정에서 확장성과 간결성을 동시에 갖춘 최적의 액션 공간 을 자동으로 구성하는 것입니다.#Review#Large Language Models#Sequential Reasoning#Action Space Construction#Submodular Optimization#Markov Decision Process#Monte Carlo Tree Search#Utility-Diversity Trade-off2025년 11월 11일댓글 수 로딩 중
[논문리뷰] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction이 논문은 기존 딥-리서치 에이전트들이 단일 확장 컨텍스트 창에 정보를 축적하는 mono-contextual paradigm으로 인해 발생하는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제를 해결하는 것을 목표로 합니다.#Review#Long-Horizon Agents#Markov Decision Process#Workspace Reconstruction#Reinforcement Learning#Context Management#Iterative Deep Research#LLM Agents#Efficiency-Aware Policy Optimization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards현재 LLM 추론을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론(예: PPO, GRPO)은 일반적인 제어 설정에 맞춰 설계되어 학습 불안정성 및 다양성 붕괴와 같은 문제에 직면합니다.#Review#Reinforcement Learning#LLM Reasoning#Policy Valuation#Markov Decision Process#Diversity#Math Reasoning#Verifiable Rewards2025년 9월 30일댓글 수 로딩 중
[논문리뷰] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents본 논문은 기존의 심층 연구(deep-research) 에이전트들이 겪는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제로 인한 추론 능력의 한계를 해결하는 것을 목표로 합니다.#Review#Agentic AI#Deep Research#Iterative Reasoning#Long-Horizon Tasks#Context Management#Data Synthesis#Tool-Augmented LLMs#Markov Decision Process2025년 9월 17일댓글 수 로딩 중
[논문리뷰] A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models대규모 언어 모델(LLM)이 고정된 반복 횟수와 사후(post-hoc) 방식에 의존하는 기존 자기 개선(self-refinement) 방법의 한계를 극복하고자 합니다.#Review#Self-Refinement#Language Models#Reinforcement Learning#Proactive AI#Generation Process#Markov Decision Process#Adaptive Learning#LLM Efficiency2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement Learning본 논문은 기존 RL(강화 학습) 기반 LLM(대규모 언어 모델) 훈련 방법론들이 에이전트 설계와 밀접하게 결합되어 유연성이 부족하고 복잡한 다중 턴 상호작용에 비효율적이라는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#AI Agents#Framework#Markov Decision Process#Hierarchical RL#Training-Agent Disaggregation#Observability2025년 8월 7일댓글 수 로딩 중
[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments본 연구는 기존 MLLM이 정적이고 완전히 관찰 가능한 환경에 국한되어 실제 물리적 환경에서의 정보 불완전성 문제에 취약하다는 한계를 지적합니다.#Review#Active Visual Reasoning#MLLM#Physical Environments#Partially Observable#Markov Decision Process#Chain-of-Thought#Embodied AI#CLEVR-AVR2025년 10월 27일댓글 수 로딩 중