#Markov Decision Process

11개의 포스트

[논문리뷰] Small RL Controller, Large Language Model: RL-Guided Adaptive Sampling for Test-Time Scaling

본 논문은 LLM의 추론 성능을 높이기 위한 Test-Time Scaling이 과도한 연산 비용과 지연 시간(Latency)을 초래한다는 문제를 해결하고자 합니다.

#Review #Test-Time Scaling #Adaptive Sampling #Reinforcement Learning #Markov Decision Process #Inference Efficiency #Large Language Models

2026년 6월 2일

[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.

#Review #Unified Policy Optimization #Reinforcement Learning #Reasoning-Driven Generation #Interleaved Generation #Flow Matching #Markov Decision Process #Classifier-Free Guidance #Reward Hacking

2026년 3월 24일

[논문리뷰] Learning Unmasking Policies for Diffusion Language Models

마스킹된 이산 확산 언어 모델(dLLMs)에서 토큰 마스킹 해제(unmasking) 방식이 추론 효율성과 생성 품질에 중요한 영향을 미칩니다.

#Review #Diffusion Language Models #Reinforcement Learning #Masked Diffusion #Sampling Policy #Inference Optimization #Markov Decision Process #Generative AI #Text Generation

2025년 12월 10일

[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.

#Review #LLM Agents #Reinforcement Learning #Markov Decision Process #Tool Use #Multi-turn Interaction #Policy Optimization #Reward Shaping #Agent Framework

2025년 11월 18일

[논문리뷰] DynaAct: Large Language Model Reasoning with Dynamic Action Spaces

본 논문의 핵심 연구 목표는 LLM(Large Language Model) 기반의 순차적 추론 과정에서 확장성과 간결성을 동시에 갖춘 최적의 액션 공간 을 자동으로 구성하는 것입니다.

#Review #Large Language Models #Sequential Reasoning #Action Space Construction #Submodular Optimization #Markov Decision Process #Monte Carlo Tree Search #Utility-Diversity Trade-off

2025년 11월 11일

[논문리뷰] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

이 논문은 기존 딥-리서치 에이전트들이 단일 확장 컨텍스트 창에 정보를 축적하는 mono-contextual paradigm으로 인해 발생하는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Agents #Markov Decision Process #Workspace Reconstruction #Reinforcement Learning #Context Management #Iterative Deep Research #LLM Agents #Efficiency-Aware Policy Optimization

2025년 11월 10일

[논문리뷰] Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

현재 LLM 추론을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론(예: PPO, GRPO)은 일반적인 제어 설정에 맞춰 설계되어 학습 불안정성 및 다양성 붕괴와 같은 문제에 직면합니다.

#Review #Reinforcement Learning #LLM Reasoning #Policy Valuation #Markov Decision Process #Diversity #Math Reasoning #Verifiable Rewards

2025년 9월 30일

[논문리뷰] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents

본 논문은 기존의 심층 연구(deep-research) 에이전트들이 겪는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제로 인한 추론 능력의 한계를 해결하는 것을 목표로 합니다.

#Review #Agentic AI #Deep Research #Iterative Reasoning #Long-Horizon Tasks #Context Management #Data Synthesis #Tool-Augmented LLMs #Markov Decision Process

2025년 9월 17일

[논문리뷰] A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

대규모 언어 모델(LLM)이 고정된 반복 횟수와 사후(post-hoc) 방식에 의존하는 기존 자기 개선(self-refinement) 방법의 한계를 극복하고자 합니다.

#Review #Self-Refinement #Language Models #Reinforcement Learning #Proactive AI #Generation Process #Markov Decision Process #Adaptive Learning #LLM Efficiency

2025년 8월 20일

[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement Learning

본 논문은 기존 RL(강화 학습) 기반 LLM(대규모 언어 모델) 훈련 방법론들이 에이전트 설계와 밀접하게 결합되어 유연성이 부족하고 복잡한 다중 턴 상호작용에 비효율적이라는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #AI Agents #Framework #Markov Decision Process #Hierarchical RL #Training-Agent Disaggregation #Observability

2025년 8월 7일

[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments

본 연구는 기존 MLLM이 정적이고 완전히 관찰 가능한 환경에 국한되어 실제 물리적 환경에서의 정보 불완전성 문제에 취약하다는 한계를 지적합니다.

#Review #Active Visual Reasoning #MLLM #Physical Environments #Partially Observable #Markov Decision Process #Chain-of-Thought #Embodied AI #CLEVR-AVR

2025년 10월 27일