#Actor-Critic

6개의 포스트

[논문리뷰] TEMPO: Scaling Test-time Training for Large Reasoning Models

본 논문은 기존 <strong>Large Reasoning Models (LRMs)</strong>의 테스트 시점 학습(Test-time Training, TTT)이 겪는 성능 정체 및 다양성 붕괴 문제를 해결하고자 합니다.

#Review #Test-time Training #Large Reasoning Models #Expectation-Maximization #Actor-Critic #Reinforcement Learning #Scalability #Diversity

2026년 4월 21일

[논문리뷰] CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare

최근 Multimodal Agentic Pipelines이 Human-Computer Interaction을 변화시키고 있지만, 대부분 Short-Horizon 또는 General-Purpose Application에 초점을 맞추고 있으며, 특히 Healthcare 분야에서 Long-Horizon Automation은 크게 탐구되지 않은 상태이다.

#Review #Multi-Agent Framework #Healthcare Automation #Long-Horizon Tasks #Actor-Critic #Tool Grounding #Dual-Memory #CareFlow #GUI Agents

2026년 3월 25일

[논문리뷰] FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

본 논문은 Diffusion Models 및 Flow Matching 과 같은 반복적인 생성 정책(iterative generative policies)을 Maximum Entropy Reinforcement Learning (Max-Ent RL) 과 결합할 때 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Maximum Entropy RL #Kinetic Energy Regularization #Schrödinger Bridge #Generative Policies #Flow Matching #Actor-Critic

2026년 2월 15일

[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

본 논문은 LLM이 수학 및 프로그래밍과 같은 추론 태스크에서 직면하는 희소한 보상 신호 와 불안정한 정책 경사 업데이트 라는 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임의 주요 과제를 해결하는 것을 목표로 합니다.

#Review #RLVR #Large Language Models #Actor-Critic #Supervised Learning #Mathematical Reasoning #Policy Optimization #Cross-Entropy Loss

2025년 9월 3일

[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language Models #Synthetic Worlds #Transfer Learning #PPO #Actor-Critic #Embodied AI

2025년 8월 7일

[논문리뷰] Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning

본 논문은 복잡한 추론 태스크에서 LLM의 출력을 평가하고 피드백을 제공하는 비판(critiquing) 모델을 훈련하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Language Models #Critiquing #Two-Stage Optimization #Actor-Critic #Scalable Oversight #Discriminability #Helpfulness

2025년 10월 29일