[논문리뷰] TEMPO: Scaling Test-time Training for Large Reasoning Models본 논문은 기존 <strong>Large Reasoning Models (LRMs)</strong>의 테스트 시점 학습(Test-time Training, TTT)이 겪는 성능 정체 및 다양성 붕괴 문제를 해결하고자 합니다.#Review#Test-time Training#Large Reasoning Models#Expectation-Maximization#Actor-Critic#Reinforcement Learning#Scalability#Diversity2026년 4월 21일댓글 수 로딩 중
[논문리뷰] CarePilot: A Multi-Agent Framework for Long-Horizon Computer Task Automation in Healthcare최근 Multimodal Agentic Pipelines이 Human-Computer Interaction을 변화시키고 있지만, 대부분 Short-Horizon 또는 General-Purpose Application에 초점을 맞추고 있으며, 특히 Healthcare 분야에서 Long-Horizon Automation은 크게 탐구되지 않은 상태이다.#Review#Multi-Agent Framework#Healthcare Automation#Long-Horizon Tasks#Actor-Critic#Tool Grounding#Dual-Memory#CareFlow#GUI Agents2026년 3월 25일댓글 수 로딩 중
[논문리뷰] FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching본 논문은 Diffusion Models 및 Flow Matching 과 같은 반복적인 생성 정책(iterative generative policies)을 Maximum Entropy Reinforcement Learning (Max-Ent RL) 과 결합할 때 발생하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Maximum Entropy RL#Kinetic Energy Regularization#Schrödinger Bridge#Generative Policies#Flow Matching#Actor-Critic2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR본 논문은 LLM이 수학 및 프로그래밍과 같은 추론 태스크에서 직면하는 희소한 보상 신호 와 불안정한 정책 경사 업데이트 라는 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 패러다임의 주요 과제를 해결하는 것을 목표로 합니다.#Review#RLVR#Large Language Models#Actor-Critic#Supervised Learning#Mathematical Reasoning#Policy Optimization#Cross-Entropy Loss2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language Models#Synthetic Worlds#Transfer Learning#PPO#Actor-Critic#Embodied AI2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning본 논문은 복잡한 추론 태스크에서 LLM의 출력을 평가하고 피드백을 제공하는 비판(critiquing) 모델을 훈련하는 것을 목표로 합니다.#Review#Reinforcement Learning#Language Models#Critiquing#Two-Stage Optimization#Actor-Critic#Scalable Oversight#Discriminability#Helpfulness2025년 10월 29일댓글 수 로딩 중