#POMDP

9개의 포스트

[논문리뷰] KnowAct-GUIClaw: Know Deeply, Act Perfectly, Personal GUI Assistant with Self-Evolving Memory and Skill

본 논문은 기존의 OpenClaw 계열 에이전트가 GUI 환경에서의 복잡한 작업 자동화 시 겪는 구조적 한계를 해결하고자 합니다. 기존 방식은 플랫폼 간의 호환성이 부족하고, 지속적인 학습을 통한 성능 향상 메커니즘이 부재하여 다양한 기기 환경에 적응하기 어렵다는 문제점이 있습니다.

#Review #GUI Agents #Personal Assistant #Self-Evolving Memory #Skill Library #Cross-Platform Interaction #POMDP #Task Decomposition

2026년 7월 15일

[논문리뷰] Native Active Perception as Reasoning for Omni-Modal Understanding

본 논문은 기존의 패시브한 Long Video Understanding 모델들이 가진 컴퓨팅 자원 및 성능의 한계를 해결하기 위해 제안되었습니다. 기존 연구들은 비디오 전체를 균일하게 처리하거나 전역적 사전 스캔에 의존함으로써, 비디오 길이에 따라 계산 비용이 선형적으로 증가하는 고질적인 병목 현상을 겪고 있습니다 .

#Review #Omni-modal Understanding #Active Perception #POMDP #Agentic Reasoning #Test-time Scaling #TAURA #Reinforcement Learning

2026년 6월 17일

[논문리뷰] SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks

본 논문은 기존의 정적인 VQA나 시뮬레이터 종속적 벤치마크가 멀티모달 에이전트의 실제 환경에서의 동적 공간 추론 능력을 평가하는 데 한계가 있다는 점을 지적합니다. 대부분의 기존 연구는 privileged state 정보에 의존하거나 특정 환경에 고착화된 인터페이스를 사용하여 일반적인 공간 지능을 측정하기 어렵습니다 .

#Review #Spatial Reasoning #Multimodal Agents #Interactive Benchmark #Egocentric Vision #POMDP #Spatial Intelligence

2026년 6월 8일

[논문리뷰] AURA: Action-Gated Memory for Robot Policies at Constant VRAM

로봇 에이전트가 끊김 없이 지속적으로 동작하는 환경에서 기존의 Transformer KV-cache 방식은 에피소드 길이에 따라 메모리 요구량이 선형적으로 증가하여 에지 하드웨어의 메모리 대역폭을 심각하게 제한합니다.

#Review #Robot Policies #VRAM #Action-Utility Gate #Fast-Weight Memory #Inference Efficiency #POMDP

2026년 6월 2일

[논문리뷰] Learning POMDP World Models from Observations with Language-Model Priors

본 연구는 잠재 상태에 대한 정보(Ground-truth state)가 주어지지 않는 완전한 부분 관측 환경(Strict POMDP setting)에서 에이전트가 어떻게 효과적으로 세계 모델(World Model)을 학습할 수 있는지 탐구합니다.

#Review #POMDP #World Model #Large Language Models #Program Induction #Sample Efficiency #Partial Observability #Belief-based Filtering

2026년 5월 17일

[논문리뷰] TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

기존 Text-to-SQL 파싱 방법론들은 Full Schema Assumption 하에서 Large Language Models (LLMs) 의 발전과 함께 remarkable progress를 이루었습니다.

#Review #Text-to-SQL #Unknown Schema #Multi-Turn Reinforcement Learning #Tool Integration #POMDP #Dual-Track GRPO #Schema Grounding #Hallucination

2026년 3월 17일

[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.

#Review #LLM Agents #Test-Time Improvement #Diagnostic Evaluation #Trajectory Analysis #Performance Metrics #Behavior Adaptation #Memory Management #POMDP

2026년 2월 4일

[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.

#Review #LLM Agents #World Models #Adaptive Planning #Lookahead #Reinforcement Learning #POMDP #Task Planning #Reasoning

2026년 1월 14일

[논문리뷰] Active Intelligence in Video Avatars via Closed-loop World Modeling

기존 비디오 아바타 생성 방식이 단순한 애니메이션을 넘어 자율적인 에이전시 를 가지지 못하고 장기 목표를 달성할 수 없는 한계를 해결하는 것이 목표입니다.

#Review #Video Avatars #Active Intelligence #World Models #Closed-loop Reasoning #POMDP #Generative AI #Hierarchical Planning #Cognitive Architecture

2025년 12월 23일