[논문리뷰] Learning POMDP World Models from Observations with Language-Model Priors본 연구는 잠재 상태에 대한 정보(Ground-truth state)가 주어지지 않는 완전한 부분 관측 환경(Strict POMDP setting)에서 에이전트가 어떻게 효과적으로 세계 모델(World Model)을 학습할 수 있는지 탐구합니다.#Review#POMDP#World Model#Large Language Models#Program Induction#Sample Efficiency#Partial Observability#Belief-based Filtering2026년 5월 17일댓글 수 로딩 중
[논문리뷰] TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas기존 Text-to-SQL 파싱 방법론들은 Full Schema Assumption 하에서 Large Language Models (LLMs) 의 발전과 함께 remarkable progress를 이루었습니다.#Review#Text-to-SQL#Unknown Schema#Multi-Turn Reinforcement Learning#Tool Integration#POMDP#Dual-Track GRPO#Schema Grounding#Hallucination2026년 3월 17일댓글 수 로딩 중
[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.#Review#LLM Agents#Test-Time Improvement#Diagnostic Evaluation#Trajectory Analysis#Performance Metrics#Behavior Adaptation#Memory Management#POMDP2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.#Review#LLM Agents#World Models#Adaptive Planning#Lookahead#Reinforcement Learning#POMDP#Task Planning#Reasoning2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Active Intelligence in Video Avatars via Closed-loop World Modeling기존 비디오 아바타 생성 방식이 단순한 애니메이션을 넘어 자율적인 에이전시 를 가지지 못하고 장기 목표를 달성할 수 없는 한계를 해결하는 것이 목표입니다.#Review#Video Avatars#Active Intelligence#World Models#Closed-loop Reasoning#POMDP#Generative AI#Hierarchical Planning#Cognitive Architecture2025년 12월 23일댓글 수 로딩 중