[논문리뷰] Reinforcement World Model Learning for LLM-based Agents대규모 언어 모델(LLM) 기반 에이전트가 현실 환경에서 행동 결과(action consequences)를 예측하고 환경 역학에 적응하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#LLM-based Agents#World Model Learning#Reinforcement Learning#Self-Supervised#Environment Dynamics#Sim-to-Real Reward#Textual States2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Reinforced Attention Learning본 논문은 기존 RL 기반 LLM 후처리 방식이 MLLM에서 시각적 추론을 위한 '생성할 내용'에만 초점을 맞추어 제한적인 성능 향상을 보이거나 심지어 성능을 저하시키는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Multimodal LLMs#Attention Mechanisms#Policy Gradient#Knowledge Distillation#Visual Grounding#Post-training2026년 2월 5일댓글 수 로딩 중
[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다.#Review#Video Generation#Implicit Reasoning#Benchmark#Evaluation#Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)2026년 2월 5일댓글 수 로딩 중
[논문리뷰] ProAct: Agentic Lookahead in Interactive EnvironmentsProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.#Review#Agentic AI#Large Language Models#Reinforcement Learning#Lookahead Reasoning#Monte-Carlo Tree Search#Supervised Fine-Tuning#Value Estimation#Simulation Drift2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Multi-Task Learning#Reinforcement Learning#Policy Optimization#GRPO#Task Reweighting#Robustness#Reasoning Benchmarks2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 GRPO 및 GSPO 와 같은 주류 알고리즘이 겪는 응답 길이 편향(length bias) 문제를 분석하고 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning with Verifiable Rewards#LLMs#Policy Optimization#Response Length Bias#Sequence-level Clipping#Length-Unbiased Optimization#Multimodal Reasoning2026년 2월 5일댓글 수 로딩 중
[논문리뷰] LatentMem: Customizing Latent Memory for Multi-Agent Systems본 논문은 LLM 기반 멀티 에이전트 시스템(MAS)의 메모리 설계가 겪는 두 가지 근본적인 문제, 즉 (i) 역할 인지적 맞춤화 부재로 인한 메모리 동질화 와 (ii) 과도하게 세분화된 메모리 항목으로 인한 정보 과부하 를 해결하고자 합니다.#Review#Multi-Agent Systems#LLM Memory#Latent Representation#Role-Aware#Token Efficiency#Policy Optimization#Continual Adaptation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions논문은 물리 기반 휴머노이드 로봇이 고수준의 목표만으로도 다양한 객체와 상호작용하는 복잡한 로코-조작(loco-manipulation) 행동을 생성하고 일반화하는 데 있어 기존 방법론의 확장성 및 견고성 한계를 해결하고자 합니다.#Review#Human-Object Interaction#Physics-Based Simulation#Generative Control#Reinforcement Learning#Imitation Learning#Variational Policy#Failure Recovery#Loco-Manipulation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.#Review#Reinforcement Learning#Kernel Generation#Triton#GPU Optimization#LLMs#Reward Hacking#Multi-turn Interaction#Code Generation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long Context이 논문은 현재 자동회귀 비디오 생성 모델들이 짧은 컨텍스트 윈도우와 학생-교사 불일치로 인해 장기적인 일관성(forgetting-drifting dilemma)을 유지하기 어렵다는 문제를 해결하고자 합니다.#Review#Video Generation#Autoregressive Models#Long Context#Temporal Consistency#Diffusion Models#Context Forcing#Memory Management#Distribution Matching Distillation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty기존 LLM 에이전트 벤치마크가 이상적인 설정에서의 태스크 완료에만 초점을 맞추고 실제 환경에서의 신뢰성, 일관성, 한계 인식 을 간과하는 문제를 해결하고자 합니다.#Review#LLM Agents#Benchmarks#Tool-use#Consistency#Uncertainty Handling#Hallucination#In-car Assistant#Policy Adherence2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Breaking the Static Graph: Context-Aware Traversal for Robust Retrieval-Augmented Generation본 논문은 기존 그래프 기반 RAG(Retrieval-Augmented Generation) 모델들이 겪는 'Static Graph Fallacy' 문제를 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Knowledge Graphs#Graph Traversal#Context-Aware Retrieval#Personalized PageRank#Multi-hop Reasoning#Semantic Drift Mitigation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] BABE: Biology Arena BEnchmark이 논문은 LLM이 실제 생물학 연구에서 요구되는 실험 결과와 맥락 지식을 통합하여 의미 있는 결론을 도출 하는 핵심 역량을 평가하지 못하는 기존 벤치마크의 한계를 지적합니다.#Review#Biology Benchmark#Large Language Models#Experimental Reasoning#Causal Inference#Cross-Scale Inference#Multimodal AI#Scientific Reasoning#Research Agents2026년 2월 5일댓글 수 로딩 중
[논문리뷰] WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning본 논문은 LLM의 '깊이 스케일링'이 아닌 '폭 스케일링(width scaling)' 이라는 새로운 차원을 탐구하여 광범위한 정보 탐색 문제 해결을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Width Scaling#Large Language Models#Information Seeking#Task Decomposition#Parallel Execution#Lead-Agent-Subagent Framework#Orchestration2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Vibe AIGC: A New Paradigm for Content Generation via Agentic Orchestration본 논문은 지난 10년간 모델 중심 패러다임이 지배했던 생성형 AI(AIGC) 분야의 한계, 특히 '의도-실행 격차(Intent-Execution Gap)'를 해결하는 것을 목표로 합니다.#Review#Agentic AI#Content Generation#Orchestration#Vibe Coding#Meta-Planner#Human-in-the-Loop#Intent-Execution Gap2026년 2월 4일댓글 수 로딩 중
[논문리뷰] VLS: Steering Pretrained Robot Policies via Vision-Language Models본 논문은 사전 학습된 로봇 정책이 새로운 객체, 장면, 또는 명령 변경과 같은 분포 외(Out-of-Distribution, OOD) 시나리오 에서 실패하는 문제를 해결하고자 합니다.#Review#Robot Learning#Vision-Language Models#Policy Steering#Inference-Time Adaptation#Out-of-Distribution Generalization#Diffusion Models#Generative Policies2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Training Data Efficiency in Multimodal Process Reward Models본 논문은 Multimodal Process Reward Models (MPRMs) 훈련의 데이터 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Process Reward Models (MPRMs)#Data Efficiency#Monte Carlo Annotation#Data Selection#Balanced-Information Score (BIS)#Label Mixture#Label Reliability#Computational Cost Reduction2026년 2월 4일댓글 수 로딩 중
[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.#Review#LLM Agents#Test-Time Improvement#Diagnostic Evaluation#Trajectory Analysis#Performance Metrics#Behavior Adaptation#Memory Management#POMDP2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation본 논문은 로봇의 소프트바디 조작 시 발생하는 복잡한 상호작용 속에서 변형 가능한 객체의 동역학을 정확하고 안정적으로 시뮬레이션하는 근본적인 문제를 해결하고자 합니다.#Review#Neural Simulator#Real-to-Sim (R2S)#Robotic Manipulation#Soft-body Dynamics#Gaussian Splatting#Deformable Objects#Action-conditioned Simulation#Long-horizon Simulation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers본 논문은 LLM을 텍스트 인코더로 사용하는 DiT 기반 텍스트-이미지 모델에서, 정적인 텍스트 컨디셔닝이 LLM의 의미론적 계층 구조와 DiT의 동적인 denoising 과정을 충분히 활용하지 못하는 문제를 해결하고자 합니다.#Review#Diffusion Models#LLM#Text-to-Image#Transformer#Semantic Routing#Feature Fusion#Dynamic Conditioning#Generative AI2026년 2월 4일댓글 수 로딩 중