[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.#Review#World Model#Diffusion Transformer#Long-context Modeling#Camera Control#6-DoF Trajectory#Efficiency#Video Generation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] RouteProfile: Elucidating the Design Space of LLM Profiles for Routing본 논문은 LLM 라우팅 시스템에서 핵심적인 역할을 하는 LLM Profile 설계의 모호성을 해결하고 그 디자인 공간을 체계화하는 것을 목적으로 한다. 기존 연구들은 주로 라우터 메커니즘 개선에만 집중하여, 정작 모델의 역량을 규정하는 프로파일 설계가 라우팅 성능에 미치는 영향은 간과해왔다 .#Review#LLM Routing#LLM Profiling#Heterogeneous Graph#RouteProfile#Design Space#Cold-Start#Model Selection2026년 5월 14일댓글 수 로딩 중
[논문리뷰] RewardHarness: Self-Evolving Agentic Post-Training본 논문은 기존의 Reward Modeling 방식이 대규모 인간 피드백 데이터에 의존하여 비용이 높고, 유연성이 부족하다는 문제점을 해결하고자 합니다.#Review#Reward Modeling#Agentic AI#Self-Evolution#Multimodal Evaluation#In-Context Learning#Reinforcement Learning2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning본 논문은 pre-trained image generator를 3D 제어 가능한 모델로 미세 조정(fine-tuning)할 때 발생하는 photorealism 저하 문제를 해결한다.#Review#Diffusion Models#3D Generation#Photorealism#Domain Adaptation#Representation Binding#Multiview Synthesis2026년 5월 14일댓글 수 로딩 중
[논문리뷰] RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO본 논문은 기존의 고성능 양방향(Bidirectional) 비디오 확산 모델이 실시간 스트리밍 생성에는 부적합하다는 점을 해결하고자 합니다. 기존의 인과적(Causal) 자동 회귀 모델들은 학습 단계에서 사용하는 히스토리 분포와 실제 추론 시의 분포가 달라 품질이 저하되는 문제가 있습니다.#Review#Autoregressive Video Generation#Diffusion Models#Consistency Models#Reinforcement Learning#GRPO#Training-Time Test#Video Extrapolation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Quantitative Video World Model Evaluation for Geometric-Consistency본 연구는 현존하는 생성형 비디오 모델이 시각적으로는 고품질을 구현하지만, 엄격한 물리적 법칙을 따르는 3D 공간 이해도는 낮다는 점을 해결하고자 합니다.#Review#Video World Models#Geometric Consistency#PDI-Bench#3D Lifting#Perspective Distortion Index#Physical Realism2026년 5월 14일댓글 수 로딩 중
[논문리뷰] PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation본 논문은 현재의 비디오 생성 모델이 높은 시각적 사실성에도 불구하고, 인체의 관절 움직임과 같은 물리적 법칙을 심각하게 위반하는 아티팩트를 빈번하게 생성한다는 문제점에 주목합니다 .#Review#Human Video Generation#Reinforcement Learning#Motion Reward#Physical Feasibility#3D Human Motion#SMPL#MuJoCo2026년 5월 14일댓글 수 로딩 중
[논문리뷰] PanoWorld: Towards Spatial Supersensing in 360^circ Panorama World기존의 MLLM들은 인간의 시야각과 유사한 perspective-image 패러다임에 의존하여 360° 환경을 파악하는 데 한계를 보입니다.#Review#Multimodal Large Language Models#Panorama#Equirectangular Projection#Spatial Reasoning#Spatial Supersensing#Instruction Tuning2026년 5월 14일댓글 수 로딩 중
[논문리뷰] PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution본 논문은 심각하게 훼손된 텍스트 이미지에서 기존의 Text-SR 방법론들이 보이는 한계점을 지적하며 연구를 시작합니다. 기존 연구들은 강력한 생성적 Prior를 사용하려 시도하지만, 심각하게 열악한 입력 환경에서는 이 Prior가 신뢰할 수 없는 노이즈가 되어 인식 오류를 발생시킵니다.#Review#Text Image Super-Resolution#Diffusion Model#Flow Matching#Uncertainty-Aware#Prior Rectification#Structure Refinement2026년 5월 14일댓글 수 로딩 중
[논문리뷰] PREPING: Building Agent Memory without TasksLLM 에이전트는 새로운 환경에 배치될 때 작업별 경험이 부족한 상태에서 발생하는 Cold-Start 문제에 직면합니다. 기존의 메모리 구축 방식은 사전에 수집된 사람의 시연(offline)이나 배포 후 사용자와의 상호작용(online)에 의존하는데, 이는 배포 초기 단계의 실패를 야기하거나 구축 비용을 증가시킵니다 .#Review#Agent Memory#Procedural Memory#Synthetic Practice#Cold-Start#Agentic Context Engineering#Tool-Use#Pre-task Construction2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models본 논문은 현대의 VLA 모델들이 Action Chunking 방식을 채택함에 따라 발생하는 Dynamics-Blindness 문제를 해결하는 데 집중한다 . 대부분의 VLA 모델은 고정된 단일 정적 프레임을 기반으로 미래 동작을 예측하기 때문에, 실행 과정에서 발생하는 환경 변화에 대응할 수 없다.#Review#Vision-Language-Action Models#Action Chunking#Robotic Manipulation#Dynamic Environments#Inference-time Wrapper#Closed-form Optimization2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Orchard: An Open-Source Agentic Modeling Framework본 논문은 에이전트 모델링 연구에서 인프라와 훈련 기법 간의 결합도가 높아 재현성과 확장성에 한계가 있다는 점을 지적합니다. 기존 연구들은 에이전트의 하네스(harness)와 훈련 스택이 환경 관리와 강하게 결합되어 있어, 서로 다른 도메인이나 환경에서의 재사용이 어렵습니다.#Review#Agentic Modeling#Kubernetes-native#Orchard Env#Balanced Adaptive Rollout#Credit-assignment SFT#SWE-bench#GUI Agents#Tool-calling2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Nexus : An Agentic Framework for Time Series Forecasting본 논문은 기존 TSFM과 LLM 기반 시계열 예측 연구가 가진 구조적 한계를 해결하기 위해 Nexus를 제안한다.#Review#Time Series Forecasting#Large Language Models#Agentic Framework#Multimodal#Reasoning#Temporal Dynamics#Calibration2026년 5월 14일댓글 수 로딩 중
[논문리뷰] MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models본 연구는 LVLM과 Memory-Augmented Agents 간의 기억 능력을 체계적으로 비교할 수 있는 표준화된 벤치마크의 부재를 해결합니다. 기존의 장기 문맥 벤치마크는 주로 텍스트 기반이거나 시각적 정보의 필요성이 낮아 진정한 다중 모달 추론 능력을 검증하지 못한다는 한계가 있습니다.#Review#Multimodal Memory#Large Vision-Language Models#Long-Context#Benchmark#Retrieval-Augmented Generation#Multi-Session Reasoning2026년 5월 14일댓글 수 로딩 중
[논문리뷰] MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory본 논문은 현대의 멀티모달 에이전트가 장기 기억(Long-term memory)을 관리하는 과정에서 시각적 정보가 왜곡되거나 손실되는 문제를 해결하기 위해 고안되었습니다.#Review#Multimodal Agent Memory#Long-term Memory#Visual Evidence Granularity#Memory Reasoning Depth#Vision-Language Models#Benchmarking2026년 5월 14일댓글 수 로딩 중
[논문리뷰] LiSA: Lifelong Safety Adaptation via Conservative Policy Induction본 논문은 배포된 AI 에이전트의 안전 가드레일이 고정된 사전 정의(pre-deployment definition)만으로는 변화하는 환경과 개별적인 로컬 맥락의 안전 위험을 효과적으로 제어하지 못하는 문제를 해결합니다.#Review#Lifelong Safety Adaptation#Guardrails#Conservative Policy Induction#Structured Policy Memory#Confidence-gated Reuse#Conflict-aware Local Refinement#Sparse Feedback2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding본 연구는 대규모 다중 에이전트 시스템에서 충돌 없는 경로 탐색을 효율적으로 수행하기 위한 탈중앙화 MAPF 솔루션의 한계를 극복하고자 합니다.#Review#Multi-Agent Pathfinding#Imitation Learning#Transformer#Decentralized Coordination#Local Communication#Scalability2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis본 논문은 언어 모델의 자기 개선(Self-improvement)이 단순히 정적인 데이터셋을 모방하는 것을 넘어, 모델이 자신을 학습시킬 새로운 환경을 스스로 구축해야 한다는 관점에서 출발합니다.#Review#Reinforcement Learning#Reasoning RL#Verifiable Environment Synthesis#Self-Improving LLM#Stable Solve–Verify Asymmetry2026년 5월 14일댓글 수 로딩 중
[논문리뷰] LLM-based Detection of Manipulative Political Narratives본 연구는 소셜 미디어상에서 폭증하는 정치적 조작 서사를 실시간으로 식별하고 구조화하는 계산적 프레임워크의 부재 문제를 해결하고자 합니다.#Review#FIMI#Strategic Narrative#LLM#HDBSCAN#UMAP#Computational Social Science#Manipulation Detection2026년 5월 14일댓글 수 로딩 중
[논문리뷰] IntentVLA: Short-Horizon Intent Modeling for Aliased Robot Manipulation본 논문은 프레임 단위로만 조건을 부여하는 기존 VLA 모델들이 부분 관측성(Partial Observability) 하에서 발생하는 짧은 기간의 의도 모호성 문제를 해결하지 못한다는 점을 지적합니다.#Review#Vision-Language-Action (VLA)#Robot Manipulation#AliasBench#Short-Horizon Intent#Imitation Learning#Inter-chunk Consistency#Partial Observability2026년 5월 14일댓글 수 로딩 중