최신 포스트

[논문리뷰] Sat3DGen: Comprehensive Street-Level 3D Scene Generation from Single Satellite Image

본 논문은 단일 위성 이미지만으로 고품질의 3D 스트리트 뷰 장면을 생성하는 데 따르는 기하학적 정밀도 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Generation #Satellite Imagery #Feed-Forward #NeRF #Geometric Constraint #Street-Level Rendering

2026년 5월 14일

[논문리뷰] STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

본 논문은 LLM 에이전트가 장기 기억을 관리할 때 겪는 가장 치명적인 실패 모드인 Implicit Conflict 문제를 해결하고자 합니다 . 기존 연구들은 주로 정적인 사실 검색에 집중되어 있어, 새로운 관찰이 이전 기억을 암묵적으로 무효화하는 상황에서 에이전트가 기억을 갱신하지 못하는 한계를 가지고 있습니다.

#Review #LLM Agents #Long-term Memory #Implicit Conflict #State Tracking #Belief Revision #Adjudication

2026년 5월 14일

[논문리뷰] SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

본 연구는 산업용 LLM 에이전트 시스템에서 발생하는 계획의 구조적 불일치와 비효율적인 실행 비용 문제를 해결하고자 합니다. 기존 LLM 플래너는 언어적 추론에는 능하지만, 실제 산업 현장에서 요구되는 구조적 유효성을 보장하지 못해 빈번한 실행 실패를 야기합니다.

#Review #LLM Agents #Industrial Asset Operations #DAG #Prefix-based Execution Control #AssetOpsBench #Validator #Simulator-Critic

2026년 5월 14일

[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.

#Review #World Model #Diffusion Transformer #Long-context Modeling #Camera Control #6-DoF Trajectory #Efficiency #Video Generation

2026년 5월 14일

[논문리뷰] RouteProfile: Elucidating the Design Space of LLM Profiles for Routing

본 논문은 LLM 라우팅 시스템에서 핵심적인 역할을 하는 LLM Profile 설계의 모호성을 해결하고 그 디자인 공간을 체계화하는 것을 목적으로 한다. 기존 연구들은 주로 라우터 메커니즘 개선에만 집중하여, 정작 모델의 역량을 규정하는 프로파일 설계가 라우팅 성능에 미치는 영향은 간과해왔다 .

#Review #LLM Routing #LLM Profiling #Heterogeneous Graph #RouteProfile #Design Space #Cold-Start #Model Selection

2026년 5월 14일

[논문리뷰] RewardHarness: Self-Evolving Agentic Post-Training

본 논문은 기존의 Reward Modeling 방식이 대규모 인간 피드백 데이터에 의존하여 비용이 높고, 유연성이 부족하다는 문제점을 해결하고자 합니다.

#Review #Reward Modeling #Agentic AI #Self-Evolution #Multimodal Evaluation #In-Context Learning #Reinforcement Learning

2026년 5월 14일

[논문리뷰] Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning

본 논문은 pre-trained image generator를 3D 제어 가능한 모델로 미세 조정(fine-tuning)할 때 발생하는 photorealism 저하 문제를 해결한다.

#Review #Diffusion Models #3D Generation #Photorealism #Domain Adaptation #Representation Binding #Multiview Synthesis

2026년 5월 14일

[논문리뷰] RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO

본 논문은 기존의 고성능 양방향(Bidirectional) 비디오 확산 모델이 실시간 스트리밍 생성에는 부적합하다는 점을 해결하고자 합니다. 기존의 인과적(Causal) 자동 회귀 모델들은 학습 단계에서 사용하는 히스토리 분포와 실제 추론 시의 분포가 달라 품질이 저하되는 문제가 있습니다.

#Review #Autoregressive Video Generation #Diffusion Models #Consistency Models #Reinforcement Learning #GRPO #Training-Time Test #Video Extrapolation

2026년 5월 14일

[논문리뷰] Quantitative Video World Model Evaluation for Geometric-Consistency

본 연구는 현존하는 생성형 비디오 모델이 시각적으로는 고품질을 구현하지만, 엄격한 물리적 법칙을 따르는 3D 공간 이해도는 낮다는 점을 해결하고자 합니다.

#Review #Video World Models #Geometric Consistency #PDI-Bench #3D Lifting #Perspective Distortion Index #Physical Realism

2026년 5월 14일

[논문리뷰] PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation

본 논문은 현재의 비디오 생성 모델이 높은 시각적 사실성에도 불구하고, 인체의 관절 움직임과 같은 물리적 법칙을 심각하게 위반하는 아티팩트를 빈번하게 생성한다는 문제점에 주목합니다 .

#Review #Human Video Generation #Reinforcement Learning #Motion Reward #Physical Feasibility #3D Human Motion #SMPL #MuJoCo

2026년 5월 14일

[논문리뷰] PanoWorld: Towards Spatial Supersensing in 360^circ Panorama World

기존의 MLLM들은 인간의 시야각과 유사한 perspective-image 패러다임에 의존하여 360° 환경을 파악하는 데 한계를 보입니다.

#Review #Multimodal Large Language Models #Panorama #Equirectangular Projection #Spatial Reasoning #Spatial Supersensing #Instruction Tuning

2026년 5월 14일

[논문리뷰] PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

본 논문은 심각하게 훼손된 텍스트 이미지에서 기존의 Text-SR 방법론들이 보이는 한계점을 지적하며 연구를 시작합니다. 기존 연구들은 강력한 생성적 Prior를 사용하려 시도하지만, 심각하게 열악한 입력 환경에서는 이 Prior가 신뢰할 수 없는 노이즈가 되어 인식 오류를 발생시킵니다.

#Review #Text Image Super-Resolution #Diffusion Model #Flow Matching #Uncertainty-Aware #Prior Rectification #Structure Refinement

2026년 5월 14일

[논문리뷰] PREPING: Building Agent Memory without Tasks

LLM 에이전트는 새로운 환경에 배치될 때 작업별 경험이 부족한 상태에서 발생하는 Cold-Start 문제에 직면합니다. 기존의 메모리 구축 방식은 사전에 수집된 사람의 시연(offline)이나 배포 후 사용자와의 상호작용(online)에 의존하는데, 이는 배포 초기 단계의 실패를 야기하거나 구축 비용을 증가시킵니다 .

#Review #Agent Memory #Procedural Memory #Synthetic Practice #Cold-Start #Agentic Context Engineering #Tool-Use #Pre-task Construction

2026년 5월 14일

[논문리뷰] Overcoming Dynamics-Blindness: Training-Free Pace-and-Path Correction for VLA Models

본 논문은 현대의 VLA 모델들이 Action Chunking 방식을 채택함에 따라 발생하는 Dynamics-Blindness 문제를 해결하는 데 집중한다 . 대부분의 VLA 모델은 고정된 단일 정적 프레임을 기반으로 미래 동작을 예측하기 때문에, 실행 과정에서 발생하는 환경 변화에 대응할 수 없다.

#Review #Vision-Language-Action Models #Action Chunking #Robotic Manipulation #Dynamic Environments #Inference-time Wrapper #Closed-form Optimization

2026년 5월 14일

[논문리뷰] Orchard: An Open-Source Agentic Modeling Framework

본 논문은 에이전트 모델링 연구에서 인프라와 훈련 기법 간의 결합도가 높아 재현성과 확장성에 한계가 있다는 점을 지적합니다. 기존 연구들은 에이전트의 하네스(harness)와 훈련 스택이 환경 관리와 강하게 결합되어 있어, 서로 다른 도메인이나 환경에서의 재사용이 어렵습니다.

#Review #Agentic Modeling #Kubernetes-native #Orchard Env #Balanced Adaptive Rollout #Credit-assignment SFT #SWE-bench #GUI Agents #Tool-calling

2026년 5월 14일

[논문리뷰] Nexus : An Agentic Framework for Time Series Forecasting

본 논문은 기존 TSFM과 LLM 기반 시계열 예측 연구가 가진 구조적 한계를 해결하기 위해 Nexus를 제안한다.

#Review #Time Series Forecasting #Large Language Models #Agentic Framework #Multimodal #Reasoning #Temporal Dynamics #Calibration

2026년 5월 14일

[논문리뷰] MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

본 연구는 LVLM과 Memory-Augmented Agents 간의 기억 능력을 체계적으로 비교할 수 있는 표준화된 벤치마크의 부재를 해결합니다. 기존의 장기 문맥 벤치마크는 주로 텍스트 기반이거나 시각적 정보의 필요성이 낮아 진정한 다중 모달 추론 능력을 검증하지 못한다는 한계가 있습니다.

#Review #Multimodal Memory #Large Vision-Language Models #Long-Context #Benchmark #Retrieval-Augmented Generation #Multi-Session Reasoning

2026년 5월 14일

[논문리뷰] MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory

본 논문은 현대의 멀티모달 에이전트가 장기 기억(Long-term memory)을 관리하는 과정에서 시각적 정보가 왜곡되거나 손실되는 문제를 해결하기 위해 고안되었습니다.

#Review #Multimodal Agent Memory #Long-term Memory #Visual Evidence Granularity #Memory Reasoning Depth #Vision-Language Models #Benchmarking

2026년 5월 14일

[논문리뷰] LiSA: Lifelong Safety Adaptation via Conservative Policy Induction

본 논문은 배포된 AI 에이전트의 안전 가드레일이 고정된 사전 정의(pre-deployment definition)만으로는 변화하는 환경과 개별적인 로컬 맥락의 안전 위험을 효과적으로 제어하지 못하는 문제를 해결합니다.

#Review #Lifelong Safety Adaptation #Guardrails #Conservative Policy Induction #Structured Policy Memory #Confidence-gated Reuse #Conflict-aware Local Refinement #Sparse Feedback

2026년 5월 14일

[논문리뷰] Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding

본 연구는 대규모 다중 에이전트 시스템에서 충돌 없는 경로 탐색을 효율적으로 수행하기 위한 탈중앙화 MAPF 솔루션의 한계를 극복하고자 합니다.

#Review #Multi-Agent Pathfinding #Imitation Learning #Transformer #Decentralized Coordination #Local Communication #Scalability

2026년 5월 14일