Review

[논문리뷰] Geo-Align: Video Generation Alignment via Metric Geometry Reward

본 연구는 기존 비디오 생성 모델이 텍스트 프롬프트와의 의미적 정렬(Semantic Alignment)을 유지하는 데 있어 발생하는 낮은 일관성 문제를 해결하고자 합니다.

#Review #Video Generation #Alignment #Metric Geometry #Reward Model #Reinforcement Learning #Diffusion Models

2026년 5월 24일

[논문리뷰] GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

본 연구는 고전적인 Multi-view Reconstruction 기법이 복잡한 조명 환경이나 희소한 시점(Sparse view) 조건에서 구조적 붕괴를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Reconstruction #Generative Priors #Multi-View Stereo #Diffusion Models #Neural Rendering #Latent Space

2026년 5월 24일

[논문리뷰] From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

본 연구는 기존 VLM이 Perception과 Reasoning 기능을 동시에 학습함으로써 발생하는 성능 저하와 최적화 불균형 문제를 해결하기 위해 시작되었습니다.

#Review #Vision-Language Models #Post-Training #Perception #Reasoning #Decoupling #Multimodal Learning

2026년 5월 24일

[논문리뷰] From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

본 논문은 에이전트가 방대한 원시 경험 데이터로부터 효과적으로 기술을 습득하지 못하는 비효율성 문제를 해결하기 위해 Skill Consumption 프레임워크를 제안한다. 기존 방식은 데이터의 노이즈와 구조적 미흡함으로 인해 기술 추출의 정밀도가 낮다는 한계가 있다.

#Review #Agent Skills #Skill Consumption #Model-Generated Skills #Autoregressive #Skill Acquisition

2026년 5월 24일

[논문리뷰] ETCHR: Editing To Clarify and Harness Reasoning

ETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.

#Review #Chain-of-Thought #Reasoning #Model Editing #Inference Optimization #LLM #Knowledge Distillation #Interpretability

2026년 5월 24일

[논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

본 논문은 Personal Assistant Agent가 장기적인 프로젝트나 업무 환경에서 능동적으로 의도(Hidden Intents)를 파악하고 대응하지 못하는 한계를 해결하고자 한다.

#Review #Proactive Personal Assistant Agents #Long-Horizon Workflows #Hidden Intents #Benchmark #Task Completion #Agentic Workflow

2026년 5월 21일

[논문리뷰] WorldKV: Efficient World Memory with World Retrieval and Compression

본 논문은 Autoregressive 비디오 모델에서 실시간성을 유지하면서도 공간적·시간적 일관성을 갖춘 장기 기억(Long-term memory)을 구현하는 문제를 해결하고자 합니다.

#Review #World Models #Autoregressive Video Diffusion #KV Cache Management #World Retrieval #World Compression #Real-time Inference #Long-term Consistency

2026년 5월 21일

[논문리뷰] Unsupervised Process Reward Models

본 논문은 기존 PRM 학습에 필수적인 인간 전문가의 단계별 주석 데이터가 갖는 높은 비용과 확장성 문제를 해결하고자 합니다.

#Review #Unsupervised Learning #Process Reward Models #Reinforcement Learning #Reasoning #Test-time Scaling #LLM-as-a-Judge

2026년 5월 21일

[논문리뷰] TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation

본 논문은 기존의 대중교통 경로 계획 시스템이 복잡한 맵 인프라와 외부 라우팅 엔진에 과도하게 의존하고 있다는 문제점을 해결하고자 한다. 일반적인 LLM은 경로 계획의 기본이 되는 위상 구조를 제대로 이해하지 못해 환각(hallucination)을 일으키거나 연결이 끊긴 경로를 생성하는 한계를 보인다.

#Review #TransitLM #Route Generation #Map-Free #Large Language Model #Continual Pre-Training #Urban Mobility #Benchmark

2026년 5월 21일

[논문리뷰] Training Large Language Models to Predict Clinical Events

본 연구는 임상 데이터 내의 풍부한 시계열적 신호를 활용하여 미래의 환자 상태를 효과적으로 예측하는 데 초점을 맞춘다. 기존의 임상 예측 모델들은 주로 구조화된 데이터나 정형화된 코드에 의존하며, 풍부한 임상적 통찰이 담긴 비정형 임상 노트(free-text notes)를 효과적으로 활용하지 못하는 한계가 있다 .

#Review #Large Language Models #Clinical Prediction #Foresight Learning #EHR #LoRA #Temporal Modeling #Probabilistic Forecasting

2026년 5월 21일

[논문리뷰] TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

본 논문은 기존의 수동으로 큐레이션된 터미널 벤치마크가 실세계의 복잡성과 변화를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 도메인 전문가들이 제작한 인위적인 퍼즐 위주로 구성되어 있어, 실제 개발 환경에서 발생하는 워크플로우와 괴리가 있다는 문제가 있습니다.

#Review #TerminalWorld #Autonomous Agents #Benchmark #CLI #Data Engine #Reverse-Engineering #Docker

2026년 5월 21일

[논문리뷰] Swift Sampling: Selecting Temporal Surprises via Taylor Series

본 논문은 대부분의 비디오 데이터가 시간적으로 높은 중복성(Temporal Redundancy)을 가진다는 점에 착안하여, 제한된 frame budget 내에서 모델의 성능을 극대화할 수 있는 효율적인 프레임 선택 방식을 제안한다.

#Review #Swift Sampling #Taylor Series #Predictive Coding #Video Large Language Models #Keyframe Selection #Temporal Surprise #Computational Efficiency

2026년 5월 21일

[논문리뷰] Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

본 논문은 기존의 프롬프트 기반 스프레드시트 에이전트가 실제 비즈니스 환경의 복잡하고 다단계적인 워크플로우를 처리하는 데 한계가 있다는 문제 의식에서 출발한다.

#Review #Large Language Model Agents #Reinforcement Learning #Spreadsheet Automation #GRPO #Excel Environment #Domain-Spreadsheet Benchmark

2026년 5월 21일

[논문리뷰] SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation

본 연구는 기존 MLLM의 공간 지능 벤치마크가 대부분 깨끗하고 이상적인 환경(Pristine visual inputs)만을 가정하여, 실제 환경에서 발생하는 다양한 시각적 퇴화를 간과하고 있다는 문제를 해결한다.

#Review #Multimodal Large Language Models #Spatial Intelligence #Visual Degradation #3D Gaussian Splatting #Robustness #Benchmarking #Degradation-aware Training

2026년 5월 21일

[논문리뷰] Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

본 논문은 자율주행 시스템(ADS) 검증에 필수적인 long-tail 데이터 확보의 어려움을 해결하기 위해 제안되었다.

#Review #Autonomous Driving #Generative Modeling #Diffusion Model #4D Gaussian Splatting #Cross-Embodiment #Sensor Conversion

2026년 5월 21일

[논문리뷰] Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

본 논문은 기존의 VOT 방식들이 task-specific supervised training에 의존하여 unseen 환경에 대한 일반화 능력이 제한적이라는 점을 지적합니다.

#Review #Visual Object Tracking #Foundation Models #SAM 2 #Nonlinear Motion #Motion Predictor #Error Detection-Recovery

2026년 5월 21일

[논문리뷰] SceneAligner: 3D-Grounded Floorplan Localization in the Wild

본 논문은 대규모 환경 및 상업용 건물의 비정형(in-the-wild) 이미지 컬렉션 내에서 카메라 관측치를 2D floorplan에 로컬라이제이션하는 문제를 다룬다.

#Review #Floorplan Localization #3D Foundation Models #Cross-modal Correspondence #Density Map #LoRA #Computer Vision

2026년 5월 21일

[논문리뷰] Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws

본 논문은 기존의 스케일링 법칙이 최적화기(optimizer)를 고정된 요소로 간주하여, 모델 내부 표현의 구조적 차이를 간과한다는 점을 문제로 지적합니다. 저자들은 동일한 아키텍처와 컴퓨팅 자원을 사용하더라도 최적화기 선택에 따라 FFN 폭이 실제 유효 용량으로 전환되는 효율이 크게 달라질 수 있음을 밝힙니다 .

#Review #Spectral Scaling Laws #Optimizer Geometry #Effective Rank #FFN Width #Representation Scaling

2026년 5월 21일

[논문리뷰] Q-ARVD: Quantizing Autoregressive Video Diffusion Models

본 논문은 실시간 인터랙티브 비디오 생성을 위한 ARVDs의 추론 비용 문제를 해결하기 위해 모델 양자화(Model Quantization)를 제안합니다.

#Review #Autoregressive Video Diffusion Models #Model Quantization #Frame-wise Sensitivity #Outlier-aware Quantization #Dual-scale Quantization

2026년 5월 21일

[논문리뷰] PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

기존의 3D 생성 연구들은 주로 시각적인 사실성(photorealism)에만 집중하여 물리 기반 시뮬레이션이나 실제 로봇 제어 환경에서 요구되는 물리적 속성을 결여하고 있습니다. 또한, 기존 방법론들은 rigid, deformable, articulated 등 특정 객체 유형에 국한되어 있어 범용적인 활용이 어렵습니다 .

#Review #PhysX-Omni #Simulation-Ready #3D Generation #PhysXVerse #PhysX-Bench #Vision-Language Model

2026년 5월 21일