최신 포스트

[논문리뷰] WorldKV: Efficient World Memory with World Retrieval and Compression

본 논문은 Autoregressive 비디오 모델에서 실시간성을 유지하면서도 공간적·시간적 일관성을 갖춘 장기 기억(Long-term memory)을 구현하는 문제를 해결하고자 합니다.

#Review #World Models #Autoregressive Video Diffusion #KV Cache Management #World Retrieval #World Compression #Real-time Inference #Long-term Consistency

2026년 5월 21일

[논문리뷰] Unsupervised Process Reward Models

본 논문은 기존 PRM 학습에 필수적인 인간 전문가의 단계별 주석 데이터가 갖는 높은 비용과 확장성 문제를 해결하고자 합니다.

#Review #Unsupervised Learning #Process Reward Models #Reinforcement Learning #Reasoning #Test-time Scaling #LLM-as-a-Judge

2026년 5월 21일

[논문리뷰] TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation

본 논문은 기존의 대중교통 경로 계획 시스템이 복잡한 맵 인프라와 외부 라우팅 엔진에 과도하게 의존하고 있다는 문제점을 해결하고자 한다. 일반적인 LLM은 경로 계획의 기본이 되는 위상 구조를 제대로 이해하지 못해 환각(hallucination)을 일으키거나 연결이 끊긴 경로를 생성하는 한계를 보인다.

#Review #TransitLM #Route Generation #Map-Free #Large Language Model #Continual Pre-Training #Urban Mobility #Benchmark

2026년 5월 21일

[논문리뷰] Training Large Language Models to Predict Clinical Events

본 연구는 임상 데이터 내의 풍부한 시계열적 신호를 활용하여 미래의 환자 상태를 효과적으로 예측하는 데 초점을 맞춘다. 기존의 임상 예측 모델들은 주로 구조화된 데이터나 정형화된 코드에 의존하며, 풍부한 임상적 통찰이 담긴 비정형 임상 노트(free-text notes)를 효과적으로 활용하지 못하는 한계가 있다 .

#Review #Large Language Models #Clinical Prediction #Foresight Learning #EHR #LoRA #Temporal Modeling #Probabilistic Forecasting

2026년 5월 21일

[논문리뷰] TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

본 논문은 기존의 수동으로 큐레이션된 터미널 벤치마크가 실세계의 복잡성과 변화를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 도메인 전문가들이 제작한 인위적인 퍼즐 위주로 구성되어 있어, 실제 개발 환경에서 발생하는 워크플로우와 괴리가 있다는 문제가 있습니다.

#Review #TerminalWorld #Autonomous Agents #Benchmark #CLI #Data Engine #Reverse-Engineering #Docker

2026년 5월 21일

[논문리뷰] Swift Sampling: Selecting Temporal Surprises via Taylor Series

본 논문은 대부분의 비디오 데이터가 시간적으로 높은 중복성(Temporal Redundancy)을 가진다는 점에 착안하여, 제한된 frame budget 내에서 모델의 성능을 극대화할 수 있는 효율적인 프레임 선택 방식을 제안한다.

#Review #Swift Sampling #Taylor Series #Predictive Coding #Video Large Language Models #Keyframe Selection #Temporal Surprise #Computational Efficiency

2026년 5월 21일

[논문리뷰] Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

본 논문은 기존의 프롬프트 기반 스프레드시트 에이전트가 실제 비즈니스 환경의 복잡하고 다단계적인 워크플로우를 처리하는 데 한계가 있다는 문제 의식에서 출발한다.

#Review #Large Language Model Agents #Reinforcement Learning #Spreadsheet Automation #GRPO #Excel Environment #Domain-Spreadsheet Benchmark

2026년 5월 21일

[논문리뷰] SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation

본 연구는 기존 MLLM의 공간 지능 벤치마크가 대부분 깨끗하고 이상적인 환경(Pristine visual inputs)만을 가정하여, 실제 환경에서 발생하는 다양한 시각적 퇴화를 간과하고 있다는 문제를 해결한다.

#Review #Multimodal Large Language Models #Spatial Intelligence #Visual Degradation #3D Gaussian Splatting #Robustness #Benchmarking #Degradation-aware Training

2026년 5월 21일

[논문리뷰] Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

본 논문은 자율주행 시스템(ADS) 검증에 필수적인 long-tail 데이터 확보의 어려움을 해결하기 위해 제안되었다.

#Review #Autonomous Driving #Generative Modeling #Diffusion Model #4D Gaussian Splatting #Cross-Embodiment #Sensor Conversion

2026년 5월 21일

[논문리뷰] Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

본 논문은 기존의 VOT 방식들이 task-specific supervised training에 의존하여 unseen 환경에 대한 일반화 능력이 제한적이라는 점을 지적합니다.

#Review #Visual Object Tracking #Foundation Models #SAM 2 #Nonlinear Motion #Motion Predictor #Error Detection-Recovery

2026년 5월 21일

[논문리뷰] SceneAligner: 3D-Grounded Floorplan Localization in the Wild

본 논문은 대규모 환경 및 상업용 건물의 비정형(in-the-wild) 이미지 컬렉션 내에서 카메라 관측치를 2D floorplan에 로컬라이제이션하는 문제를 다룬다.

#Review #Floorplan Localization #3D Foundation Models #Cross-modal Correspondence #Density Map #LoRA #Computer Vision

2026년 5월 21일

[논문리뷰] Same Architecture, Different Capacity: Optimizer-Induced Spectral Scaling Laws

본 논문은 기존의 스케일링 법칙이 최적화기(optimizer)를 고정된 요소로 간주하여, 모델 내부 표현의 구조적 차이를 간과한다는 점을 문제로 지적합니다. 저자들은 동일한 아키텍처와 컴퓨팅 자원을 사용하더라도 최적화기 선택에 따라 FFN 폭이 실제 유효 용량으로 전환되는 효율이 크게 달라질 수 있음을 밝힙니다 .

#Review #Spectral Scaling Laws #Optimizer Geometry #Effective Rank #FFN Width #Representation Scaling

2026년 5월 21일

[논문리뷰] Q-ARVD: Quantizing Autoregressive Video Diffusion Models

본 논문은 실시간 인터랙티브 비디오 생성을 위한 ARVDs의 추론 비용 문제를 해결하기 위해 모델 양자화(Model Quantization)를 제안합니다.

#Review #Autoregressive Video Diffusion Models #Model Quantization #Frame-wise Sensitivity #Outlier-aware Quantization #Dual-scale Quantization

2026년 5월 21일

[논문리뷰] PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

기존의 3D 생성 연구들은 주로 시각적인 사실성(photorealism)에만 집중하여 물리 기반 시뮬레이션이나 실제 로봇 제어 환경에서 요구되는 물리적 속성을 결여하고 있습니다. 또한, 기존 방법론들은 rigid, deformable, articulated 등 특정 객체 유형에 국한되어 있어 범용적인 활용이 어렵습니다 .

#Review #PhysX-Omni #Simulation-Ready #3D Generation #PhysXVerse #PhysX-Bench #Vision-Language Model

2026년 5월 21일

[논문리뷰] Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?

본 논문은 MLLM이 인적 자원 관리나 정신 건강 진단 등 인간 중심적인 역할에 배치되면서 핵심적으로 요구되는 성격 인식(personality perception) 능력을 진단하고자 합니다.

#Review #Multimodal Large Language Models #Personality Perception #Grounded Personality Reasoning #MM-OCEAN #Prejudice Gap #Holistic-Grounding Rate #Apparent Personality Recognition

2026년 5월 21일

[논문리뷰] One Sentence, One Drama: Personalized Short-Form Drama Generation via Multi-Agent Systems

본 논문은 기존의 디지털 단편 드라마 제작 방식이 가진 narrative pacing의 부재, 클립 간 spatial consistency 부족, 그리고 높은 manual review 의존성이라는 세 가지 핵심 문제를 해결하고자 합니다.

#Review #Short-Form Drama #Multi-Agent System #3D-Grounded Generation #Narrative Pacing #Spatial Consistency #Production-Level Quality Control

2026년 5월 21일

[논문리뷰] OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

본 논문은 Omni-modal Large Language Models(MLLMs)의 발전에도 불구하고, 실제 환경에서의 Proactive 스트리밍 이해 능력을 정밀하게 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .

#Review #Omni-proactive streaming #Video understanding #Benchmark #Multimodal LLMs #Audio-visual perception #Long-horizon evaluation

2026년 5월 21일

[논문리뷰] More Context, Larger Models, or Moral Knowledge? A Systematic Study of Schwartz Value Detection in Political Texts

본 논문은 정치적 텍스트에서 Schwartz values를 감지할 때, 주변 문맥(Context)과 명시적인 도덕 지식이 모델 성능에 미치는 영향을 체계적으로 분석하고자 한다 . 정치적 발화는 가치가 간접적으로 표현되는 경우가 많아 문장 단위의 분류가 매우 어렵다.

#Review #Schwartz Values #Political Text #Retrieval-Augmented Generation (RAG)#DeBERTa #Large Language Models (LLMs)#Context Analysis

2026년 5월 21일

[논문리뷰] Minimalist Visual Inertial Odometry

본 연구는 자원 제약적인 로봇 플랫폼에서 기존 VIO (Visual-Inertial Odometry) 시스템의 높은 전력 소모 및 계산 요구사항이 가지는 한계점을 해결하고자 합니다.

#Review #Visual-Inertial Odometry #Minimalist Vision #Planar Odometry #Gabor Masks #Photodiode #Temporal Convolutional Network #Motion Estimation

2026년 5월 21일

[논문리뷰] Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

본 논문은 현대 LLM 에이전트가 특정 도메인에 강점을 가진 다양한 전문가 모델과 모듈식 스킬을 효과적으로 활용하지 못하는 Coordination Bottleneck 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Multimodal Agent #Orchestration #Skill Library #Expert Models #Hierarchical Registry

2026년 5월 21일