최신 포스트

[논문리뷰] Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

본 논문은 LLM의 풍부한 추론 능력과 엄격한 출력 형식 보장 사이의 상충 관계(trade-off)를 해결하고자 합니다. 기존의 Constrained Decoding 방식은 생성 초기부터 문법을 강제하여 모델의 추론 유연성을 제한하고 성능을 떨어뜨리는 문제를 발생시킵니다.

#Review #Large Language Models #Constrained Decoding #Structured Generation #Chain-of-Thought #Parser

2026년 5월 28일

[논문리뷰] SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

본 논문은 비디오 생성 모델이 Sparse한 조건(Text, Start/End Frame)에만 의존함에 따라 발생하는 서사 구조 및 시간적 페이싱(Temporal Pacing) 제어의 한계를 극복하고자 SmartDirector를 제안합니다.

#Review #Video Generation #Keyframe-Conditioned #Narrative Pacing #Flow Matching #Multi-Chunk VAE #Director-Gen #Director-SR

2026년 5월 28일

[논문리뷰] Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

본 논문은 에이전트의 효율적인 기술 습득과 OOD 환경에서의 범용성 확보를 위해 기술의 종류에 따른 차별화된 처리(Differentiated Treatment)가 필요함을 제기한다.

#Review #Agentic Reinforcement Learning #Skill Internalization #Out-of-Distribution Generalization #Difficulty-Aware Routing #Privileged Distillation #Shortcut Learning

2026년 5월 28일

[논문리뷰] RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

본 연구는 비검증(non-verifiable) 도메인에서의 LLM 평가가 가진 주관성과 기존 rubric 기반 평가의 모델 의존성 문제를 해결하고자 합니다.

#Review #Reward Modeling #Rubric-based Evaluation #Reinforcement Learning #Pointwise Reward #LLM Alignment #Preference Optimization

2026년 5월 28일

[논문리뷰] Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

본 논문은 기존의 embodied AI 모델들이 특정 작업이나 로봇 플랫폼에만 고도화되어 있어 발생하는 파편화(fragmentation) 문제를 해결하기 위해 통합 모델을 제안합니다. 현재의 방식은 데이터 활용도가 낮고 일반화 성능이 제한적이라는 한계가 있습니다.

#Review #Embodied Intelligence #Vision-Language-Action Models #Flow-matching #Multi-task Learning #Cross-embodiment #Reinforcement Learning

2026년 5월 28일

[논문리뷰] PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

본 논문은 텍스트 기반의 4D Human-Object Interaction(HOI) 생성 시 발생하는 물리적 불일치와 시각적 부자연스러움을 해결하는 것을 목표로 합니다.

#Review #4D Generation #Human-Object Interaction #Gaussian Splatting #Material Point Method #Diffusion Models

2026년 5월 28일

[논문리뷰] PhoneWorld: Scaling Phone-Use Agent Environments

본 논문은 모바일 에이전트 연구의 병목 현상인 '재현 가능하고 제어 가능한 환경의 부족' 문제를 해결하고자 한다. 기존 벤치마크들은 이미 구축된 환경에서의 평가에만 집중하고 있으며, 새로운 환경을 확장성 있게 구축할 방법은 제시하지 못하고 있다.

#Review #Phone-Use Agent #Environment Synthesis #GUI Trajectories #Autonomous App Construction #Scaling #Multimodal Agent

2026년 5월 28일

[논문리뷰] Parallax: Parameterized Local Linear Attention for Language Modeling

본 논문은 대규모 언어 모델(LLM) 학습에서 Softmax Attention이 가지는 구조적 한계를 극복하고 효율성을 높이는 것을 목표로 한다.

#Review #Local Linear Attention #Language Modeling #Muon Optimizer #Parameterized Attention #Arithmetic Intensity

2026년 5월 28일

[논문리뷰] PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers

본 논문은 급증하는 머신러닝 논문 투고량으로 인해 피어 리뷰 시스템이 한계에 직면했으며, 이를 보완하기 위한 LLM 기반 자동화 리뷰어의 실질적인 역량을 검증해야 한다는 문제의식에서 출발합니다.

#Review #LLM Peer Reviewer #Benchmarking Framework #Scientific Peer Review #Argument Mining #Retrieval-Augmented Verification #Constructiveness

2026년 5월 28일

[논문리뷰] OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

본 연구는 현실 세계의 다양한 정보 요구가 비정형 텍스트, 관계형 데이터베이스, 지식 그래프 등 구조적으로 이질적인 소스들에 분산되어 있음에도 불구하고, 기존 검색 시스템들이 단일 소스 혹은 단일 query language에만 최적화되어 있어 통합적인 검색이 어렵다는 점을 해결하고자 합니다 .

#Review #OmniRetrieval #Heterogeneous Knowledge Sources #Native Query Language #Unified Retrieval #LLM #Knowledge Graph #Text-to-SQL

2026년 5월 28일

[논문리뷰] OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

본 논문은 오디오-비주얼 스트리밍 환경에서 Omnimodal Large Language Models가 실시간으로 상호작용하는 능력을 평가하는 데 있어 기존 벤치마크들의 한계를 해결하고자 합니다.

#Review #Omnimodal LLM #Streaming Interaction #Benchmark #Real-time AI #Full-duplex #Interaction-Aware Scoring

2026년 5월 28일

[논문리뷰] ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

본 논문은 현대의 스마트폰 사기가 단일 앱 내의 메시지 분석만으로는 탐지하기 어려운 다단계, 교차 앱(Cross-app) 형태의 복합적인 과정을 거친다는 문제점에서 출발합니다 .

#Review #Scam Anticipation #Streaming App Usage #Agentic Framework #Self-Evolving Context Manager #On-Policy Self-Distillation #Cross-temporal Reasoning #Long-horizon Benchmark

2026년 5월 28일

[논문리뷰] NeuROK: Generative 4D Neural Object Kinematics

본 논문은 정적 3D 형상으로부터 물리적으로 타당한 4D 동적 궤적을 생성하는 범용적인 프레임워크의 부재 문제를 해결합니다. 기존 연구들은 특정 객체 범주에 최적화된 물리 모델이나 명시적인 물리 파라미터 식별에 의존하여 확장성이 낮고 범용성이 떨어진다는 한계가 있습니다.

#Review #Neural Object Kinematics #4D Generative Simulation #Lagrangian Mechanics #Latent Manifold #Kinematic Parameterization

2026년 5월 28일

[논문리뷰] Native Audio-Visual Alignment for Generation

본 논문은 오디오-비디오 조인트 생성 모델에서 발생하는 동기화 성능 저하와 모달리티 간 정보 결합 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Visual Generation #Native Alignment #MMDiT #Timbre-in-Context Conditioning #Condition-Factorized Guidance

2026년 5월 28일

[논문리뷰] MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation

전통적인 CG (Computer Graphics) 파이프라인에서 동물의 fur와 muscle dynamics를 시뮬레이션하는 작업은 고도의 전문성과 막대한 컴퓨팅 자원을 요구하는 노동 집약적인 과정입니다.

#Review #Video Diffusion #Animal Fur Simulation #Muscle Dynamics #Generative Dynamics Solver #Role-Aware RoPE #Asymmetric Decoupled Attention

2026년 5월 28일

[논문리뷰] LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

본 논문은 최신 VLM들이 텍스트 질문을 그에 대응하는 렌더링된 이미지로 교체했을 때 발생하는 성능 저하 문제, 즉 carrier sensitivity 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Modality Gap #Carrier Sensitivity #Local Modality Substitution #Supervised Fine-Tuning #Cross-modal Alignment

2026년 5월 28일

[논문리뷰] LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

본 논문은 기존의 터미널 에이전트 학습이 외부 리포지토리에 의존하는 방식의 한계로 인해 데이터 다양성, 환경 제어력, 특정 능력 결함 해결에 어려움을 겪는 문제를 해결합니다.

#Review #Language Agents #Terminal Environments #Zero-dependency Synthesis #Supervised Fine-tuning #Direct Multi-turn Preference Optimization #Long-horizon Tasks

2026년 5월 28일

[논문리뷰] Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

본 논문은 자율주행 환경에서 시야가 차단된(partially observable) 환경에서의 인지 불확실성과 이로 인한 주행 전략 수립의 한계를 해결하고자 합니다.

#Review #Autonomous Driving #Partial Observability #Risk Map #Diffusion Model #Occlusion-Aware Prediction #Trajectory Planning

2026년 5월 28일

[논문리뷰] LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

본 논문은 RL post-training 과정에서 발생하는 data contamination이 모델의 평가 신뢰성과 일반화 성능을 저해한다는 문제를 지적한다. 기존의 탐지 방식은 주로 token likelihood나 entropy 등 출력(Output-level) 신호에 의존해왔다.

#Review #Data Contamination #Reinforcement Learning #Membership Inference Attack #Representation Geometry #Representation Dynamics #Model Interpretability

2026년 5월 28일

[논문리뷰] Is Position Bias in Dense Retrievers Built In-or Learned from Data?

본 논문은 Dense Retrievers가 문서 내 정보 위치에 따라 성능이 크게 변하는 Position Bias 문제를 해결하고자 한다. 기존 연구들은 이러한 편향의 원인을 모델의 아키텍처나 사전 학습(pretraining) 방식에서 찾으려 했으나, 이들만으로는 체계적인 편향 방향을 완벽히 설명하지 못한다.

#Review #Dense Retrievers #Position Bias #Fine-tuning #Position-Controlled Data #Retrieval-Augmented Generation #Positional Sensitivity #Data Curation

2026년 5월 28일