최신 포스트

[논문리뷰] 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

본 논문은 현대 3D 생성 분야에서 Procedural Code 생성을 통한 모델링의 중요성이 커지고 있으나, 이를 객관적으로 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .

#Review #3D Modeling #Procedural Generation #Vision-Language Models #Agentic Workflow #Benchmark #Human-Preference #Blender

2026년 6월 1일

[논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

본 논문은 MLLM의 fine-grained perception을 향상하기 위해 도입된 Visually Grounded CoT가 오히려 추론 단계에서 성능 저하를 일으킬 수 있다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Visually Grounded Reasoning #Chain-of-Thought #Dual-Stream Training #Test-Time Scaling

2026년 5월 31일

[논문리뷰] dMoE: dLLMs with Learnable Block Experts

본 논문은 MoE 기반 dLLM에서 블록 병렬 디코딩(block parallel decoding) 시 발생하는 과도한 전문가 활성화 문제를 해결하여 inference 효율성을 높이는 것을 목적으로 합니다.

#Review #dLLM #Mixture-of-Experts #Parallel Decoding #Block-level Routing #Expert Compression #Memory-bound

2026년 5월 31일

[논문리뷰] When Confidence Misleads: Suffix Anchoring and Anchor-Proximity Confidence Modulation for Diffusion Language Models

본 논문은 Fully Non-AR DLM decoding 과정에서 나타나는 고질적인 생성 실패 문제를 해결하고자 한다. 기존의 확신도 기반 디코딩은 EOT(End-of-Text) 토큰에 과도하게 높은 확신도를 부여하여 응답이 불완전하게 생성되는 문제를 안고 있다 .

#Review #Diffusion Language Models #Fully Non-Autoregressive Decoding #Suffix Anchoring #Confidence Modulation #Inference Optimization

2026년 5월 31일

[논문리뷰] VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies

본 논문은 기존 VLA 모델들이 겪는 '정확도와 효율성'의 상충 관계를 해결하고자 한다.

#Review #Vision-Language-Action (VLA) Policies #Visual Intermediate Reasoning #Low-Latency Inference #Task-Adaptive Routing #Embodied Control

2026년 5월 31일

[논문리뷰] VLM3: Vision Language Models Are Native 3D Learners

본 논문은 표준 VLM이 복잡한 전용 설계 없이도 3D 이해를 수행할 수 있음을 증명하기 위해 수행되었다.

#Review #Vision Language Models #3D Understanding #Metric Depth Estimation #Pixel Correspondence #Camera Pose Estimation #Focal Length Unification #Scalable Training

2026년 5월 31일

[논문리뷰] Trust-Region Behavior Blending for On-Policy Distillation

본 논문은 OPD 초기 단계에서 발생하는 학습 불안정성과 낮은 품질의 데이터 생성 문제를 해결하고자 합니다. 기존 OPD는 학생 모델이 학습 초기에 낮은 품질의 trajectory를 생성하면, 교사 모델의 지도(supervision)가 비효율적인 영역에 집중되는 한계가 있습니다 .

#Review #On-policy Distillation #Trust Region #Knowledge Distillation #Language Model Alignment #Annealed Warmup #Behavior Policy

2026년 5월 31일

[논문리뷰] Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

본 논문은 실시간 인터랙티브 환경에서 몰입형 경험을 제공하기 위한 고품질 공간 오디오 생성 모델의 지연 시간과 정확도 문제를 해결하고자 합니다.

#Review #Spatial Audio Generation #Autoregressive Diffusion Transformer #Multimodal Learning #Streaming Generation #First-Order Ambisonics #Contrastive Learning #Direct Preference Optimization

2026년 5월 31일

[논문리뷰] The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction

본 논문은 Markov boundary가 이론적으로는 tabular prediction에 가장 효율적인 feature 집합임에도 불구하고, 실제 ML 파이프라인에서 왜 기대만큼의 성과를 내지 못하는지 그 이유를 규명한다.

#Review #Markov boundary #Markov-blanket discovery #Tabular prediction #Feature selection #Causal discovery #Structural causal models

2026년 5월 31일

[논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

본 논문은 현대의 RLHF 파이프라인에서 발생하는 정적 RM 학습 데이터의 한계와 정책 드리프트(distribution shift) 문제를 해결하고자 한다.

#Review #RLHF #Reward Model #Self-Supervised Learning #On-Policy Feedback #Value-Anchored #Minimax Optimization #Policy Alignment

2026년 5월 31일

[논문리뷰] Task-Focused Memorization for Multimodal Agents

본 논문은 멀티모달 에이전트가 방대한 스트리밍 데이터 속에서 '무엇을 메모리화할 것인가'를 스스로 판단해야 하는 문제를 해결하고자 한다.

#Review #Multimodal Agents #Long-term Memory #Reinforcement Learning #Task-Focused Memorization #Direct Preference Optimization #Streaming VQA

2026년 5월 31일

[논문리뷰] SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

본 논문은 기존의 긴 형식(Long-form) 다이얼로그 합성이 화자 전환, 정서적 연속성, 그리고 음향적 일관성 유지를 유지하는 데 한계가 있다는 문제를 해결하고자 한다. 기존의 워크아웃 방식인 개별 턴 단위 합성 및 병합은 전체적인 대화 맥락을 파악하지 못해 부자연스러운 전환과 환경 불일치를 초래한다.

#Review #Zero-Shot TTS #Long-Form Synthesis #Dialogue Synthesis #Flow-Matching #DiffusionNFT #Speech Alignment

2026년 5월 31일

[논문리뷰] SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

본 논문은 Autonomous AI Agents가 연구 파이프라인을 자동화함에 따라, 무분별한 실험 수행 전에 아이디어의 타당성을 걸러내는 First-gate 단계가 필수적임을 강조합니다.

#Review #Autonomous AI Agents #Research Evaluation #Methodological Soundness #Large Language Models #Optimism Bias #Scientific Benchmarking #First-gate Evaluation

2026년 5월 31일

[논문리뷰] Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

본 논문은 기존의 spatial reasoning 벤치마크들이 시각적 관측이 항상 충분하고 신뢰 가능하다는 비현실적인 가정에 의존하고 있다는 점을 지적합니다.

#Review #Vision-Language Models #Spatial Reasoning #Observational Uncertainty #Abstention #Occlusion #Perspective Ambiguity #Embodied AI

2026년 5월 31일

[논문리뷰] SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

본 연구는 기존 LLM의 Self-play가 수학, 코드 등 규칙 검증이 가능한 도메인에 한정되어 있으며, 오픈형 과제에서는 외부 데이터나 Frontier Model에 대한 의존성을 벗어나지 못한다는 문제점을 해결하고자 합니다.

#Review #Self-Play #Open-Ended Tasks #Reinforcement Learning #Rubric Reward #Retrieval-Augmented Generation #Co-Evolution #Data-Free

2026년 5월 31일

[논문리뷰] SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

본 논문은 실시간 스트리밍 Video-to-Video(V2V) 편집에서 발생하는 시간적 일관성 유지와 추론 성능 제한 문제를 해결하기 위해 SANA-Streaming을 제안한다.

#Review #Diffusion Transformer #Streaming Video Editing #Hybrid Architecture #Cycle-Reverse Regularization #Mixed-Precision Quantization #Real-time Inference

2026년 5월 31일

[논문리뷰] SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

본 논문은 Agentic Search 시스템에서 발생하는 심각한 Over-search 문제를 해결하기 위해 SAAS 프레임워크를 제안합니다.

#Review #Agentic Search #Reinforcement Learning #Over-Search Mitigation #Knowledge Boundary #Search Efficiency #Reward Hacking

2026년 5월 31일

[논문리뷰] Representation Forcing for Bottleneck-Free Unified Multimodal Models

본 논문은 기존 UMM이 frozen VAE에 의존하여 발생하는 structural bottleneck 문제를 해결하기 위해 Representation Forcing (RF)을 제안한다 .

#Review #Unified Multimodal Models #Representation Forcing #Pixel-space Diffusion #Vector Quantization #End-to-End Learning #Bottleneck-Free #Mixture-of-Transformers

2026년 5월 31일

[논문리뷰] Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

본 논문은 최신 GUI 에이전트가 뛰어난 성능을 보임에도 불구하고, 실행 과정에서 발생하는 Policy-Induced Errors를 인지하고 복구하는 능력이 부족하여 실제 배포에 한계가 있다는 문제를 해결하고자 합니다.

#Review #GUI Agent #Robustness #Trajectory Synthesis #Policy-Induced Errors #Error Recovery #VLM

2026년 5월 31일

[논문리뷰] PEEK: Picking Essential frames via Efficient Knowledge distillation

본 논문은 현대의 Vision-Language Models (VLMs)가 비디오 이해를 위해 제한된 수의 프레임만을 처리할 수 있다는 병목 문제를 해결하는 데 목적이 있습니다.

#Review #Video-language models #Frame selection #Knowledge distillation #Video captioning #Query-free sampling #Temporal modeling

2026년 5월 31일