최신 포스트

[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Gaussian GRPO #Optimal Transport #Multi-task Learning #Visual Reasoning

2026년 4월 9일

[논문리뷰] OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

본 논문은 기존 MLLM이 언어적 능력에 비해 공간 이해 능력(거리 측정, 다중 뷰 일관성 등)이 현저히 떨어지는 'Spatial Myopia' 문제를 해결하고자 한다. 기존 연구들은 고정된 데이터셋만을 배포할 뿐, 공간 데이터를 생성하는 엔진 자체를 비공개로 운영하여 데이터의 확장성과 재현성을 저해하고 있다.

#Review #Spatial Intelligence #Data Engine #3D Bounding Boxes #Multimodal Large Language Models #Data Scaling #3D Lifting

2026년 4월 9일

[논문리뷰] OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

저자들은 시간 순서 재구성(temporal reordering) proxy task를 기반으로 세 가지 모달리티 오케스트레이션 전략(JMI, SMS, CMM)을 제안합니다. 특히, CMM 전략은 클립별로 정보를 마스킹하여 모델이 시각과 청각 정보를 능동적으로 교차 분석하게 함으로써 학습 성능을 극대화합니다 .

#Review #Omni-modal Reasoning #Reinforcement Learning #Self-supervised Learning #Jigsaw Proxy Task #Modality Orchestration #Data Filtering

2026년 4월 9일

[논문리뷰] MolmoWeb: Open Visual Web Agent and Open Data for the Open Web

저자들은 Instruction-conditioned visual-language action policy인 MolmoWeb을 제안하며, 이를 학습시키기 위한 MolmoWebMix 데이터셋을 구축하였습니다. MolmoWeb은 Molmo2 아키텍처를 기반으로 하며, 웹 스크린샷과 작업 지시어를 입력받아 즉각적인 브라우저 액션을 출력합니다 .

#Review #Web Agents #Multimodal #Vision-Language Models #Open Data #Browser-use #GUI Perception #Instruction-conditioned Policies

2026년 4월 9일

[논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

본 논문은 기존 스타일 전이 기법들이 self-supervised 훈련 방식의 한계로 인해 스타일과 콘텐츠를 효과적으로 분리하지 못하고, 데이터셋의 품질 및 다양성 부족으로 스타일 전이 성능이 제한되는 문제를 해결하고자 한다.

#Review #MegaStyle #Style Transfer #Data Curation #Diffusion Transformer #Contrastive Learning

2026년 4월 9일

[논문리뷰] Lighting-grounded Video Generation with Renderer-based Agent Reasoning

본 논문은 3D scene proxy를 통해 조명을 제어하는 LiVER 프레임워크를 제안한다. 먼저 Renderer-based Agent가 텍스트 명령을 분석하여 3D 구조를 생성하고, 이를 2D 렌더 패스(diffuse, rough/glossy GGX)로 변환하여 물리적 단서를 추출한다 .

#Review #Video Generation #Controllable Generation #Lighting-grounded #3D Scene Proxy #Diffusion Models #Physical Realism #Renderer-based Agent

2026년 4월 9일

[논문리뷰] LPM 1.0: Video-based Character Performance Model

본 논문은 정체성 인식 다중 참조 추출과 오디오-비디오 페어링이 포함된 고품질 데이터셋을 구축하고, 이를 기반으로 Diffusion Transformer 모델을 학습시켰습니다. 모델은 Base LPM을 통해 정체성을 보존하며, 이를 Online LPM으로 증류하여 낮은 지연 시간 내에 무한한 길이의 스트리밍 영상을 생성합니다.

#Review #Large Performance Model #Full-Duplex #Diffusion Transformer #Identity-Consistent #Real-Time Inference #Streaming Generation #LPM-Bench

2026년 4월 9일

[논문리뷰] KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

본 논문은 현재의 모바일 에이전트 벤치마크가 사용자의 개인화된 요구사항을 이해하거나 선제적인 의사결정을 내리는 실제 서비스 환경을 제대로 반영하지 못한다는 문제에서 출발합니다.

#Review #Mobile Agent #Personalization #Proactive Assistance #Interactive Benchmarking #User Simulation #GUI Automation

2026년 4월 9일

[논문리뷰] ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

본 논문은 LLM 에이전트의 기억 능력을 평가하는 기존 벤치마크들이 '명시적 기억(Explicit memory)'의 회상 능력에만 편중되어 있다는 점을 지적한다.

#Review #Implicit Memory #LLM Agents #Procedural Memory #Priming #Classical Conditioning #Benchmark #Behavioral Adaptation

2026년 4월 9일

[논문리뷰] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

본 논문은 모달리티 적응형 컴퓨팅을 위한 MoT 아키텍처와 비전-언어 연결을 강화하는 Visual Latent Tokens를 핵심 방법론으로 제안합니다 . 시각적 인지 능력 향상을 위해 HY-ViT 2.0 인코더를 탑재하고, 고품질 embodied 데이터를 활용한 반복적인 사후 학습 패러다임을 설계했습니다.

#Review #Embodied Foundation Models #Mixture-of-Transformers #Visual Latent Tokens #On-policy Distillation #Chain-of-Thought #Real-world Agents

2026년 4월 9일

[논문리뷰] Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

본 논문은 에이전트 스킬 라이브러리가 수천 개 이상으로 확장됨에 따라 발생하는 Skill Retrieval 의 병목 현상과 불완전한 스킬 검색 문제를 해결합니다. 기존의 Vanilla Skills 방식은 전체 라이브러리를 프롬프트에 포함하여 Context Window 오버로드, 토큰 비용 증가, 성능 저하를 초래합니다.

#Review #Agentic AI #Skill Retrieval #Graph-based Retrieval #Structural Dependency #Personalized PageRank #LLM Agents

2026년 4월 9일

[논문리뷰] Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference

본 논문은 기존 long-context LLM 추론에서 발생하는 quadratic computational complexity와 기존 하이브리드 어텐션 기법들의 한계를 해결하고자 합니다.

#Review #Large Language Models #Long-context Inference #Hybrid Attention #Dynamic Routing #Layer-level Sparsity #Context-aware

2026년 4월 9일

[논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization

본 논문은 RLVR 기반의 Multimodal Reasoning Models(MRM)이 높은 정답 정확도를 달성함에도 불구하고, 정작 그 과정인 CoT 추론의 신뢰성이 현저히 떨어지는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Constrained Policy Optimization #Chain-of-Thought #Visual Spatial Reasoning #Lagrangian Relaxation #Faithfulness

2026년 4월 9일

[논문리뷰] FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On

본 논문은 기존 가상 착용(VTO) 기술이 의류의 외형 재현에는 뛰어나지만, 사용자의 체형이나 의류의 실제 사이즈를 반영한 '핏(fit)'을 정확히 표현하지 못한다는 핵심 문제 의식을 제기합니다.

#Review #Virtual Try-On #Diffusion Model #Sim2Real #Dataset #Fit-Awareness #Physics Simulation

2026년 4월 9일

[논문리뷰] Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

저자들은 에이전트의 역량을 Memory(상태의 외부화), Skills(절차적 전문성의 외부화), Protocols(상호작용 구조의 외부화)라는 세 가지 차원으로 구분하여 분석한다 . Memory는 Working Context, Episodic 경험, Semantic 지식, 개인화된 기억을 통해 모델이 에피소드 간 연속성을 유지하도록 돕는다.

#Review #LLM Agents #Externalization #Memory #Skills #Protocols #Harness Engineering #Cognitive Artifacts

2026년 4월 9일

[논문리뷰] DMax: Aggressive Parallel Decoding for dLLMs

본 논문은 dLLM을 위한 DMax 패러다임을 제안하며, 이는 예측의 self-refinement 과정을 임베딩 공간 내의 변환으로 재구성합니다. 핵심 기법인 OPUT은 학습 시 모델 스스로의 예측을 통해 noisy input을 구성함으로써 train-inference 간의 불일치를 줄여 자가 수정 능력을 극대화합니다 .

#Review #Diffusion Language Models #Parallel Decoding #Error Accumulation #On-Policy Training #Self-Correction #Embedding Space

2026년 4월 9일

[논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?

본 논문은 실제 웹사이트에서 안전하게 에이전트를 평가하기 위해 5계층 기록 인프라와 최종 요청 인터셉션 메커니즘을 결합한 ClawBench를 제안한다 . 이 프레임워크는 인간 전문가가 수행한 경로를 Ground-truth로 삼고, 에이전트가 수행한 전체 경로를 동일한 환경에서 기록한 뒤 Agentic Evaluator를 통해 비교 평가한다 .

#Review #AI Agents #Web Benchmarking #Write-heavy Tasks #Real-world Interaction #Agentic Evaluator #Trajectory Recording

2026년 4월 9일

[논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search

본 논문은 기존 RL 기반 Search Agent가 겪는 스토캐스틱 탐색(Stochastic Exploration)의 비효율성과 훈련 불안정성 문제를 해결하고자 합니다.

#Review #Agentic Search #Reinforcement Learning #Hierarchical Experience #Policy Optimization #Contrastive Distillation #Self-Reflection

2026년 4월 9일

[논문리뷰] Automating Database-Native Function Code Synthesis with LLMs

DBCooker는 크게 Function Characterization, Function Synthesis Operations, Adaptive Tool Orchestration의 세 가지 핵심 모듈을 통해 합성 정확도를 극대화합니다. 첫째, 그래프 기반 분석을 통해 필요한 함수 단위를 식별하고 필수 레퍼런스를 추출합니다.

#Review #Database-Native Function #Code Synthesis #Large Language Models #Function Characterization #Adaptive Orchestration #Pseudo-plan Generation

2026년 4월 9일

[논문리뷰] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

본 논문은 기존의 Zero-Shot 이상 탐지 연구가 VLM (Vision-Language Models)에 의존하는 경향이 있어, 시각적 표현력이 뛰어난 순수 VFM 의 잠재력을 충분히 활용하지 못한다는 점을 문제로 지적합니다.

#Review #Zero-Shot Anomaly Detection #Vision Foundation Models #Synthetic Data Generation #LoRA #Confidence-Weighted Loss

2026년 4월 9일