Review

[논문리뷰] InCoder-32B-Thinking: Industrial Code World Model for Thinking

본 논문은 기존 LLM이 일반 코딩 작업에서는 뛰어난 성능을 보이나, 하드웨어 제약 조건과 복잡한 타이밍 시맨틱이 중요한 산업용 소프트웨어 개발 환경에서는 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Industrial Code Intelligence #Chain-of-Thought #World Model #Error-driven Synthesis #Hardware-aware Coding

2026년 4월 5일

[논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

본 논문은 현대의 Vision-Language Models (VLMs)가 단일 비전 인코더(대체로 CLIP 기반)에 의존함에 따라 발생하는 세밀한 시각적 이해 및 위치 파악(Grounding) 능력의 한계를 해결하고자 합니다.

#Review #Vision-Language Models #Multi-Encoder Fusion #Entropy-Guided Selection #Orthogonal Layer #RoPE #Visual Grounding #Multimodal Understanding

2026년 4월 5일

[논문리뷰] Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

본 논문은 MLLM이 단순한 관찰자에서 능동적 에이전트로 진화함에 따라, 시각적 조작과 지식 검색의 결합 능력을 체계적으로 평가할 필요성을 제기합니다. 기존의 벤치마크들은 도구 통합의 유연성이 부족하거나, 시각적 도구와 웹 검색을 독립적으로 평가하여 이들의 Synergy 를 간과하고 있습니다.

#Review #Multimodal Large Language Models #Agentic Capability #Visual Expansion #Knowledge Expansion #Process-Verified Benchmark #Synergistic Reasoning

2026년 4월 5일

[논문리뷰] AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

저자들은 AgentSocialBench를 도입하여 7개 카테고리, 300개 이상의 시나리오를 통해 에이전트의 프라이버시 보존 성능을 체계적으로 평가합니다 . 제안된 프레임워크는 사용자 프로파일의 민감도 계층, 지향성 사회 그래프, 그리고 명시적 프라이버시 경계를 포함합니다.

#Review #LLM Agents #Agentic Social Networks #Privacy Preservation #Contextual Integrity #Information Abstraction #Abstraction Paradox

2026년 4월 5일

[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.

#Review #Computer-Use Agents #Agent Safety #Benchmark #Harmful Behavior #Trajectory-level Evaluation #Multi-step Reasoning

2026년 4월 5일

[논문리뷰] A Simple Baseline for Streaming Video Understanding

본 연구에서 제안하는 SimpleStream은 추가적인 학습이나 별도의 메모리 구조 없이, 오직 마지막 $N$개의 프레임을 오프-더-셸프 VLM에 전달하는 최소주의적 추론 정책을 채택합니다 . 저자들은 OVO-Bench와 StreamingBench를 통해 13개의 주요 온라인 및 오프라인 비디오 LLM 베이스라인과 성능을 비교하였습니다.

#Review #Streaming Video Understanding #Video LLM #Simple Baseline #Perception-Memory Trade-off #OVO-Bench

2026년 4월 5일

[논문리뷰] Woosh: A Sound Effects Foundation Model

본 논문은 사운드 이펙트 생성에 특화된 고품질 오픈 소스 파운데이션 모델의 부재를 해결하기 위해 Woosh 를 제안한다. 기존의 오픈 모델들은 저해상도 오디오(16kHz 제한)만을 지원하거나, 음악 생성에 치우쳐 있어 프로페셔널 사운드 이펙트 제작에 한계가 있다.

#Review #Foundation Model #Sound Effects #Latent Diffusion Model #Flow Matching #Audio-Visual Generation #Distillation

2026년 4월 2일

[논문리뷰] VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

본 논문은 현재의 Video MLLM 평가 방식이 답변의 정성적 정확도에만 치중하여 실제적인 시공간적 추론 역량을 제대로 측정하지 못한다는 문제를 지적한다. 기존 벤치마크들은 고득점을 기록하지만, 모델이 정답을 도출하기 위해 필요한 핵심적인 시각적 증거를 정확하게 탐색하고 활용하는지 검증하지 못한다 .

#Review #Video MLLM #Spatio-Temporal Grounding #Benchmark #Long-Video Understanding #Evidence Verification #Atomic Ability

2026년 4월 2일

[논문리뷰] VOID: Video Object and Interaction Deletion

본 연구는 CogVideoX 확산 모델을 기반으로, 물리적 인과 관계를 반영하는 카운터팩추얼 생성 모델을 구축하였습니다. 먼저 Kubric과 HUMOTO를 통해 객체 제거 전후의 물리적 역학 변화를 학습하고, VLM을 활용해 영상 내 영향받는 영역을 실시간으로 추론하여 Quadmask를 생성함으로써 모델의 생성 범위를 명확히 제한합니다.

#Review #Video Object Removal #Counterfactual Reasoning #Video Diffusion Models #Interaction-Aware Masking #Vision-Language Models

2026년 4월 2일

[논문리뷰] UniRecGen: Unifying Multi-View 3D Reconstruction and Generation

본 논문은 sparse-view 3D 모델링에서 나타나는 기하학적 정확도와 생성적 품질 사이의 근본적인 트레이드오프(trade-off) 문제를 해결하기 위해 UniRecGen 을 제안합니다.

#Review #3D Reconstruction #3D Generation #Multi-View Consistency #Diffusion Models #Canonical Space

2026년 4월 2일

[논문리뷰] UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving

본 논문은 VLA 모델을 자율주행에 적용할 때 발생하는 공간 인지와 의미론적 추론 간의 근본적인 충돌 문제를 해결하고자 합니다. 기존의 VLA 시스템들은 주로 사전 학습된 2D VLM을 기반으로 하는데, 이는 강력한 의미론적 이해 능력을 갖춘 반면 자율주행에 필수적인 공간 인지 능력이 부족하다는 한계를 지닙니다.

#Review #Vision-Language-Action Models #Autonomous Driving #Mixture-of-Transformers #Sparse Perception #Representation Interference #End-to-End Planning

2026년 4월 2일

[논문리뷰] The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

본 논문은 현대의 언어 기반 모델들이 여전히 토큰 단위의 명시적인 생성 방식에 의존하고 있어, 이로 인한 구조적 한계에 직면해 있다는 점을 지적한다.

#Review #Latent Space #Language-based Models #Implicit Reasoning #Multimodal Computation #Embodied AI #Latent Representation #Machine-native

2026년 4월 2일

[논문리뷰] Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models

본 논문은 Tex3D를 제안하여 VLA 시뮬레이션 환경 내에서 adversarial 3D 텍스처를 end-to-end로 최적화합니다. 제안하는 FBD는 MuJoCo에서 배경을 렌더링하고 Nvdiffrast에서 객체를 렌더링하여 두 렌더러 간의 MVP(Model-View-Projection) 및 조명 파라미터를 동기화함으로써 미분 가능한 경로를 확보합니다 .

#Review #VLA Models #3D Adversarial Textures #Embodied Robustness #Differentiable Rendering #Foreground-Background Decoupling

2026년 4월 2일

[논문리뷰] T5Gemma-TTS Technical Report

본 논문은 T5Gemma 모델을 백본으로 활용하여 방대한 언어적 지식을 음성 생성 영역으로 전이합니다. 제안된 모델은 XCodec2를 사용하여 오디오를 토큰화하며, Cross-attention 레이어마다 PM-RoPE를 적용하여 생성 진행 상황을 실시간으로 감시함으로써 정밀한 duration control을 달성합니다 .

#Review #text-to-speech #zero-shot voice cloning #encoder-decoder #PM-RoPE #multilingual evaluation

2026년 4월 2일

[논문리뷰] Steerable Visual Representations

저자들은 텍스트 프롬프트로 ViT의 내부 레이어를 직접 제어하는 SteerViT를 제안합니다. SteerViT는 frozen된 ViT 블록들 사이에 21M 개의 파라미터만 추가하는 경량화된 cross-attention 레이어를 삽입하여 텍스트 정보를 주입합니다 .

#Review #Steerable Visual Representations #Vision Transformers #Early Fusion #Cross-Attention #Text-Conditioned Vision #Representational Quality #Zero-Shot Generalization

2026년 4월 2일

[논문리뷰] SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

저자들은 Skill0 프레임워크를 제안하며, 이는 ICRL과 Dynamic Curriculum을 결합하여 스킬을 단계적으로 내재화한다 . 학습 초기에는 풍부한 스킬 문맥을 제공하여 에이전트의 초기 탐색을 돕고, 학습이 진행됨에 따라 스킬 예산을 선형적으로 감소시켜 에이전트가 스스로 최적의 전략을 내재화하도록 유도한다.

#Review #In-Context Reinforcement Learning #Skill Internalization #Agentic Agents #Dynamic Curriculum #Context Compression

2026년 4월 2일

[논문리뷰] Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation

본 논문은 3D 생성 모델이 직면한 심각한 데이터 부족 문제를 해결하기 위해, 2D 기반의 방대한 데이터를 3D 학습의 structural prior로 활용하는 unified framework를 제안합니다.

#Review #3D Native Foundation Models #Autoregressive Framework #Cross-modal Generative Consistency #Interleaved Training #3D Data Scarcity #Instruction-based 3D Editing

2026년 4월 2일

[논문리뷰] Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

AI 에이전트가 장기간의 멀티모달 경험을 기억하고 조직하며 회상하는 능력은 현재 성능 향상의 중대한 병목 지점입니다. 기존의 기억 시스템은 인간 연구자가 수동으로 아키텍처를 설계하고 하이퍼파라미터를 조정해야 하므로 복잡한 시스템의 상호작용을 최적화하는 데 한계가 있습니다.

#Review #Multimodal Memory #AI Agents #Autonomous Scientific Discovery #Lifelong Learning #Retrieval-Augmented Generation #AutoML #Neural Architecture Search

2026년 4월 2일

[논문리뷰] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning

본 연구는 embodied 환경에서 시점 변화, 거리, 폐색(Occlusion)으로 인해 발생하는 객체 묘사의 의미론적 불일치(Semantic Inconsistency) 문제를 해결하는 것을 목적으로 합니다.

#Review #Embodied AI #Vision-Language Models #Episodic Memory #Semantic Consistency #Object Captioning #Data Association

2026년 4월 2일

[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

본 논문은 기존의 Document Parsing 벤치마크들이 대부분 영어 중심의 디지털 문서에 국한되어 있어, 다국어 및 실제 촬영된 문서 환경에서의 성능을 평가하는 데 한계가 있다는 문제를 지적합니다.

#Review #Multilingual #Document Parsing #Benchmark #Photographed Documents #VLM #OCR

2026년 4월 2일