[논문리뷰] VOID: Video Object and Interaction Deletion본 연구는 CogVideoX 확산 모델을 기반으로, 물리적 인과 관계를 반영하는 카운터팩추얼 생성 모델을 구축하였습니다. 먼저 Kubric과 HUMOTO를 통해 객체 제거 전후의 물리적 역학 변화를 학습하고, VLM을 활용해 영상 내 영향받는 영역을 실시간으로 추론하여 Quadmask를 생성함으로써 모델의 생성 범위를 명확히 제한합니다.#Review#Video Object Removal#Counterfactual Reasoning#Video Diffusion Models#Interaction-Aware Masking#Vision-Language Models2026년 4월 2일댓글 수 로딩 중
[논문리뷰] UniRecGen: Unifying Multi-View 3D Reconstruction and GenerationChenyu Hu이 arXiv에 게시한 'UniRecGen: Unifying Multi-View 3D Reconstruction and Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Reconstruction#3D Generation#Multi-View Consistency#Diffusion Models#Canonical Space2026년 4월 2일댓글 수 로딩 중
[논문리뷰] UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous DrivingarXiv에 게시된 'UniDriveVLA: Unifying Understanding, Perception, and Action Planning for Autonomous Driving' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Autonomous Driving#Mixture-of-Transformers#Sparse Perception#Representation Interference#End-to-End Planning2026년 4월 2일댓글 수 로딩 중
[논문리뷰] The Latent Space: Foundation, Evolution, Mechanism, Ability, and OutlookYongbo He이 arXiv에 게시한 'The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook' 논문에 대한 자세한 리뷰입니다.#Review#Latent Space#Language-based Models#Implicit Reasoning#Multimodal Computation#Embodied AI#Latent Representation#Machine-native2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Tex3D: Objects as Attack Surfaces via Adversarial 3D Textures for Vision-Language-Action Models본 논문은 Tex3D를 제안하여 VLA 시뮬레이션 환경 내에서 adversarial 3D 텍스처를 end-to-end로 최적화합니다. 제안하는 FBD는 MuJoCo에서 배경을 렌더링하고 Nvdiffrast에서 객체를 렌더링하여 두 렌더러 간의 MVP(Model-View-Projection) 및 조명 파라미터를 동기화함으로써 미분 가능한 경로를 확보합니다 .#Review#VLA Models#3D Adversarial Textures#Embodied Robustness#Differentiable Rendering#Foreground-Background Decoupling2026년 4월 2일댓글 수 로딩 중
[논문리뷰] T5Gemma-TTS Technical Report본 논문은 T5Gemma 모델을 백본으로 활용하여 방대한 언어적 지식을 음성 생성 영역으로 전이합니다. 제안된 모델은 XCodec2를 사용하여 오디오를 토큰화하며, Cross-attention 레이어마다 PM-RoPE를 적용하여 생성 진행 상황을 실시간으로 감시함으로써 정밀한 duration control을 달성합니다 .#Review#text-to-speech#zero-shot voice cloning#encoder-decoder#PM-RoPE#multilingual evaluation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Steerable Visual Representations저자들은 텍스트 프롬프트로 ViT의 내부 레이어를 직접 제어하는 SteerViT를 제안합니다. SteerViT는 frozen된 ViT 블록들 사이에 21M 개의 파라미터만 추가하는 경량화된 cross-attention 레이어를 삽입하여 텍스트 정보를 주입합니다 .#Review#Steerable Visual Representations#Vision Transformers#Early Fusion#Cross-Attention#Text-Conditioned Vision#Representational Quality#Zero-Shot Generalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization저자들은 Skill0 프레임워크를 제안하며, 이는 ICRL과 Dynamic Curriculum을 결합하여 스킬을 단계적으로 내재화한다 . 학습 초기에는 풍부한 스킬 문맥을 제공하여 에이전트의 초기 탐색을 돕고, 학습이 진행됨에 따라 스킬 예산을 선형적으로 감소시켜 에이전트가 스스로 최적의 전략을 내재화하도록 유도한다.#Review#In-Context Reinforcement Learning#Skill Internalization#Agentic Agents#Dynamic Curriculum#Context Compression2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D GenerationYihao Zhi이 arXiv에 게시한 'Omni123: Exploring 3D Native Foundation Models with Limited 3D Data by Unifying Text to 2D and 3D Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Native Foundation Models#Autoregressive Framework#Cross-modal Generative Consistency#Interleaved Training#3D Data Scarcity#Instruction-based 3D Editing2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent MemoryarXiv에 게시된 'Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Memory#AI Agents#Autonomous Scientific Discovery#Lifelong Learning#Retrieval-Augmented Generation#AutoML#Neural Architecture Search2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object CaptioningarXiv에 게시된 'Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Vision-Language Models#Episodic Memory#Semantic Consistency#Object Captioning#Data Association2026년 4월 2일댓글 수 로딩 중
[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World ScenariosShuo Zhang이 arXiv에 게시한 'MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios' 논문에 대한 자세한 리뷰입니다.#Review#Multilingual#Document Parsing#Benchmark#Photographed Documents#VLM#OCR2026년 4월 2일댓글 수 로딩 중
[논문리뷰] LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal DistillationarXiv에 게시된 'LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Knowledge Distillation#Linguistic Ability#KV-cache Sharing#Multimodal Adaptation#Catastrophic Forgetting2026년 4월 2일댓글 수 로딩 중
[논문리뷰] LatentUM: Unleashing the Potential of Interleaved Cross-Modal Reasoning via a Latent-Space Unified Model본 논문은 시각적 이해와 생성을 공유된 semantic latent space에서 통합하는 LatentUM을 제안한다. 핵심 방법론인 MBAQ는 VLM의 출력 분포를 보존하도록 설계되어, 시각적 특징을 복원 중심이 아닌 이해 중심의 디스크리트 토큰으로 양자화한다 .#Review#Unified Models#Cross-Modal Reasoning#Semantic Latent Space#MBAQ#Mixture-of-Modal Experts2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over TimearXiv에 게시된 'Investigating Autonomous Agent Contributions in the Wild: Activity Patterns and Code Change over Time' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Coding Agents#Large Language Models#Mining Software Repositories#Pull Requests#Code Churn#Empirical Software Engineering#Human-AI Collaboration2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Generative World RendererarXiv에 게시된 'Generative World Renderer' 논문에 대한 자세한 리뷰입니다.#Review#Generative World Renderer#Inverse Rendering#G-buffer#Dataset Construction#Video Diffusion Models#VLM-based Evaluation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Gated Condition Injection without Multimodal Attention: Towards Controllable Linear-Attention Transformers본 논문은 Linear Attention 기반 모델을 위한 통합 게이트 조건 주입 모듈인 GateControl을 제안합니다. 이 방식은 학습 가능한 게이트를 통해 토큰별로 중요한 조건 정보만을 선택적으로 보존함으로써, 기존의 Multimodal Attention 없이도 강력한 제어 성능을 달성합니다.#Review#Diffusion Transformer#Linear Attention#Controllable Generation#Gated Condition Injection#On-device AI2026년 4월 2일댓글 수 로딩 중
[논문리뷰] GPA: Learning GUI Process Automation from DemonstrationsarXiv에 게시된 'GPA: Learning GUI Process Automation from Demonstrations' 논문에 대한 자세한 리뷰입니다.#Review#GUI Process Automation#Robotic Process Automation#Sequential Monte Carlo#UI Grounding#Demonstration-based Learning#Computer-use Agent2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models본 논문은 templated prompts를 사용하여 특정 개체에 반응하는 뉴런을 추출하고, 이를 인과적 개입(Causal Intervention)을 통해 검증하는 파이프라인을 제안합니다. 먼저, 여러 프롬프트에서 안정적으로 활성화되는 뉴런을 순위화하여 Entity Cells를 식별합니다.#Review#Mechanistic Interpretability#LLM#Entity Cells#Factual Recall#Causal Intervention#MLP Neurons#Canonicalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering DecompositionKazuhiko Sumi이 arXiv에 게시한 'FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition' 논문에 대한 자세한 리뷰입니다.#Review#Rectified Flow#Image Editing#Training-Free#Slider Control#Fidelity-Steering Decomposition2026년 4월 2일댓글 수 로딩 중