Review

[논문리뷰] GeoWorld: Geometric World Models

이 논문은 기존 에너지 기반 예측 월드 모델이 유클리드 공간 에서 잠재 표현을 학습하여 기하학적 및 계층적 구조를 무시 하고, 장기 예측 시 성능이 빠르게 저하되는 문제를 해결하고자 합니다.

#Review #Geometric World Models #Hyperbolic Geometry #Joint-Embedding Predictive Architectures (JEPA)#Reinforcement Learning (RL)#Multi-step Planning #Visual Planning #Energy-Based Models

2026년 2월 26일

[논문리뷰] From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

본 논문은 기존의 LMM(Large Multimodal Models) 자가 학습 프레임워크가 겪는 해석 가능한 진단 부족과 시각적 다양성 부족이라는 근본적인 한계를 해결하고자 합니다.

#Review #Large Multimodal Models #Iterative Training #Diagnostic-Driven Learning #Reinforcement Learning #Multimodal Reasoning #Data Generation #Agent Systems

2026년 2월 26일

[논문리뷰] Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

대규모 언어 모델(LLM) 에이전트가 강화 학습(RL) 훈련 시 새로운 상태 발견이 필요한 환경에서 탐색에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 사전 학습된 지식에 의존하여 탐색 능력이 제한되는 한계를 극복하고, 더욱 탐색적이고 일반화 가능한 LLM 기반 에이전트 구축을 목적으로 합니다.

#Review #LLM Agents #Reinforcement Learning #Exploration #Memory Augmentation #Hybrid RL #On-Policy Optimization #Off-Policy Optimization

2026년 2월 26일

[논문리뷰] EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

본 논문은 기존의 고비용 및 스튜디오 의존적인 모션 캡처 시스템의 한계를 극복하고, 일상 환경에서 인간의 행동과 3D 장면 정보를 담은 고품질의 4D 인간-장면 데이터 를 대규모로 수집하는 것을 목표로 합니다.

#Review #Embodied AI #4D Reconstruction #Human-Scene Interaction #iPhone RGB-D #In-the-Wild Mocap #Physics-based Animation #Humanoid Robot Control #Low-Cost Data Collection

2026년 2월 26일

[논문리뷰] Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

배포된 언어 모델(LLMs)이 비정상 데이터(non-stationary data) 환경에서 겪는 치명적 망각(catastrophic forgetting) 문제를 해결하고, 기존의 높은 지연 시간, 메모리 사용량, 밀집 연산 문제를 야기하는 지속 학습 방법론의 한계를 극복하고자 합니다.

#Review #Continual Learning #Language Models #Sparse Routing #Cortical Columns #Thalamic Routing #Catastrophic Forgetting #Stability-Plasticity

2026년 2월 26일

[논문리뷰] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

본 연구는 짧은 비디오 데이터로 학습한 모델이 추론 시 긴 길이의 오디오(Long-Form Audio)를 일관성 있고 고품질로 생성할 수 있도록 Video-to-Audio (V2A) 모델의 길이 일반화(Length Generalization) 문제 를 해결하는 것을 목표로 합니다.

#Review #Video-to-Audio Generation #Length Generalization #Multimodal Learning #Mamba Architecture #Hierarchical Networks #Flow Matching #Audio Synthesis

2026년 2월 26일

[논문리뷰] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

기존 제스처 생성 모델이 단일 화자의 오디오에만 초점을 맞추고 사회적 맥락이나 두 화자 간의 상호작용 역학을 무시하여 비현실적이거나 부자연스러운 제스처를 생성하는 문제를 해결하고자 합니다.

#Review #Gesture Generation #Diffusion Transformer (DiT)#Multi-Modal #Dyadic Interaction #Socially Aware AI #Orthogonalization Cross Attention #Motion Dictionary

2026년 2월 26일

[논문리뷰] Causal Motion Diffusion Models for Autoregressive Motion Generation

본 논문은 기존 모션 확산 모델의 인과성 부족과 자기회귀 모델의 불안정성 및 오류 누적 문제를 해결하여, 고품질의 시간적으로 순서가 보장되는(temporally ordered) 모션 생성을 목표로 합니다.

#Review #Motion Generation #Diffusion Models #Autoregressive Models #Causal Modeling #Latent Space #Text-to-Motion #Human Motion Synthesis #Streaming Generation

2026년 2월 26일

[논문리뷰] AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

본 논문은 다중 에이전트 시스템(MAS) 내에서 개별 에이전트의 오류 정보가 하위 에이전트로 연쇄적으로 전파(cascading impact) 되어 전체 태스크 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Information Flow Optimization #Test-Time Rectification #Error Pruning #LLM Agents #Failure-Driven Indicators #Adaptive Reasoning

2026년 2월 26일

[논문리뷰] Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

확산 모델(Diffusion Models)의 높은 계산 비용으로 인한 추론 지연 문제를 해결하고, 기존 분산 병렬화 방식에서 발생하는 생성 아티팩트 및 비례적 가속 한계를 극복하는 것을 목표로 합니다. 특히, 조건부 확산 모델에서 이미지 품질 저하 없이 선형적 가속을 뛰어넘는 추론 속도 향상 을 달성하고자 합니다.

#Review #Diffusion Models #Distributed Parallelism #Conditional Guidance #Adaptive Scheduling #Generative AI #Latency Reduction #Multi-GPU

2026년 2월 26일

[논문리뷰] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

본 논문은 협소하고 정적인 기존 AI 벤치마크의 한계를 극복하고, 인간과 유사한 일반 지능(AGI)을 평가하기 위한 확장 가능하며 개방형의 새로운 접근 방식을 제안합니다. 특히, AI 시스템이 인간이 고안한 모든 게임 을 얼마나 잘 플레이하고 학습하는지를 통해 AGI 역량을 측정하고자 합니다.

#Review #Artificial General Intelligence (AGI)#Evaluation Benchmark #General Game Playing #Large Language Models (LLMs)#Human-in-the-loop #Cognitive Capabilities #Vision-Language Models (VLMs)#Game Generation

2026년 2월 26일

[논문리뷰] World Guidance: World Modeling in Condition Space for Action Generation

본 논문은 Vision-Language-Action (VLA) 모델이 효율적이고 예측 가능한 미래 표현을 유지하면서 정밀한 액션 생성을 위한 충분한 세분화된 정보를 보존하는 데 어려움을 겪는 문제를 해결합니다.

#Review #World Model #Action Generation #Vision-Language-Action Models (VLA)#Condition Space #Imitation Learning #Robotics #Generalization #Human Manipulation

2026년 2월 25일

[논문리뷰] VecGlypher: Unified Vector Glyph Generation with Language Models

기존 벡터 글리프 생성 파이프라인이 수동으로 선별된 예시 시트와 래스터-벡터 후처리 과정에 의존하여 접근성과 편집성이 제한되는 문제를 해결하고자 합니다. 자연어 설명이나 이미지 예시만으로 고품질의 편집 가능한 벡터 글리프를 직접 생성하는 단일 멀티모달 언어 모델 인 VecGlypher 를 개발하는 것이 목표입니다.

#Review #Vector Graphics #Glyph Generation #Language Models #Multimodal AI #SVG #Font Design #Text-to-Vector #Image-to-Vector

2026년 2월 25일

[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation Models

이 논문은 비디오 파운데이션 모델(VFM)의 통합된 역량을 평가하기 위한 파편화되고 제한적인 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Video Foundation Models #Unified Evaluation #Multi-task Learning #Video Understanding #Video Generation #Video Editing #Video Reconstruction #Agentic Evaluation #Cinematic Dimensions

2026년 2월 25일

[논문리뷰] The Design Space of Tri-Modal Masked Diffusion Models

본 논문은 텍스트, 이미지-텍스트, 오디오-텍스트 데이터에 대해 처음부터 사전 훈련된 최초의 삼중 모달(tri-modal) 마스크드 확산 모델(MDM) 을 소개합니다.

#Review #Masked Diffusion Models #Multimodal AI #Scaling Laws #Discrete Diffusion #SDE Parameterization #Hyperparameter Transfer #Unified Generation

2026년 2월 25일

[논문리뷰] Solaris: Building a Multiplayer Video World Model in Minecraft

기존 단일 에이전트 비디오 월드 모델의 한계를 극복하고, Minecraft 와 같은 복잡한 3D 환경에서 일관된 다중 시점 관찰을 시뮬레이션할 수 있는 다중 에이전트 비디오 월드 모델 (Solaris) 을 구축하는 것이 목표입니다.

#Review #Multi-agent World Models #Video Diffusion Models #Minecraft #Self Forcing #Checkpointed Self Forcing #Multi-view Consistency #Data Collection #Embodied AI

2026년 2월 25일

[논문리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

이 논문은 텍스트, 이미지, 비디오, 마스크, 오디오 참조를 포함한 다양한 입력을 처리하고, 비디오-오디오 생성, 인페인팅 및 편집 기능을 단일 프레임워크 내에서 통합적으로 지원하는 멀티모달 비디오 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Multi-modal Generation #Video-Audio Synthesis #Video Inpainting #Video Editing #Diffusion Transformer #MMLM #Super-resolution #Frame Interpolation

2026년 2월 25일

[논문리뷰] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

확산 모델의 느린 추론 속도를 개선하기 위해 기존 캐싱 방법론이 원시 특징(raw feature) 차이 에만 의존하여 콘텐츠와 노이즈를 혼합하고, 이로 인해 스펙트럼 진화(spectral evolution) 를 간과하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #Model Acceleration #Feature Caching #Spectral Analysis #Generative AI #Image Generation #Video Generation #Latency Reduction

2026년 2월 25일

[논문리뷰] NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

본 논문은 Large Vision-Language Models (LVLMs) 에서 출력 이미지에 존재하지 않는 객체를 생성하는 객체 환각(Object Hallucinations) 문제를 해결하는 것을 목표로 합니다.

#Review #Large Vision-Language Models (LVLMs)#Object Hallucinations #Language Priors #Contrastive Decoding #Dynamic Suppression #Training-Free #Multimodal AI

2026년 2월 25일

[논문리뷰] NanoKnow: How to Know What Your Language Model Knows

본 연구는 대규모 언어 모델(LLMs)이 지식을 어떻게 획득하고 활용하는지에 대한 근본적인 질문에 답하고자 합니다. 특히, LLM의 사전 훈련 데이터가 종종 '블랙 박스'로 남아있어 지식의 출처를 추적하기 어렵다는 문제를 해결하고, 파라미터 내 지식과 외부 지식의 상호작용을 명확히 이해하는 것을 목표로 합니다.

#Review #LLM Knowledge #Pre-training Data #Retrieval-Augmented Generation (RAG)#FineWeb-Edu #nanochat #Benchmarking #Question Answering #Data Attribution

2026년 2월 25일