최신 포스트

[논문리뷰] The Trinity of Consistency as a Defining Principle for General World Models

본 논문은 최신 생성 AI 모델들이 시각적으로 그럴듯한 결과물을 생성하지만, 물리 법칙과 인과 관계를 이해하는 데 한계를 보이는 문제를 해결하고자 합니다.

#Review #World Models #Multimodal Generative AI #Consistency Theory #Spatial-Temporal Reasoning #Causal Simulation #AI Benchmarking #Artificial General Intelligence

2026년 2월 26일

[논문리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

이 논문은 기존 딥 리서치 에이전트의 높은 추론 비용과 지연 시간, 그리고 이질적인 연구 환경 전반에 걸친 낮은 일반화 성능이라는 두 가지 주요 문제를 해결하는 것을 목표로 합니다. 특히, 장기적인(long-horizon) 에이전트 검색 태스크에서 효율성과 일반화 능력을 동시에 향상시키고자 합니다.

#Review #Agentic AI #Long-Horizon Search #Parallel Execution #Data Synthesis #Reinforcement Learning #Generalization #Efficiency #LLM Agent

2026년 2월 26일

[논문리뷰] Risk-Aware World Model Predictive Control for Generalizable End-to-End Autonomous Driving

이 논문은 전문가 행동 데이터에 대한 의존성으로 인해 발생하는 기존 End-to-End 자율주행(E2E-AD) 시스템의 제한적인 일반화 문제와 롱테일 시나리오에서의 불안전한 결정 문제를 해결하고자 합니다.

#Review #End-to-End Autonomous Driving #World Model Predictive Control #Risk-Aware #Generalization #Self-Supervised Learning #Scenario Exploration #Autonomous Systems

2026년 2월 26일

[논문리뷰] OmniGAIA: Towards Native Omni-Modal AI Agents

본 연구는 현재 바이모달 상호작용에 국한된 멀티모달 LLM의 한계를 넘어, 인간의 지능처럼 영상, 오디오, 이미지 모달리티 전반에 걸쳐 통합적으로 인지하고 추론하며 외부 도구를 사용하는 네이티브 옴니모달 AI 에이전트 를 개발하고 평가하는 것을 목표로 합니다.

#Review #Omni-modal AI #Multi-modal Agents #Tool-Integrated Reasoning #Benchmark #Event Graph #Active Perception #Trajectory Synthesis #DPO

2026년 2월 26일

[논문리뷰] MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

본 논문은 다양한 라우팅 요구, 비결정론적 매핑 서비스, 제한된 재현성으로 인해 복잡한 실세계 모빌리티 시나리오에서 LLM 기반 경로 계획 에이전트 의 체계적인 평가가 어렵다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Route Planning Agents #Benchmarking #Real-World Mobility #API Replay Sandbox #Multi-dimensional Evaluation #Tool-augmented Agents

2026년 2월 26일

[논문리뷰] MediX-R1: Open Ended Medical Reinforcement Learning

본 논문은 의료 멀티모달 대규모 언어 모델(MLLM)이 다지선다형 질문을 넘어 임상적으로 근거한 자유 형식 답변 을 생성하도록 하는 오픈엔드 의료 강화 학습(RL) 프레임워크인 MediX-R1 을 제안합니다.

#Review #Reinforcement Learning #Multimodal LLMs #Medical AI #Composite Reward #LLM-as-a-Judge #Open-ended Generation #Medical Imaging

2026년 2월 26일

[논문리뷰] Imagination Helps Visual Reasoning, But Not Yet in Latent Space

본 논문은 Multimodal Large Language Models (MLLMs)에서 잠재 공간(latent space)을 활용한 시각적 추론(Latent Visual Reasoning, LVR)의 효과와 내재된 메커니즘을 심층적으로 분석하고, 그 한계를 극복하기 위한 대안적인 접근 방식을 제시하는 것을 목표로 합니다.

#Review #Visual Reasoning #Latent Space #Causal Mediation Analysis #Multimodal LLMs #Textual Imagination #Model Interpretation #Latent Tokens

2026년 2월 26일

[논문리뷰] GeoWorld: Geometric World Models

이 논문은 기존 에너지 기반 예측 월드 모델이 유클리드 공간 에서 잠재 표현을 학습하여 기하학적 및 계층적 구조를 무시 하고, 장기 예측 시 성능이 빠르게 저하되는 문제를 해결하고자 합니다.

#Review #Geometric World Models #Hyperbolic Geometry #Joint-Embedding Predictive Architectures (JEPA)#Reinforcement Learning (RL)#Multi-step Planning #Visual Planning #Energy-Based Models

2026년 2월 26일

[논문리뷰] From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

본 논문은 기존의 LMM(Large Multimodal Models) 자가 학습 프레임워크가 겪는 해석 가능한 진단 부족과 시각적 다양성 부족이라는 근본적인 한계를 해결하고자 합니다.

#Review #Large Multimodal Models #Iterative Training #Diagnostic-Driven Learning #Reinforcement Learning #Multimodal Reasoning #Data Generation #Agent Systems

2026년 2월 26일

[논문리뷰] Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

대규모 언어 모델(LLM) 에이전트가 강화 학습(RL) 훈련 시 새로운 상태 발견이 필요한 환경에서 탐색에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 사전 학습된 지식에 의존하여 탐색 능력이 제한되는 한계를 극복하고, 더욱 탐색적이고 일반화 가능한 LLM 기반 에이전트 구축을 목적으로 합니다.

#Review #LLM Agents #Reinforcement Learning #Exploration #Memory Augmentation #Hybrid RL #On-Policy Optimization #Off-Policy Optimization

2026년 2월 26일

[논문리뷰] EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

본 논문은 기존의 고비용 및 스튜디오 의존적인 모션 캡처 시스템의 한계를 극복하고, 일상 환경에서 인간의 행동과 3D 장면 정보를 담은 고품질의 4D 인간-장면 데이터 를 대규모로 수집하는 것을 목표로 합니다.

#Review #Embodied AI #4D Reconstruction #Human-Scene Interaction #iPhone RGB-D #In-the-Wild Mocap #Physics-based Animation #Humanoid Robot Control #Low-Cost Data Collection

2026년 2월 26일

[논문리뷰] Efficient Continual Learning in Language Models via Thalamically Routed Cortical Columns

배포된 언어 모델(LLMs)이 비정상 데이터(non-stationary data) 환경에서 겪는 치명적 망각(catastrophic forgetting) 문제를 해결하고, 기존의 높은 지연 시간, 메모리 사용량, 밀집 연산 문제를 야기하는 지속 학습 방법론의 한계를 극복하고자 합니다.

#Review #Continual Learning #Language Models #Sparse Routing #Cortical Columns #Thalamic Routing #Catastrophic Forgetting #Stability-Plasticity

2026년 2월 26일

[논문리뷰] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

본 연구는 짧은 비디오 데이터로 학습한 모델이 추론 시 긴 길이의 오디오(Long-Form Audio)를 일관성 있고 고품질로 생성할 수 있도록 Video-to-Audio (V2A) 모델의 길이 일반화(Length Generalization) 문제 를 해결하는 것을 목표로 합니다.

#Review #Video-to-Audio Generation #Length Generalization #Multimodal Learning #Mamba Architecture #Hierarchical Networks #Flow Matching #Audio Synthesis

2026년 2월 26일

[논문리뷰] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

기존 제스처 생성 모델이 단일 화자의 오디오에만 초점을 맞추고 사회적 맥락이나 두 화자 간의 상호작용 역학을 무시하여 비현실적이거나 부자연스러운 제스처를 생성하는 문제를 해결하고자 합니다.

#Review #Gesture Generation #Diffusion Transformer (DiT)#Multi-Modal #Dyadic Interaction #Socially Aware AI #Orthogonalization Cross Attention #Motion Dictionary

2026년 2월 26일

[논문리뷰] Causal Motion Diffusion Models for Autoregressive Motion Generation

본 논문은 기존 모션 확산 모델의 인과성 부족과 자기회귀 모델의 불안정성 및 오류 누적 문제를 해결하여, 고품질의 시간적으로 순서가 보장되는(temporally ordered) 모션 생성을 목표로 합니다.

#Review #Motion Generation #Diffusion Models #Autoregressive Models #Causal Modeling #Latent Space #Text-to-Motion #Human Motion Synthesis #Streaming Generation

2026년 2월 26일

[논문리뷰] AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

본 논문은 다중 에이전트 시스템(MAS) 내에서 개별 에이전트의 오류 정보가 하위 에이전트로 연쇄적으로 전파(cascading impact) 되어 전체 태스크 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Information Flow Optimization #Test-Time Rectification #Error Pruning #LLM Agents #Failure-Driven Indicators #Adaptive Reasoning

2026년 2월 26일

[논문리뷰] Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

확산 모델(Diffusion Models)의 높은 계산 비용으로 인한 추론 지연 문제를 해결하고, 기존 분산 병렬화 방식에서 발생하는 생성 아티팩트 및 비례적 가속 한계를 극복하는 것을 목표로 합니다. 특히, 조건부 확산 모델에서 이미지 품질 저하 없이 선형적 가속을 뛰어넘는 추론 속도 향상 을 달성하고자 합니다.

#Review #Diffusion Models #Distributed Parallelism #Conditional Guidance #Adaptive Scheduling #Generative AI #Latency Reduction #Multi-GPU

2026년 2월 26일

[논문리뷰] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

본 논문은 협소하고 정적인 기존 AI 벤치마크의 한계를 극복하고, 인간과 유사한 일반 지능(AGI)을 평가하기 위한 확장 가능하며 개방형의 새로운 접근 방식을 제안합니다. 특히, AI 시스템이 인간이 고안한 모든 게임 을 얼마나 잘 플레이하고 학습하는지를 통해 AGI 역량을 측정하고자 합니다.

#Review #Artificial General Intelligence (AGI)#Evaluation Benchmark #General Game Playing #Large Language Models (LLMs)#Human-in-the-loop #Cognitive Capabilities #Vision-Language Models (VLMs)#Game Generation

2026년 2월 26일

[Triton] 소스 위치의 열 번호 수정

2026년 2월 27일

[triton] WSSpecialize에서 초기화된 Barrier의 Invalidation 추가

WarpSpecialize 패스가 생성한 mbarrier를 사용 후 올바르게 invalidate하여 재사용 시의 하드웨어 정합성 문제를 방지한 사례를 분석합니다.

#Triton #NVIDIA #GPU #WarpSpecialize #Barrier

2026년 2월 26일