Review

[논문리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery

본 연구는 단일 이미지로부터 강건한 전신 3D 인체 메시 복원(HMR) 을 목표로 하는 SAM 3D Body (3DB) 모델을 제안합니다. 특히, 도전적인 자세, 심각한 폐색, 그리고 흔치 않은 시점 등 다양한 실제 환경 조건에서 기존 HMR 모델의 낮은 견고성 및 부정확성을 개선하고자 합니다.

#Review #Human Mesh Recovery (HMR)#Full-Body Pose Estimation #Promptable Models #Momentum Human Rig (MHR)#Data Engine #Encoder-Decoder #Robustness #3D Vision

2026년 2월 18일

[논문리뷰] Optimizing Few-Step Generation with Adaptive Matching Distillation

본 논문은 Distribution Matching Distillation (DMD) 과정에서 발생하는 'Forbidden Zones'으로 인한 불안정성과 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Knowledge Distillation #Few-Step Generation #Adaptive Matching #Forbidden Zones #Generative Models #Sample Quality #Training Stability

2026년 2월 18일

[논문리뷰] Multi-agent cooperation through in-context co-player inference

다중 에이전트 강화 학습(MARL)에서 자기 이익을 추구하는 에이전트 간의 협력을 유도하는 근본적인 문제를 해결하고자 합니다.

#Review #Multi-Agent Reinforcement Learning #In-Context Learning #Cooperation #Sequence Models #Opponent Shaping #Iterated Prisoner's Dilemma #Predictive Policy Improvement

2026년 2월 18일

[논문리뷰] MMA: Multimodal Memory Agent

롱-호라이즌 멀티모달 에이전트의 메모리 검색 시 발생하는 오래되거나, 신뢰도가 낮거나, 상충되는 정보로 인한 과신 오류 및 안전 문제를 해결하는 것이 목표입니다. 특히 에이전트가 노이즈가 많고, 정보가 불안정하며, 모순적인 기억에 직면했을 때의 신뢰성 부족을 극복하고자 합니다.

#Review #Multimodal AI #Memory-Augmented Agents #Reliability Assessment #Epistemic Prudence #RAG Systems #Confidence Scoring #Belief Dynamics #Multimodal Conflict

2026년 2월 18일

[논문리뷰] MAEB: Massive Audio Embedding Benchmark

오디오 임베딩 모델의 평가 프로토콜이 파편화되어 모델 비교 및 의미 있는 진척도 추적에 어려움이 있는 문제를 해결하고자 합니다. 이를 위해 광범위하고 통일된 평가 프레임워크 인 MAEB(Massive Audio Embedding Benchmark) 를 구축하여 범용 오디오 임베딩 모델 개발을 촉진하는 것을 목표로 합니다.

#Review #Audio Embedding #Benchmark #Multimodal #Zero-shot Classification #Clustering #Representation Learning #MTEB Ecosystem #Cross-modal Audio-Text #Multilingual Audio

2026년 2월 18일

[논문리뷰] Learning Situated Awareness in the Real World

본 논문은 기존의 멀티모달 파운데이션 모델(MFM) 벤치마크들이 환경 중심의 공간 관계에만 초점을 맞추고, 에이전트의 시점, 자세, 움직임에 따른 관찰자 중심의 상황 인식(situated awareness) 을 간과하는 문제점을 해결하고자 합니다.

#Review #Situated Awareness #Egocentric Vision #Spatial Reasoning #Multimodal Foundation Models #Video Understanding #Benchmark #Real-world Data

2026년 2월 18일

[논문리뷰] Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

본 연구는 인간형 로봇이 온보드 센서만을 사용하여 새로운 객체를 새로운 환경에서 자율적으로 로코-조작(loco-manipulate) 하는 능력을 개발하는 것을 목표로 합니다. 특히, 정확한 엔드-이펙터(EE) 제어 와 오픈-보케뷸러리 대규모 시각 모델 을 통한 장면 이해의 일반화라는 핵심 난제를 해결하고자 합니다.

#Review #Humanoid Robotics #End-Effector Control #Loco-Manipulation #Open-Vocabulary Perception #Visual Generalization #Sim2Real Transfer #Residual Learning #Robot Grasping

2026년 2월 18일

[논문리뷰] Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality

본 논문은 대규모 언어 모델(LLM)의 사실성(factuality) 오류 원인을 '지식 누락(encoding failure, empty shelves)'과 '인코딩된 사실 접근 제한(recall failure, lost keys)'으로 구분하여 명확히 규명하는 것을 목표로 합니다.

#Review #LLM Factuality #Knowledge Profiling #Encoding vs. Recall #WikiProfile Benchmark #Inference-time Computation #Reversal Curse #Long-tail Knowledge #Parametric Knowledge

2026년 2월 18일

[논문리뷰] BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models

기존 로봇 조작 벤치마크가 주로 단일 팔 조작에 국한되어 양팔 조작에 필수적인 공간-시간적 조정, 동적 역할 할당, 자가 충돌 방지 등의 복잡성을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Bimanual Manipulation #MLLMs #Robotics Benchmark #Spatial Reasoning #Action Planning #End-Effector Control #Embodied AI #Multimodal LLMs

2026년 2월 18일

[논문리뷰] Visual Persuasion: What Influences Decisions of Vision-Language Models?

본 연구는 Vision-Language Model (VLM) 이 시각적 요인에 의해 의사결정에 어떻게 영향을 받는지 체계적으로 이해하는 것을 목표로 합니다.

#Review #Vision-Language Models #Visual Persuasion #Prompt Optimization #Image Generation #AI Agent Behavior #Interpretability #Behavioral Evaluation

2026년 2월 17일

[논문리뷰] UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

본 논문은 기존 통합 멀티모달 모델들이 단일 패스로만 작동하여 반복적인 개선 없이 출력을 생성하는 한계를 지적합니다. 복잡한 공간 구성, 다중 객체 상호작용, 진화하는 지침 등 다단계 추론과 자가 수정이 필요한 멀티모달 작업에서 이러한 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal AI #Chain-of-Thought #Test-time Scaling #Unified Models #Iterative Reasoning #Image Generation #Visual Reasoning #Self-Correction

2026년 2월 17일

[논문리뷰] Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

멀티모달 모델에서 생성 능력과 이해 능력 향상이 서로 상충되는 '최적화 딜레마'를 해결하는 것을 목표로 합니다. 생성과 이해가 경쟁적 목표가 아닌 시너지를 발휘하도록 하여, 강력한 생성 성능과 개선된 이해 능력을 동시에 달성하는 통합 프레임워크를 제시합니다.

#Review #Multimodal Models #Generative AI #Understanding #Reason-Reflect-Refine (R3)#Reinforcement Learning (RL)#Text-to-Image Generation #Optimization Dilemma #Image Editing

2026년 2월 17일

[논문리뷰] Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

본 논문은 Sparse Autoencoders (SAEs)가 신경망의 활성화를 해석 가능한 희소 특징으로 분해하는 데 있어 실제로 의미 있는 특징을 학습하는지 여부를 체계적으로 평가하는 것을 목표로 합니다.

#Review #Sparse Autoencoders #Interpretability #Neural Network Internals #Evaluation Baselines #Feature Decomposition #LLMs #Mechanistic Interpretability

2026년 2월 17일

[논문리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 훈련 불안정성, 특히 후반부 성능 저하 문제를 해결하는 것을 목표로 합니다. 기존 RL 미세 조정 방식이 엔트로피 정규화나 가중치 재조정과 같은 휴리스틱에 의존하여 불안정한 훈련을 겪는 근본적인 원인을 밝히고 이를 개선하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Training Stability #Policy Optimization #Spurious Tokens #Entropy Regularization #Gradient Modulation

2026년 2월 17일

[논문리뷰] Revisiting the Platonic Representation Hypothesis: An Aristotelian View

본 논문은 신경망 표현의 유사성을 측정하는 기존 지표들이 모델의 폭(width) 과 깊이(depth) 에 의해 체계적으로 왜곡된다는 문제를 제기하며, Platonic Representation Hypothesis 의 타당성을 재검토하는 것을 목표로 합니다.

#Review #Representational Similarity #Null Calibration #Permutation Testing #Confounder #Neural Network Representation #Platonic Representation Hypothesis #Aristotelian Representation Hypothesis

2026년 2월 17일

[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI Research

AI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.

#Review #LLM Agents #AI Research #Benchmark #Closed-loop Research #Agent Evaluation #Reproducibility #Real-world Tasks

2026년 2월 17일

[논문리뷰] Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

언어 모델의 실제 배포 시점에 다양한 후처리(post-training) 절차와 시간적 영향으로 인해 발생하는 예측 불가능성을 해결하고자 합니다.

#Review #Prescriptive Scaling #Language Models #Capability Boundaries #Quantile Regression #Scaling Laws #Temporal Stability #I-Optimal Design #Benchmark Saturation

2026년 2월 17일

[논문리뷰] On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

대규모 언어 모델(LLM) 학습에 주로 사용되는 밀집형 적응적 옵티마이저의 한계에 도전하고, 무작위 업데이트 마스킹이 최적화 성능을 향상시킬 수 있음을 입증하는 것이 목표입니다. 특히, 모멘텀-그래디언트 정렬을 활용하는 새로운 마스킹 기법인 Magma 를 제안하여 LLM 훈련의 안정성과 일반화 성능을 개선하고자 합니다.

#Review #Adaptive Optimizers #Gradient Masking #LLM Training #Geometric Regularization #Momentum Alignment #RMSProp #Perplexity #Deep Learning

2026년 2월 17일

[논문리뷰] Learning Native Continuation for Action Chunking Flow Policies

본 논문은 Vision-Language-Action (VLA) 모델에서 액션 청킹(action chunking) 시 발생하는 청크 경계의 불연속성 문제를 해결하고자 합니다.

#Review #Action Chunking #Flow-based Policies #Trajectory Continuation #Robotics #Vision-Language-Action (VLA)#Denoising Dynamics #Schedule-shaped Guidance #Real-time Control

2026년 2월 17일

[논문리뷰] Geometry-Aware Rotary Position Embedding for Consistent Video World Model

본 논문은 카메라 제어가 가능한 시각적 월드 모델(predictive visual world models)이 긴 궤적(long trajectories)에서 안정적인 장면 구조를 유지하지 못하고 기하학적 표류(geometric drift)를 겪는 문제 를 해결하는 것을 목표로 합니다.

#Review #Video World Model #Generative AI #Transformer #Positional Encoding #3D Consistency #View Synthesis #Sparse Attention #Loop Closure

2026년 2월 17일