최신 포스트

[논문리뷰] AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

본 논문은 기존 VLM(Vision-Language Model) 평가의 한계를 극복하고 적응형 멀티모달 추론 능력을 종합적으로 평가하는 벤치마크를 제안합니다.

#Review #Multimodal Reasoning #Adaptive Learning #Vision-Language Models (VLMs)#Benchmarking #Mode Selection #Tool Learning #Reasoning Process Evaluation #Matthews Correlation Coefficient (MCC)

2026년 2월 3일

[논문리뷰] AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

본 논문은 복잡하고 장기적인 AI 태스크를 해결하기 위한 에이전트 시스템에서 동적인 서브 에이전트 생성 및 관리의 한계 를 극복하고자 합니다.

#Review #Agentic Orchestration #Sub-Agent Creation #Language Agents #Dynamic Specialization #Context Management #Tool Use #Large Language Models #Cost-Performance Optimization

2026년 2월 3일

[논문리뷰] 3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

본 논문은 2D driving video로부터 3D 모션을 충실히 재현하면서도 유연한 텍스트 기반 카메라 제어를 지원하는 3D-aware 인간 비디오 생성 을 목표로 합니다.

#Review #Human Video Generation #3D-Aware #Implicit Motion Control #View-Adaptive #Diffusion Models #Motion Encoder #Text-Guided Camera Control

2026년 2월 3일

[논문리뷰] WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora

기존 GraphRAG 벤치마크들이 짧고 정제된 문단에 의존하여 실제와 같은 긴 컨텍스트 및 대규모 이질적 문서 환경에서의 성능 평가에 미흡하다는 문제점을 해결하고자 합니다.

#Review #GraphRAG #Benchmarking #Retrieval-Augmented Generation #Wild-Source Corpora #Multi-document Aggregation #Heterogeneous Data #Wikipedia #Long-Context Reasoning

2026년 2월 2일

[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.

#Review #Deep Research Agents #LLM Evaluation #Wikipedia #Good Articles #Factuality #Writing Quality #Benchmark #Hallucinations #Verifiability

2026년 2월 2일

[논문리뷰] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

본 논문은 기존 멀티모달 딥 리서치 MLLM들이 겪는 히트율 문제(검색 엔진의 노이즈와 불안정성) 및 제한된 추론 깊이/검색 폭 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Deep Research #Agentic AI #Tool Use #Visual Question Answering #Reinforcement Learning #Multi-scale Search

2026년 2월 2일

[논문리뷰] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM) 벤치마크가 시각 검색 중심적이지 않거나 지나치게 이상적인 검색 시나리오 에 의존하여 모델의 실제 시각 및 텍스트 검색 능력을 정확히 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Visual Question Answering #Deep Research #Benchmark #Visual Search #Textual Search #Cropped Search #Evaluation

2026년 2월 2일

[논문리뷰] UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

본 논문은 복잡한 추론과 세계 지식이 필요한 이미지 합성 태스크에서 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Image Generation #Image Editing #World Knowledge #Self-Reflection #Unified Framework #Text-to-Image

2026년 2월 2일

[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language Model

본 논문은 추상적인 시각 정보와 시각적 기억을 요구하는 복잡한 인지 문제에서 멀티모달 대규모 언어 모델(MLLMs) 의 제한된 성능을 개선하는 것을 목표로 합니다. 인간의 시각 공간 스케치패드와 시각적 심상과 유사한 시각적 추론 메커니즘을 MLLM 에 부여하여 인지 능력 격차를 해소하고자 합니다.

#Review #Multimodal Large Language Models #Cognitive Reasoning #Visual Imagery #Latent Representations #Reinforcement Learning #Visual Question Answering #Benchmark

2026년 2월 2일

[논문리뷰] SWE-Universe: Scale Real-World Verifiable Environments to Millions

본 논문은 낮은 생산 수율, 취약한 검증기, 과도한 비용 등 기존의 자동화된 소프트웨어 엔지니어링(SWE) 검증 가능 환경 구축의 문제점을 해결하고자 합니다.

#Review #Software Engineering Environments #LLM Agents #Data Generation #Verifiable Tasks #Multilingual #Reinforcement Learning #Self-Verification #Hacking Detection

2026년 2월 2일

[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning

본 논문은 대규모 언어 모델(LLM)의 사전 훈련 비용을 절감하기 위한 점진적 학습(Progressive Learning, PL)의 핵심 과제인 중간 단계 너비 확장(mid-stage width expansion) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Progressive Learning #Width Expansion #Signal Preservation #Symmetry Breaking #LLM #Training Stability #MoE #RMSNorm

2026년 2월 2일

[논문리뷰] SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

기존 선호도 최적화 방법론, 특히 DPO 및 SimPO 가 겪는 '언러닝(unlearning)'과 '포맷팅 붕괴(formatting collapse)' 문제를 해결하는 것이 주 목표입니다.

#Review #Preference Optimization #LLM Alignment #Direct Preference Optimization #Reference-Free #Likelihood Anchoring #Token Stabilization #Dual-Margin Loss #Unlearning

2026년 2월 2일

[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다.

#Review #Reinforcement Learning #Large Language Models #Agentic AI #Reward Modeling #Environment Adaptation #Closed-loop Optimization #Multimodal Agents

2026년 2월 2일

[논문리뷰] PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss

본 논문은 기존 픽셀 확산 모델이 고차원 픽셀 공간의 지각적으로 중요하지 않은 신호를 학습하는 데 어려움을 겪어 잠재 확산 모델보다 성능이 뒤처지는 문제를 해결하고자 합니다.

#Review #Pixel Diffusion #Perceptual Loss #Latent Diffusion #Image Generation #LPIPS #DINOv2 #x-prediction #End-to-End Generation

2026년 2월 2일

[논문리뷰] PISCES: Annotation-free Text-to-Video Post-Training via Optimal Transport-Aligned Rewards

기존 annotation-free T2V 후처리 학습 방식이 사전 훈련된 Vision-Language Models (VLMs) 의 정렬되지 않은 임베딩에 의존하여 최적의 성능을 달성하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Post-Training #Optimal Transport #Reward Modeling #Annotation-free #Vision-Language Models #Diffusion Models

2026년 2월 2일

[논문리뷰] Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation

기존 텍스트-이미지(T2I) 모델의 한계인 정적인 동작, 암묵적인 사용자 의도 파악 실패, 복잡한 지식 기반 추론 능력 부족을 해결하는 것입니다.

#Review #Agentic Text-to-Image #Multimodal Reasoning #Cognitive Search #Knowledge-Driven Generation #Image Generation Benchmarks #Complex User Intent

2026년 2월 2일

[논문리뷰] Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

본 논문은 기존 토킹 아바타 기술의 한계인 환경 인지 및 텍스트 기반 객체 상호작용 능력 부재 문제를 해결하고자 합니다.

#Review #Talking Avatars #Human-Object Interaction (HOI)#Text-Driven Generation #Diffusion Models #Multimodal Control #Grounded Interaction

2026년 2월 2일

[논문리뷰] Kimi K2.5: Visual Agentic Intelligence

본 논문은 일반 에이전트 지능(general agentic intelligence)을 발전시키기 위해 오픈소스 멀티모달 에이전트 모델 Kimi K2.5 를 소개합니다.

#Review #Multimodal AI #Agentic Intelligence #Vision-Language Models #Parallel Agent Orchestration #Reinforcement Learning #Joint Optimization #Visual Reasoning #Software Engineering

2026년 2월 2일

[논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

이 논문은 기존의 텍스트 기반 이미지 편집 벤치마크의 한계를 극복하고, 스케치, 화살표, 영역 주석 등 시각적 지침(visual instructions) 에 따른 이미지 편집 모델의 성능을 체계적으로 평가하기 위한 벤치마크인 VIBE 를 제안하는 것을 목표로 합니다.

#Review #Visual Instruction #Image Editing #Multimodal Benchmark #LMM-as-a-judge #Deictic Grounding #Morphological Manipulation #Causal Reasoning #Generative Models

2026년 2월 2일

[논문리뷰] Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

본 논문은 로봇 학습의 고질적인 문제인 데이터의 이질성, 낮은 품질, 그리고 행동 모방 (Behavior Cloning, BC)의 장기 태스크 한계를 해결하고자 합니다.

#Review #Vision-Language-Action #Generalist Robots #Staged Training #Reinforcement Learning #Multi-embodiment #Data Quality #Humanoid Robotics #Flow Matching

2026년 2월 2일