Review

[논문리뷰] OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

이 논문은 Vision-Language Model (VLM) 기반 Computer-Using Agents (CUAs) 가 긴 작업 흐름에서 견고성 을 유지하고 새로운 도메인으로 일반화 하는 데 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Computer-Using Agent (CUA)#Multi-Agent Framework #Long-horizon Tasks #Memory Management #Multimodal Retrieval #Reflection #Generalization

2026년 1월 12일

[논문리뷰] MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era

본 논문은 인터랙티브하고 자율적인 AI 에이전트의 대규모 훈련 및 평가를 위한 기존 인프라의 한계를 해결하고자 합니다.

#Review #Agentic AI #Distributed Orchestration #Scalability #Cloud-Native #Reinforcement Learning #Software Engineering Agents #Resource Management

2026년 1월 12일

[논문리뷰] MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

Transformer의 핵심 모듈인 Self-Attention의 2차 시간 복잡성 으로 인한 확장성 문제를 해결하고자 합니다.

#Review #Linear Attention #Multi-Head Attention #Transformer #Global Context Collapse #Representational Diversity #Image Generation #NLP #Video Generation

2026년 1월 12일

[논문리뷰] Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

현재 AI 연구는 '정돈된' 벤치마크에 의존하지만, 실제 환경의 본질적인 노이즈를 반영하지 못해 에이전트 AI 시스템의 실제 성능을 오해하게 만듭니다.

#Review #Robustness #Contextual Distractors #RAG #Reasoning Models #Alignment #Tool Use #NoisyBench #Rationale-Aware Reward #Inverse Scaling

2026년 1월 12일

[논문리뷰] GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

대규모 추론 모델(LRMs)의 다단계 사고 체인 생성에서 발생하는 막대한 추론 지연 및 계산 비용 문제를 해결하는 것이 목표입니다. 기존 협업 추론 방식들이 도입하는 비효율적인 오버헤드를 줄이면서, 각 추론 단계의 난이도를 효과적으로 예측하여 적절한 모델(경량 또는 대규모)을 할당하는 방법을 모색합니다.

#Review #Collaborative Inference #Large Reasoning Models (LRMs)#Inference Latency #Step-wise Routing #Initial Token Entropy #Dynamic Routing #Computational Efficiency

2026년 1월 12일

[논문리뷰] ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

LLM 기반의 Tool-Integrated Reasoning (TIR) 에이전트가 정확도에만 집중하여 발생하는 비효율적인 행동 패턴(예: 중복되거나 불충분한 도구 호출) 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#Agent Behavior Calibration #Reinforcement Learning (RL)#Self-Evolving Data Flywheel #Action Space Exploration #Behavioral Efficiency

2026년 1월 12일

[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.

#Review #Generative World Models #Autonomous Driving #Video Generation #Benchmark #Evaluation Metrics #Trajectory Prediction #Temporal Consistency #Data Diversity

2026년 1월 12일

[논문리뷰] Dr. Zero: Self-Evolving Search Agents without Training Data

본 논문은 기존 멀티턴 검색 에이전트의 데이터 없는 자기 진화 과정에서 발생하는 제한적인 질문 다양성과 다단계 추론 및 도구 사용에 필요한 막대한 컴퓨팅 자원 문제를 해결하는 것을 목표로 합니다.

#Review #Self-Evolution #Search Agents #Large Language Models (LLMs)#Data-Free Learning #Reinforcement Learning (RL)#Hop-Grouped Relative Policy Optimization (HRPO)#Question Answering #Multi-hop Reasoning

2026년 1월 12일

[논문리뷰] Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction

본 논문은 장기적인 인간-에이전트 상호작용에서 LLM 기반 에이전트가 겪는 메모리 앵커링(Memory Anchoring) 문제(과거 상호작용에 과도하게 갇히는 현상)와 메모리 활용 부족 문제를 해결하고자 합니다.

#Review #Long-Term Human-Agent Interaction #Controllable Memory #Memory Anchoring #Large Language Models (LLMs)#Personalization #Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Memory Dependence

2026년 1월 12일

[논문리뷰] Boosting Latent Diffusion Models via Disentangled Representation Alignment

Latent Diffusion Models (LDMs)의 핵심 구성 요소인 Variational Autoencoders (VAEs)가 기존처럼 픽셀 단위 재구성에만 초점을 맞추거나, LDM과 동일한 상위 수준의 의미론적 정렬 대상을 사용하는 한계를 지적합니다.

#Review #Latent Diffusion Models #Variational Autoencoders #Disentangled Representations #Vision Foundation Models #Representation Alignment #Image Generation #Semantic Disentanglement

2026년 1월 12일

[논문리뷰] Beyond Hard Masks: Progressive Token Evolution for Diffusion Language Models

대부분의 확산 언어 모델(DLMs)이 사용하는 경직된 이진 마스킹 과 이산 토큰 할당 의 한계를 극복하고, 초기 결정의 수정 불가 및 중간 확률적 표현의 활용 미흡 문제를 해결하는 것을 목표로 합니다. 이를 통해 점진적이고 재수정 가능한 디코딩 을 지원하는 새로운 확산 기반 언어 모델을 제안하고자 합니다.

#Review #Diffusion Language Models #Masked Diffusion #Soft Tokens #Progressive Decoding #Iterative Refinement #Continuous Trajectory Supervision #KV-Caching #Blockwise Diffusion

2026년 1월 12일

[논문리뷰] BabyVision: Visual Reasoning Beyond Language

최신 멀티모달 대규모 언어 모델(MLLMs)이 고수준의 지식 기반 과제에서는 탁월하지만, 3세 아동도 쉽게 해결하는 기본적인 시각적 추론 과제에서 실패하는 근본적인 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Benchmark #Early Vision #Spatial Perception #Visual Tracking #Pattern Recognition #Generative Models

2026년 1월 12일

[논문리뷰] Are LLM Decisions Faithful to Verbal Confidence?

대규모 언어 모델(LLM)이 자체 불확실성을 표현하는 '언어적 자신감'이 모델의 실제 추론, 지식 또는 의사 결정에 얼마나 충실한지 평가하는 것을 목표로 합니다. 특히, LLM이 다양한 오류 페널티에 반응하여 질문 응답 또는 기권 정책을 전략적으로 조정하는지 여부를 테스트합니다.

#Review #Large Language Model #Uncertainty Quantification #Verbal Confidence #Abstention #Decision-Making #Risk-Sensitive AI #Utility Maximization

2026년 1월 12일

[논문리뷰] VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

비디오 생성 분야에서 Diffusion 및 Flow-Matching 모델 의 높은 계산 비용과 확장성 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Autoregressive Models #Next-Frame Prediction #Multi-scale Prediction #Temporal Consistency #Visual Autoregressive #Error Propagation

2026년 1월 11일

[논문리뷰] Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

기존 대규모 시각-언어 모델(LVLM) 기반 지리 위치 특정(Geolocalization) 방법론이 지도 활용이라는 인간의 일반적인 전략을 간과하고 내부 추론에만 의존하는 한계를 극복하고자 합니다.

#Review #Geolocalization #LVLM #Map-Augmented Agent #Reinforcement Learning #Parallel Test-Time Scaling #Tool Use #MAPBench

2026년 1월 11일

[논문리뷰] SmartSearch: Process Reward-Guided Query Refinement for Search Agents

대규모 언어 모델(LLM) 기반 검색 에이전트의 중간 검색 쿼리 품질이 낮아 예기치 않은 검색 결과와 전체 성능 저하로 이어지는 문제를 해결하는 것입니다.

#Review #Search Agent #Information Retrieval #Large Language Models #Process Reward #Query Refinement #Reinforcement Learning #Curriculum Learning

2026년 1월 11일

[논문리뷰] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking

본 논문은 텍스트, 이미지, 문서 이미지, 비디오 등 다양한 양식의 데이터를 통합 하여 고정밀 멀티모달 검색을 수행하는 Qwen3-VL-Embedding 및 Qwen3-VL-Reranker 모델 시리즈를 소개합니다.

#Review #Multimodal Retrieval #Multimodal Ranking #Foundation Models #Embedding Models #Reranking Models #Contrastive Learning #Knowledge Distillation #Matryoshka Representation Learning #Quantization-Aware Training

2026년 1월 11일

[논문리뷰] Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning

현재 LLM 에이전트 메모리 시스템이 주로 사용하는 평면적인 정보 저장 방식과 단순 유사성 기반 검색의 한계를 극복하는 것이 목표입니다.

#Review #LLM Agents #Agent Memory #Event Graph #Long-term Reasoning #Knowledge Graph #Active Retrieval #Event Segmentation #Multi-hop QA

2026년 1월 11일

[논문리뷰] Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals

기존 비디오 생성 '월드 모델'이 복잡한 물리적 작업을 위한 정확한 목표를 지정하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #World Models #Physics-Conditioned Goals #Causal Planning #Force Vectors #Zero-Shot Generalization #Diffusion Models #Robotics Planning

2026년 1월 11일

[논문리뷰] GenCtrl -- A Formal Controllability Toolkit for Generative Models

본 연구는 생성 모델의 제어 가능성(controllability)이 암묵적으로 가정되는 현 상황을 비판하며, 모델이 실제로 얼마나 제어 가능한지에 대한 이론적 프레임워크 를 제공하는 것을 목표로 합니다.

#Review #Generative Models #Controllability #Reachability #Control Theory #Dialogue Systems #LLMs #T2IMs #PAC Bounds #Formal Verification

2026년 1월 11일