Review

[논문리뷰] Web World Models

본 논문은 고정된 컨텍스트의 웹 프레임워크와 완전히 생성형 세계 모델(World Model) 사이의 간극을 메우는 Web World Model (WWM) 개념을 제안합니다. 언어 에이전트가 지속적으로 활동, 기억, 학습할 수 있는 제어 가능하면서도 무한히 확장 가능한 환경 을 구축하는 것이 주된 목표입니다.

#Review #Web World Model #LLM #Neuro-symbolic AI #Procedural Generation #Hybrid Architecture #Deterministic Generation #Persistent Environments #TypeScript

2025년 12월 29일

[논문리뷰] Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

본 논문은 기존 벤치마크들이 텍스트 및 정적 멀티모달 정보 탐색에 초점을 맞추고 동적인 웹 비디오 콘텐츠를 간과하는 문제점을 해결하고자 합니다.

#Review #Agentic AI #Video Understanding #Web Browsing #Benchmark #Multimodal LLMs #Temporal Grounding #Cross-Source Reasoning #Information Seeking

2025년 12월 29일

[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

이 논문은 에이전트가 모호한 자연어 지시를 받아 복잡하고 장거리인 환경에서 특정 객체 인스턴스를 찾아내는 Interactive Instance Object Navigation (IION) 태스크를 도입합니다.

#Review #Embodied AI #Vision and Language Navigation #Instance Object Navigation #Active Dialog #Large Language Models (LLMs)#Benchmark #Human-Robot Interaction

2025년 12월 29일

[논문리뷰] Training AI Co-Scientists Using Rubric Rewards

언어 모델(LLM)이 개방형 연구 목표에 대해 모든 제약 조건을 따르는 고품질 연구 계획을 생성하는 데 어려움을 겪는 문제를 해결합니다. 특히, 느리고 비용이 많이 드는 실험 실행을 통한 검증 없이, 다양한 개방형 연구 목표 에 대한 더 나은 연구 계획 을 생성하도록 모델을 훈련하는 방법을 연구하는 것을 목표로 합니다.

#Review #AI Co-Scientists #Research Plan Generation #Reinforcement Learning (RL)#Self-Grading #Rubric Rewards #Language Models (LLMs)#Scientific Discovery

2025년 12월 29일

[논문리뷰] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling

본 논문은 수술 로봇 학습의 주요 병목인 시각 관측 및 정확한 로봇 움직임 데이터의 부족 문제 를 해결하고자 합니다. 대량의 수술 비디오가 존재하지만 로봇 액션 레이블이 없어 모방 학습에 직접 활용하기 어렵습니다. 따라서, 세계 모델을 통해 일반화 가능하고 데이터 효율적인 수술 로봇 정책 을 학습하는 것을 목표로 합니다.

#Review #Surgical Robotics #World Models #Video Generation #Imitation Learning #Inverse Dynamics Model #Synthetic Data #Vision-Language-Action Models #Data Scarcity

2025년 12월 29일

[논문리뷰] Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion

본 논문은 기존 확산 모델 기반 비디오 초해상화(VSR) 방법들이 높은 지각 품질(perceptual quality)을 제공함에도 불구하고, 미래 프레임 의존성 및 다단계 노이즈 제거 과정으로 인한 높은 지연 시간 때문에 실시간 온라인 적용이 불가능하다는 문제를 해결하고자 합니다.

#Review #Video Super-Resolution #Diffusion Models #Low-Latency #Streamable #Auto-Regressive #Model Distillation #Temporal Consistency #Perceptual Quality

2025년 12월 29일

[논문리뷰] SpotEdit: Selective Region Editing in Diffusion Transformers

본 논문은 기존 Diffusion Transformer 기반 이미지 편집 모델들이 변경되지 않은 영역까지 포함하여 전체 이미지를 일관적으로 처리하고 디노이징하는 방식의 비효율성과 품질 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Image Editing #Selective Editing #Computational Efficiency #Training-Free #Region-Aware #Perceptual Similarity

2025년 12월 29일

[논문리뷰] SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

본 논문은 복잡한 GUI 태스크에서 자율 에이전트 개발을 위한 에이전트 강화 학습( Agentic RL )의 주요 병목인 태스크 완료 검증의 비효율성과 신뢰성 문제 를 해결하고자 합니다.

#Review #Agentic RL #Self-Verifying Agents #GUI Automation #Evidence Curation #LLM-as-a-Judge #Reward Shaping #AndroidLab

2025년 12월 29일

[논문리뷰] Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

이 논문은 3D Gaussian Splatting (3D-GS) 기반의 Open-vocabulary segmentation (OVS)에서 512-차원 CLIP 특징 과 같은 고차원 특징을 효율적으로 렌더링하는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Gaussian Splatting #Open-vocabulary Segmentation #Neural Rendering #High-dimensional Features #Quantile Sampling #Real-time Rendering #Feature Distillation

2025년 12월 29일

[논문리뷰] OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

기존 옴니모달 대규모 언어 모델(OmniLLMs) 이 겪는 미세한 크로스모달 이해(fine-grained cross-modal understanding) 및 멀티모달 정렬(multimodal alignment) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Omnimodal Understanding #Audio-Guided Perception #Active Learning Agents #Cross-Modal Alignment #Tool-Use #Video Understanding #Multimodal LLMs

2025년 12월 29일

[논문리뷰] Nested Browser-Use Learning for Agentic Information Seeking

정보 탐색(IS) 에이전트의 현재 브라우저 도구 사용이 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 국한되어 실제 브라우징을 통한 풍부한 정보 접근이 제한되는 문제를 해결하고자 합니다.

#Review #Agentic Information Seeking #LLM Agents #Browser Automation #Nested Framework #Tool Learning #Context Efficiency #Deep Web

2025년 12월 29일

[논문리뷰] Monadic Context Engineering

본 논문은 현재 AI 에이전트 아키텍처가 겪는 상태 관리, 오류 처리, 동시성 문제로 인한 취약성을 해결하고자 합니다.

#Review #Monads #Functional Programming #AI Agents #State Management #Error Handling #Concurrency #Monad Transformers #Meta-Agents

2025년 12월 29일

[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.

#Review #Real-time Video Generation #Multimodal Diffusion #On-Policy Distillation #Interactive AI Avatars #Video Streaming #Anchor-Heavy Identity Sinks #Lip Synchronization

2025년 12월 29일

[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

본 논문은 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 핵심 구성 요소인 텍스트 인코더의 두 가지 주요 과제를 해결하고자 합니다.

#Review #Text Encoder #Diffusion Models #Text Embedding #Evaluation Benchmark #MLLM Fine-tuning #Layer-wise Weighting #Text-to-Image Generation #Text-to-Video Generation

2025년 12월 29일

[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Vision-Language Models #Vision-Language-Action Models #Robotics #Multimodal AI #Action Planning #Long-Horizon Planning #Bidirectional Attention

2025년 12월 29일

[논문리뷰] Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

본 논문은 투명하거나 반사되는 객체에 대한 깊이 및 법선 추정의 고질적인 문제를 해결하고자 합니다.

#Review #Video Diffusion Model #Depth Estimation #Normal Estimation #Transparent Objects #Robotics #Data Generation #LoRA Fine-tuning

2025년 12월 29일

[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language Models

Diffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Language Models #Post-Training #Reinforcement Learning #GRPO #FlexAttention #LMDeploy #Math Reasoning #SFT

2025년 12월 29일

[논문리뷰] Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

본 논문은 Mixture-of-Experts (MoE) 모델에서 라우터의 결정이 개별 전문가의 실제 역량과 충분히 연동되지 않아 발생하는 성능 한계를 해결하고자 합니다. 라우터와 전문가 간의 약한 결합 문제를 개선하여 모델 성능을 향상시키는 동시에 효율성을 유지하는 가벼운 보조 손실 함수를 제안하는 것이 목표입니다.

#Review #Mixture-of-Experts (MoE)#Router-Expert Coupling #Auxiliary Loss #Expert Specialization #Large Language Models (LLMs)#Computational Efficiency

2025년 12월 29일

[논문리뷰] An Information Theoretic Perspective on Agentic System Design

논문은 에이전트형 언어 모델(LM) 시스템, 특히 컴프레서-프레딕터(compressor-predictor) 아키텍처 의 설계에 대한 체계적인 이해 부족을 해결하고자 합니다.

#Review #Agentic Systems #Language Models #Mutual Information #Rate-Distortion Theory #Compute Efficiency #Scaling Laws #Compressor-Predictor Architecture #On-device AI

2025년 12월 29일

[논문리뷰] Act2Goal: From World Model To General Goal-conditioned Policy

본 논문은 장기 로봇 조작(long-horizon robotic manipulation)에서 기존 목표 조건부 정책(GCP)이 겪는 문제점, 즉 장기 일관성 유지의 어려움과 국소적 교란에 대한 반응성의 부족을 해결하고자 합니다.

#Review #Goal-Conditioned Policy #World Models #Robotic Manipulation #Multi-Scale Temporal Hashing #Online Adaptation #Hindsight Experience Replay #LoRA Finetuning #Zero-shot Generalization

2025년 12월 29일