최신 포스트

[논문리뷰] VisualClaw: A Real-Time, Personalized Agent for the Physical World

본 논문은 현재 VLM 기반 에이전트 배포의 세 가지 핵심 격차를 해결하고자 합니다 . 첫째, Dense Video Frame 처리에 따른 높은 Latency와 API 호출 비용 문제입니다. 둘째, 배포 후 에이전트의 구조(Scaffold)가 정적으로 고정되어 적응력이 떨어진다는 점입니다.

#Review #Multimodal Agent #Vision Language Models #VisualClaw #Hybrid Encoding #Skill Evolution #Streaming Video #Agentic Benchmark

2026년 6월 15일

[논문리뷰] VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

본 논문은 3B 파라미터 규모의 소형 모델(SLM)이 대형 모델(LLM)의 전유물로 여겨지던 최전선 수준의 논리적 추론 능력을 달성할 수 있는지 검증하고자 한다.

#Review #Small Language Models #Verifiable Reasoning #Reinforcement Learning #Parametric Compression-Coverage Hypothesis #Reasoning-Knowledge Decoupling #Test-time Scaling

2026년 6월 15일

[논문리뷰] Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

본 논문은 독립적인 random seed로 학습된 SAE들이 왜 서로 다른 feature 세트를 학습하는지, 즉 feature의 비재현성(non-reproducibility) 문제를 해결하고자 합니다.

#Review #Sparse Autoencoders #Feature Stability #Mechanistic Interpretability #Seed Dependence #Subspace Analysis #Functional Asymmetry

2026년 6월 15일

[논문리뷰] UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

본 논문은 기존의 Multimodal 모델들이 Understanding과 Generation이라는 서로 다른 과업을 수행할 때 겪는 효율성 저하와 아키텍처 불일치 문제를 해결하기 위해 고안되었습니다.

#Review #Multimodal Understanding #Generation #Diffusion Transformer #Decoupled Architecture #Unified Framework

2026년 6월 15일

[논문리뷰] TuneJury: An Open Metric for Improving Music Generation Preference Alignment

본 논문은 음악 생성 시스템의 평가와 선호도 정렬(Preference Alignment) 과정에서 기존 자동화 메트릭이 갖는 한계를 해결하고자 합니다.

#Review #Reward Model #Music Generation #Preference Alignment #Pairwise Comparison #Text-to-Music #Anchor Calibration

2026년 6월 15일

[논문리뷰] TokenPilot: Cache-Efficient Context Management for LLM Agents

본 논문은 LLM 에이전트의 세션이 길어짐에 따라 발생하는 컨텍스트 누적과 이로 인한 기하급수적인 추론 비용 문제를 해결하고자 합니다. 기존의 텍스트 가지치기(Pruning)나 동적 메모리 제거 기법들은 시퀀스의 레이아웃을 임의로 변경하여 프롬프트 접두사의 연속성을 깨뜨립니다.

#Review #LLM Agents #Context Management #Prompt Caching #KV Cache #Inference Cost #Ingestion-Aware Compaction #Lifecycle-Aware Eviction

2026년 6월 15일

[논문리뷰] The Ghosts of Polymarket: When Off-Chain Matches Meet On-Chain Reverts

본 논문은 예측 시장 플랫폼 Polymarket에서 발생하는 'Ghost Fills' 문제를 체계적으로 분석하여, 하이브리드 아키텍처가 가진 구조적 취약점을 증명합니다.

#Review #Polymarket #DeFi #Ghost Fills #Cancellation Attack #Hybrid Architecture #Smart Contract Security #MEV

2026년 6월 15일

[논문리뷰] Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

본 논문은 Multi-turn LLM serving 시 발생하는 선형적인 KV Cache 증가 문제를 해결하기 위해 도입된 Non-uniform KV Cache Compression이, 기존의 시스템 소프트웨어 스택과 충돌하여 발생하는 심각한 효율성 저하 문제를 지적합니다.

#Review #LLM Serving #KV Cache Compression #Non-uniform Compression #PagedAttention #Deterministic Scheduling #AOT Load Balancing

2026년 6월 15일

[논문리뷰] Selective Control under Noisy Perception: Governance Failures Hidden by Aggregate Metrics in Modular Networks

본 논문은 현대의 콘텐츠 중재 시스템이 표준적인 Aggregate Metrics에서는 우수한 성능을 보이는 것처럼 보이나, 실제로는 네트워크의 중심적 역할을 하는 교량 노드에서 심각한 거버넌스 실패를 야기할 수 있다는 문제를 제기합니다 .

#Review #Governance Failures #Modular Networks #Noisy Classification #Bridge Nodes #Governance Loss #Algorithmic Content Moderation #Stochastic Block Model

2026년 6월 15일

[논문리뷰] SP^3: Spherical Priors for Plug-and-Play Restoration

본 논문은 기존의 Diffusion 및 Flow 기반 생성 모델을 활용한 zero-shot 이미지 복원 기법들이 추론 시 계산량이 많고 gradient 계산이 필수적이라는 한계를 해결하고자 합니다.

#Review #Plug-and-Play #Image Restoration #Spherical Encoder #Manifold Projection #Half-Quadratic Splitting #Anytime Generation #Gradient-free

2026년 6월 15일

[논문리뷰] Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time

본 논문은 VLA 정책을 새로운 태스크에 확장할 때 발생하는 데이터 수집 및 컴퓨팅 자원의 비효율성 문제를 해결하고자 합니다. 기존 연구(Baseline)는 새로운 태스크마다 고가의 Teleoperation 데이터를 수집하고, 모델 전체를 Fine-tuning하는 과정이 필수적이어서 확장성이 낮다는 한계가 있습니다.

#Review #Robot foundation models #World-action models #Retrieval-augmented policies #Vision-language-action models

2026년 6월 15일

[논문리뷰] Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

본 연구는 로봇 공학에서 파편화된 행동 표현과 도메인별 시뮬레이션의 한계를 극복하기 위해 통합된 언어 기반의 월드 모델링을 제안한다. 기존 모델들은 특정 도메인(예: 조작, 주행)에 과적합되어 있거나 로봇 의존적인 제어 인터페이스를 요구하여 범용적인 로봇 학습 환경으로 사용하기 어렵다는 한계가 있다.

#Review #Embodied Intelligence #World Model #Video Generation #Language-Conditioned Action #Double-Stream MMDiT #Embodied World Knowledge

2026년 6월 15일

[논문리뷰] Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

본 논문은 복잡한 추론을 위해 필수적인 Chain-of-Thought (CoT)가 초래하는 높은 Latency와 연산 비용 문제를 해결하기 위해 고안되었습니다.

#Review #Prompt-Level Distillation #Non-Parametric #Chain-of-Thought #System Prompt #Reasoning Transfer #Inference Efficiency

2026년 6월 15일

[논문리뷰] PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

본 연구는 기존 모바일 에이전트 평가가 지나치게 GUI 제어 중심의 task 수행에만 집중되어 있어 실제 사용자 워크플로우를 반영하지 못한다는 한계를 해결하고자 합니다.

#Review #Phone Agents #Mixed-Action Space #GUI Control #CLI #Tool-Use #Verifiable Execution #Safety Evaluation

2026년 6월 15일

[논문리뷰] PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory

본 논문은 카메라 제어 비디오 생성에서 편집 작업(예: 스타일 변환, 객체 수정) 후 시간 및 시점 간의 일관성을 유지하는 문제를 해결합니다.

#Review #Video Generation #Context Memory #Disentangled Representation #Edit-aware #Consistency #Long-term Generation #Spatial Memory

2026년 6월 15일

[논문리뷰] OneRank: Unified Transformer-Native Ranking Architecture for Multi-Task Recommendation

본 논문은 현대의 Transformer 기반 다중 작업 추천 모델들이 여전히 Encoder-Predictor 구조를 답습하고 있어, 근본적인 성능 한계와 확장성 제약에 직면해 있음을 지적합니다 .

#Review #Recommender Systems #Multi-Task Learning #Transformer #Ranking #Representation Learning #Gradient Interference #Information Bottleneck

2026년 6월 15일

[논문리뷰] Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

본 논문은 대규모 언어 모델의 추론 효율성과 복잡한 Agentic Reasoning 능력 사이의 상충 관계를 해결하기 위해 Nemotron 3 Ultra를 제안합니다. 기존의 거대 밀집(Dense) 모델들은 높은 성능을 보이지만, 대규모 컴퓨팅 자원을 요구하여 실시간 추론에 한계가 있습니다.

#Review #Mixture-of-Experts #Mamba-Transformer #Agentic-Reasoning #Hybrid-Architecture #State-Space-Models

2026년 6월 15일

[논문리뷰] Memento: Reconstruct to Remember for Consistent Long Video Generation

본 논문은 장기 비디오 생성 시 인물의 정체성이 시간이 지남에 따라 왜곡되거나 소실되는 문제를 해결하고자 한다 . 기존의 시간적 분해(Temporal Decomposition) 기반 모델들은 차기 샷(Next-shot)의 시각적 연속성만을 최적화할 뿐, 인물의 정체성을 보존하기 위한 명시적 신호가 부족하다는 한계가 있다.

#Review #Long Video Generation #Subject Consistency #Diffusion Models #Memory Bank #Identity Grounding #Autoregressive Generation

2026년 6월 15일

[논문리뷰] MVEB: Massive Video Embedding Benchmark

기존 비디오 벤치마크는 단일 Task에 초점을 맞추어 모델의 일반 목적 비디오 표현 품질을 평가하기 어렵게 만들며, 이는 fragmented landscape를 초래합니다.

#Review #Video Embeddings #Benchmark #Multimodal Learning #Zero-Shot Classification #Retrieval #MTEB #Audio-Visual

2026년 6월 15일

[논문리뷰] MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

본 논문은 Frozen Diffusion Transformer 백본으로부터 Dense한 Perceptual 정보(Semantic segmentation, depth, saliency 등)를 효과적으로 추출하여 Multi-modal 생성 시스템으로 확장하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Multi-Modal Generation #Multi-Timestep Feature Fusion #Concept-Driven Attention #Synthetic Data Generation #Frozen Backbone

2026년 6월 15일