[논문리뷰] LPM 1.0: Video-based Character Performance Model본 논문은 정체성 인식 다중 참조 추출과 오디오-비디오 페어링이 포함된 고품질 데이터셋을 구축하고, 이를 기반으로 Diffusion Transformer 모델을 학습시켰습니다. 모델은 Base LPM을 통해 정체성을 보존하며, 이를 Online LPM으로 증류하여 낮은 지연 시간 내에 무한한 길이의 스트리밍 영상을 생성합니다.#Review#Large Performance Model#Full-Duplex#Diffusion Transformer#Identity-Consistent#Real-Time Inference#Streaming Generation#LPM-Bench2026년 4월 9일댓글 수 로딩 중
[논문리뷰] KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent EvaluationGuocheng Shao이 arXiv에 게시한 'KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#Mobile Agent#Personalization#Proactive Assistance#Interactive Benchmarking#User Simulation#GUI Automation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language ModelsarXiv에 게시된 'ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Implicit Memory#LLM Agents#Procedural Memory#Priming#Classical Conditioning#Benchmark#Behavioral Adaptation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents본 논문은 모달리티 적응형 컴퓨팅을 위한 MoT 아키텍처와 비전-언어 연결을 강화하는 Visual Latent Tokens를 핵심 방법론으로 제안합니다 . 시각적 인지 능력 향상을 위해 HY-ViT 2.0 인코더를 탑재하고, 고품질 embodied 데이터를 활용한 반복적인 사후 학습 패러다임을 설계했습니다.#Review#Embodied Foundation Models#Mixture-of-Transformers#Visual Latent Tokens#On-policy Distillation#Chain-of-Thought#Real-world Agents2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent SkillsarXiv에 게시된 'Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills' 논문에 대한 자세한 리뷰입니다.#Review#Agentic AI#Skill Retrieval#Graph-based Retrieval#Structural Dependency#Personalized PageRank#LLM Agents2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs InferencearXiv에 게시된 'Flux Attention: Context-Aware Hybrid Attention for Efficient LLMs Inference' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Long-context Inference#Hybrid Attention#Dynamic Routing#Layer-level Sparsity#Context-aware2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy OptimizationarXiv에 게시된 'Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Constrained Policy Optimization#Chain-of-Thought#Visual Spatial Reasoning#Lagrangian Relaxation#Faithfulness2026년 4월 9일댓글 수 로딩 중
[논문리뷰] FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-OnarXiv에 게시된 'FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On' 논문에 대한 자세한 리뷰입니다.#Review#Virtual Try-On#Diffusion Model#Sim2Real#Dataset#Fit-Awareness#Physics Simulation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering저자들은 에이전트의 역량을 Memory(상태의 외부화), Skills(절차적 전문성의 외부화), Protocols(상호작용 구조의 외부화)라는 세 가지 차원으로 구분하여 분석한다 . Memory는 Working Context, Episodic 경험, Semantic 지식, 개인화된 기억을 통해 모델이 에피소드 간 연속성을 유지하도록 돕는다.#Review#LLM Agents#Externalization#Memory#Skills#Protocols#Harness Engineering#Cognitive Artifacts2026년 4월 9일댓글 수 로딩 중
[논문리뷰] DMax: Aggressive Parallel Decoding for dLLMs본 논문은 dLLM을 위한 DMax 패러다임을 제안하며, 이는 예측의 self-refinement 과정을 임베딩 공간 내의 변환으로 재구성합니다. 핵심 기법인 OPUT은 학습 시 모델 스스로의 예측을 통해 noisy input을 구성함으로써 train-inference 간의 불일치를 줄여 자가 수정 능력을 극대화합니다 .#Review#Diffusion Language Models#Parallel Decoding#Error Accumulation#On-Policy Training#Self-Correction#Embedding Space2026년 4월 9일댓글 수 로딩 중
[논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?본 논문은 실제 웹사이트에서 안전하게 에이전트를 평가하기 위해 5계층 기록 인프라와 최종 요청 인터셉션 메커니즘을 결합한 ClawBench를 제안한다 . 이 프레임워크는 인간 전문가가 수행한 경로를 Ground-truth로 삼고, 에이전트가 수행한 전체 경로를 동일한 환경에서 기록한 뒤 Agentic Evaluator를 통해 비교 평가한다 .#Review#AI Agents#Web Benchmarking#Write-heavy Tasks#Real-world Interaction#Agentic Evaluator#Trajectory Recording2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic SearchGuohua Liu이 arXiv에 게시한 'Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Search#Reinforcement Learning#Hierarchical Experience#Policy Optimization#Contrastive Distillation#Self-Reflection2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Automating Database-Native Function Code Synthesis with LLMsDBCooker는 크게 Function Characterization, Function Synthesis Operations, Adaptive Tool Orchestration의 세 가지 핵심 모듈을 통해 합성 정확도를 극대화합니다. 첫째, 그래프 기반 분석을 통해 필요한 함수 단위를 식별하고 필수 레퍼런스를 추출합니다.#Review#Database-Native Function#Code Synthesis#Large Language Models#Function Characterization#Adaptive Orchestration#Pseudo-plan Generation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly DetectorsarXiv에 게시된 'AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors' 논문에 대한 자세한 리뷰입니다.#Review#Zero-Shot Anomaly Detection#Vision Foundation Models#Synthetic Data Generation#LoRA#Confidence-Weighted Loss2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models본 논문은 HDPO 프레임워크를 제안하여 태스크 정확도와 도구 효율성을 orthogonal하게 최적화합니다. 제안 방법론은 accuracy 채널과 efficiency 채널을 명확히 분리하며, efficiency 채널은 오직 정확한 결과를 도출한 경로(trajectory) 내에서만 도구 사용을 최소화하도록 조건부 advantage를 계산합니다 .#Review#Multimodal Large Language Models#Agentic Systems#Reinforcement Learning#Hierarchical Decoupled Policy Optimization#Meta-Cognitive Tool Use#Efficiency#Reasoning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics본 논문은 사용자 의도 중심의 10가지 범주, 149개의 작업, 그리고 80개의 환경 변이를 포함하는 VenusBench-Mobile을 제안한다. 에이전트의 실패 원인을 세밀하게 분석하기 위해 PUDAM 역량 분류 체계를 도입하여 각 작업의 난이도를 4단계(Level 1-4)로 구분하였다.#Review#Mobile GUI Agents#User-Centric Benchmark#Capability Diagnostics#Human-Computer Interaction#Performance Evaluation#Robustness2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Tunable Soft Equivariance with GuaranteesRaymond A. Yeh이 arXiv에 게시한 'Tunable Soft Equivariance with Guarantees' 논문에 대한 자세한 리뷰입니다.#Review#Soft Equivariance#Group Equivariance#Weight Projection#Tunable#Equivariance Error#Vision Transformers#Canonicalization2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning본 논문은 통합된 Multimodal 모델인 BAGEL-7B를 기반으로, 텍스트 토큰과 비주얼 토큰을 Autoregressively 생성하는 Process-Driven 아키텍처를 구축하였다 . 제안 모델은 4단계 루프(Plan → Sketch → Inspect → Refine)를 통해 각 단계에서 생성된 중간 비주얼 상태를 스스로 평가하고 수정한다.#Review#Multimodal Foundation Models#Process-Driven Generation#Interleaved Reasoning#Chain-of-Thought#Visual Grounding#Image Generation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning저자들은 Star Graph 환경에서의 경로 탐색 과제를 통해 모델의 Latent Planning 성능을 정밀하게 제어하며 평가하였다. 모델은 경로의 첫 번째 노드를 예측하도록 학습되며, 중간 단계에 대한 감독은 전혀 제공되지 않는다.#Review#Large Language Models#Latent Planning#Strategy Discovery#Chain-of-Thought#Depth Ceiling#Path-finding#Implicit Reasoning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression AutoencodersZiyuan Huang이 arXiv에 게시한 'TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders' 논문에 대한 자세한 리뷰입니다.#Review#Vision Transformer#Deep Compression#Autoencoder#Latent Diffusion Models#Token Scaling#Staged Token Compression#Self-Supervised Learning2026년 4월 8일댓글 수 로딩 중