[논문리뷰] VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics본 논문은 사용자 의도 중심의 10가지 범주, 149개의 작업, 그리고 80개의 환경 변이를 포함하는 VenusBench-Mobile을 제안한다. 에이전트의 실패 원인을 세밀하게 분석하기 위해 PUDAM 역량 분류 체계를 도입하여 각 작업의 난이도를 4단계(Level 1-4)로 구분하였다.#Review#Mobile GUI Agents#User-Centric Benchmark#Capability Diagnostics#Human-Computer Interaction#Performance Evaluation#Robustness2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Tunable Soft Equivariance with Guarantees본 논문은 기존의 엄격한 등가성 설계가 실제 데이터의 노이즈나 변형에 유연하게 대응하지 못해 모델의 표현력(Expressiveness)을 저하시키는 문제를 해결하고자 합니다.#Review#Soft Equivariance#Group Equivariance#Weight Projection#Tunable#Equivariance Error#Vision Transformers#Canonicalization2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning본 논문은 통합된 Multimodal 모델인 BAGEL-7B를 기반으로, 텍스트 토큰과 비주얼 토큰을 Autoregressively 생성하는 Process-Driven 아키텍처를 구축하였다 . 제안 모델은 4단계 루프(Plan → Sketch → Inspect → Refine)를 통해 각 단계에서 생성된 중간 비주얼 상태를 스스로 평가하고 수정한다.#Review#Multimodal Foundation Models#Process-Driven Generation#Interleaved Reasoning#Chain-of-Thought#Visual Grounding#Image Generation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning저자들은 Star Graph 환경에서의 경로 탐색 과제를 통해 모델의 Latent Planning 성능을 정밀하게 제어하며 평가하였다. 모델은 경로의 첫 번째 노드를 예측하도록 학습되며, 중간 단계에 대한 감독은 전혀 제공되지 않는다.#Review#Large Language Models#Latent Planning#Strategy Discovery#Chain-of-Thought#Depth Ceiling#Path-finding#Implicit Reasoning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders본 논문은 Deep Compression 오토인코더에서 발생하는 잠재 표현의 붕괴(Latent Representation Collapse) 문제를 해결하여 생성 성능을 개선하고자 합니다.#Review#Vision Transformer#Deep Compression#Autoencoder#Latent Diffusion Models#Token Scaling#Staged Token Compression#Self-Supervised Learning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] SEVerA: Verified Synthesis of Self-Evolving Agents본 연구는 FGGM을 핵심으로 하는 3단계 프레임워크인 SEVerA를 제안합니다. 첫째, Search 단계에서 Planner LLM이 로컬 제약 조건이 설정된 FGGM 기반의 Parametric Program을 합성합니다.#Review#LLM Agents#Automated Verification#Deductive Program Synthesis#Formally Guarded Generative Models#Constraint-Guided Synthesis2026년 4월 8일댓글 수 로딩 중
[논문리뷰] RAGEN-2: Reasoning Collapse in Agentic RL본 논문은 Mutual Information (MI) 기반의 진단 프레임워크와 SNR-Aware Filtering 기법을 제안한다. 연구진은 추론 품질을 Within-input diversity (Entropy)와 Cross-input distinguishability (MI)로 분해하여, 학습 과정에서 MI 프록시를 통해 템플릿 붕괴를 조기에 탐지한다 .#Review#Agentic RL#Reasoning Collapse#Mutual Information#Signal-to-Noise Ratio#Reward Variance#Template Collapse2026년 4월 8일댓글 수 로딩 중
[논문리뷰] R3PM-Net: Real-time, Robust, Real-world Point Matching Network본 논문은 기존 딥러닝 기반 PCR 방법론들이 합성 데이터셋 위주로 개발되어 실세계 산업 환경의 노이즈와 데이터 결함에 취약하다는 문제를 해결하고자 합니다.#Review#Point Cloud Registration#Real-time#Feature Extraction#Industrial Automation#Event-camera#Robustness2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Qualixar OS: A Universal Operating System for AI Agent Orchestration본 논문은 에이전트 워크플로우의 실행, 품질 보증, 모델 라우팅을 통합 관리하는 12단계 오케스트레이션 파이프라인과 Forge 엔진을 제안합니다 . Forge는 LLM 기반의 메타 인지 설계를 통해 태스크에 최적화된 에이전트 팀을 구성하며, 12가지의 다양한 실행 토폴로지를 제공하여 유연한 에이전트 협업을 구현합니다.#Review#Multi-agent Systems#Agent Orchestration#LLM Operating System#Topology Execution#Model Routing#Goodhart Detection#Behavioral Contracts2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models본 논문은 Q-Zoom이라는 2단계 적응형 프레임워크를 통해 시각적 인지 효율성을 개선한다. 첫 번째 단계인 Dynamic Gating Network는 consistency-aware 훈련 전략을 통해 고해상도 처리가 불필요한 쿼리를 식별하여 우회함으로써 불필요한 계산을 줄인다.#Review#Multimodal Large Language Models#Efficient Perception#Dynamic Gating#Region Proposal Network#Self-Distillation#High-Resolution Adaptation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization본 논문은 기존의 RM 벤치마크가 개인의 고유한 요구사항을 고려하지 못하고, 하류 작업(Downstream tasks)에서의 실제 성능 개선과 약한 상관관계를 보인다는 문제를 해결하기 위해 Personalized RewardBench 를 제안한다.#Review#Personalized RewardBench#Reward Modeling#Pluralistic Alignment#User Profile#Downstream Validation#Best-of-N#PPO2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Neural Computers본 논문은 최신 비디오 생성 모델인 Wan2.1을 기반으로 인터페이스별 특화된 데이터 엔진과 학습 레시피를 적용하여 CLI와 GUI 환경에서의 NC 프로토타입을 구축하였다. 모델은 주어진 입력을 통해 latent state를 업데이트하고 다음 프레임을 생성하는 update-and-render 루프를 수행한다.#Review#Neural Computer#World Models#Interactive Video Generation#Latent Runtime State#CNC#CLI/GUI Interfaces2026년 4월 8일댓글 수 로딩 중
[논문리뷰] MoRight: Motion Control Done Right본 논문은 기존 비디오 생성 모델이 가진 카메라와 객체 동작의 얽힘(Entanglement) 문제와 인과 관계 추론의 부재를 해결하기 위해 MoRight 를 제안한다. 기존 연구들은 픽셀 기반의 트래킹 신호를 사용하므로 카메라 이동 시 모든 객체의 픽셀 궤적이 변하는 한계가 있어 정교한 동시 제어가 어렵다.#Review#Video Generation#Disentangled Motion Control#Causal Motion Reasoning#Motion Dropout#Dual-stream Generation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] MARS: Enabling Autoregressive Models Multi-Token Generation본 논문은 기존의 AR 모델이 추론 시 토큰을 하나씩 생성함에 따라 발생하는 불필요한 컴퓨팅 자원 낭비 문제를 해결하고자 한다.#Review#MARS#Autoregressive Model#Multi-Token Generation#Inference Acceleration#Block-Masked Prediction#Instruction-tuned LLM2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Learning to Hint for Reinforcement Learning본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.#Review#Reinforcement Learning#Large Language Models#Reasoning#Hint Generation#Advantage Collapse#Transferability2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment본 논문은 기존의 CLIR 평가 방식이 실제 다국어 환경에서의 모델 성능과 잠재적인 언어 편향성을 충분히 측정하지 못한다는 문제를 지적한다.#Review#Cross-Lingual Information Retrieval#Semantic Alignment#Jensen-Shannon Divergence#InfoNCE#Multilingual Embedding Models#Language Bias2026년 4월 8일댓글 수 로딩 중
[논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling본 논문은 기존의 비디오 생성 모델들이 장기적인 공간 일관성을 유지하지 못하고 실시간 대화형 내비게이션을 지원하는 데 한계가 있다는 문제점을 해결하고자 합니다.#Review#World Model#Spatiotemporal Autoregressive#Diffusion Transformer#Camera Control#Distribution Matching Distillation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching본 논문은 기존 multimodal generation이 언어 모델 중심의 파이프라인에 의존하여 vision의 자체적인 추론 및 생성 능력이 제한되는 문제를 해결하고자 한다.#Review#Multimodal Generation#Flow Matching#Visual Prompts#Image-in Image-out#Visual Instruction Following#VisPrompt-5M#VP-Bench2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Fast Spatial Memory with Elastic Test-Time Training본 논문은 기존 LaCT 기반의 4D 재구성 모델이 추론 중 겪는 불안정한 학습 및 과적합(overfitting) 문제를 해결하고자 합니다.#Review#4D Reconstruction#Test-Time Training#Elastic Weight Consolidation#Spatial Memory#Novel View Synthesis#Large Chunk Adaptation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling본 논문은 탐색(exploration)과 최적화(optimization)를 분리한 Sol-RL이라는 2단계(two-stage) 프레임워크를 제안합니다 . 1단계에서는 고도로 최적화된 NVFP4 추론을 통해 방대한 후보군을 빠르게 생성하여 상대적 보상 순위를 매기고, 상위 및 하위의 contrastive subset을 선별합니다.#Review#Diffusion Models#Reinforcement Learning#FP4 Quantization#Rollout Scaling#Alignment#Efficiency#Two-stage Framework2026년 4월 8일댓글 수 로딩 중