Review

[논문리뷰] Automating Database-Native Function Code Synthesis with LLMs

DBCooker는 크게 Function Characterization, Function Synthesis Operations, Adaptive Tool Orchestration의 세 가지 핵심 모듈을 통해 합성 정확도를 극대화합니다. 첫째, 그래프 기반 분석을 통해 필요한 함수 단위를 식별하고 필수 레퍼런스를 추출합니다.

#Review #Database-Native Function #Code Synthesis #Large Language Models #Function Characterization #Adaptive Orchestration #Pseudo-plan Generation

2026년 4월 9일

[논문리뷰] AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

본 논문은 기존의 Zero-Shot 이상 탐지 연구가 VLM (Vision-Language Models)에 의존하는 경향이 있어, 시각적 표현력이 뛰어난 순수 VFM 의 잠재력을 충분히 활용하지 못한다는 점을 문제로 지적합니다.

#Review #Zero-Shot Anomaly Detection #Vision Foundation Models #Synthetic Data Generation #LoRA #Confidence-Weighted Loss

2026년 4월 9일

[논문리뷰] Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

본 논문은 HDPO 프레임워크를 제안하여 태스크 정확도와 도구 효율성을 orthogonal하게 최적화합니다. 제안 방법론은 accuracy 채널과 efficiency 채널을 명확히 분리하며, efficiency 채널은 오직 정확한 결과를 도출한 경로(trajectory) 내에서만 도구 사용을 최소화하도록 조건부 advantage를 계산합니다 .

#Review #Multimodal Large Language Models #Agentic Systems #Reinforcement Learning #Hierarchical Decoupled Policy Optimization #Meta-Cognitive Tool Use #Efficiency #Reasoning

2026년 4월 9일

[논문리뷰] VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics

본 논문은 사용자 의도 중심의 10가지 범주, 149개의 작업, 그리고 80개의 환경 변이를 포함하는 VenusBench-Mobile을 제안한다. 에이전트의 실패 원인을 세밀하게 분석하기 위해 PUDAM 역량 분류 체계를 도입하여 각 작업의 난이도를 4단계(Level 1-4)로 구분하였다.

#Review #Mobile GUI Agents #User-Centric Benchmark #Capability Diagnostics #Human-Computer Interaction #Performance Evaluation #Robustness

2026년 4월 8일

[논문리뷰] Tunable Soft Equivariance with Guarantees

본 논문은 기존의 엄격한 등가성 설계가 실제 데이터의 노이즈나 변형에 유연하게 대응하지 못해 모델의 표현력(Expressiveness)을 저하시키는 문제를 해결하고자 합니다.

#Review #Soft Equivariance #Group Equivariance #Weight Projection #Tunable #Equivariance Error #Vision Transformers #Canonicalization

2026년 4월 8일

[논문리뷰] Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

본 논문은 통합된 Multimodal 모델인 BAGEL-7B를 기반으로, 텍스트 토큰과 비주얼 토큰을 Autoregressively 생성하는 Process-Driven 아키텍처를 구축하였다 . 제안 모델은 4단계 루프(Plan → Sketch → Inspect → Refine)를 통해 각 단계에서 생성된 중간 비주얼 상태를 스스로 평가하고 수정한다.

#Review #Multimodal Foundation Models #Process-Driven Generation #Interleaved Reasoning #Chain-of-Thought #Visual Grounding #Image Generation

2026년 4월 8일

[논문리뷰] The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

저자들은 Star Graph 환경에서의 경로 탐색 과제를 통해 모델의 Latent Planning 성능을 정밀하게 제어하며 평가하였다. 모델은 경로의 첫 번째 노드를 예측하도록 학습되며, 중간 단계에 대한 감독은 전혀 제공되지 않는다.

#Review #Large Language Models #Latent Planning #Strategy Discovery #Chain-of-Thought #Depth Ceiling #Path-finding #Implicit Reasoning

2026년 4월 8일

[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

본 논문은 Deep Compression 오토인코더에서 발생하는 잠재 표현의 붕괴(Latent Representation Collapse) 문제를 해결하여 생성 성능을 개선하고자 합니다.

#Review #Vision Transformer #Deep Compression #Autoencoder #Latent Diffusion Models #Token Scaling #Staged Token Compression #Self-Supervised Learning

2026년 4월 8일

[논문리뷰] SEVerA: Verified Synthesis of Self-Evolving Agents

본 연구는 FGGM을 핵심으로 하는 3단계 프레임워크인 SEVerA를 제안합니다. 첫째, Search 단계에서 Planner LLM이 로컬 제약 조건이 설정된 FGGM 기반의 Parametric Program을 합성합니다.

#Review #LLM Agents #Automated Verification #Deductive Program Synthesis #Formally Guarded Generative Models #Constraint-Guided Synthesis

2026년 4월 8일

[논문리뷰] RAGEN-2: Reasoning Collapse in Agentic RL

본 논문은 Mutual Information (MI) 기반의 진단 프레임워크와 SNR-Aware Filtering 기법을 제안한다. 연구진은 추론 품질을 Within-input diversity (Entropy)와 Cross-input distinguishability (MI)로 분해하여, 학습 과정에서 MI 프록시를 통해 템플릿 붕괴를 조기에 탐지한다 .

#Review #Agentic RL #Reasoning Collapse #Mutual Information #Signal-to-Noise Ratio #Reward Variance #Template Collapse

2026년 4월 8일

[논문리뷰] R3PM-Net: Real-time, Robust, Real-world Point Matching Network

본 논문은 기존 딥러닝 기반 PCR 방법론들이 합성 데이터셋 위주로 개발되어 실세계 산업 환경의 노이즈와 데이터 결함에 취약하다는 문제를 해결하고자 합니다.

#Review #Point Cloud Registration #Real-time #Feature Extraction #Industrial Automation #Event-camera #Robustness

2026년 4월 8일

[논문리뷰] Qualixar OS: A Universal Operating System for AI Agent Orchestration

본 논문은 에이전트 워크플로우의 실행, 품질 보증, 모델 라우팅을 통합 관리하는 12단계 오케스트레이션 파이프라인과 Forge 엔진을 제안합니다 . Forge는 LLM 기반의 메타 인지 설계를 통해 태스크에 최적화된 에이전트 팀을 구성하며, 12가지의 다양한 실행 토폴로지를 제공하여 유연한 에이전트 협업을 구현합니다.

#Review #Multi-agent Systems #Agent Orchestration #LLM Operating System #Topology Execution #Model Routing #Goodhart Detection #Behavioral Contracts

2026년 4월 8일

[논문리뷰] Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models

본 논문은 Q-Zoom이라는 2단계 적응형 프레임워크를 통해 시각적 인지 효율성을 개선한다. 첫 번째 단계인 Dynamic Gating Network는 consistency-aware 훈련 전략을 통해 고해상도 처리가 불필요한 쿼리를 식별하여 우회함으로써 불필요한 계산을 줄인다.

#Review #Multimodal Large Language Models #Efficient Perception #Dynamic Gating #Region Proposal Network #Self-Distillation #High-Resolution Adaptation

2026년 4월 8일

[논문리뷰] Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

본 논문은 기존의 RM 벤치마크가 개인의 고유한 요구사항을 고려하지 못하고, 하류 작업(Downstream tasks)에서의 실제 성능 개선과 약한 상관관계를 보인다는 문제를 해결하기 위해 Personalized RewardBench 를 제안한다.

#Review #Personalized RewardBench #Reward Modeling #Pluralistic Alignment #User Profile #Downstream Validation #Best-of-N #PPO

2026년 4월 8일

[논문리뷰] Neural Computers

본 논문은 최신 비디오 생성 모델인 Wan2.1을 기반으로 인터페이스별 특화된 데이터 엔진과 학습 레시피를 적용하여 CLI와 GUI 환경에서의 NC 프로토타입을 구축하였다. 모델은 주어진 입력을 통해 latent state를 업데이트하고 다음 프레임을 생성하는 update-and-render 루프를 수행한다.

#Review #Neural Computer #World Models #Interactive Video Generation #Latent Runtime State #CNC #CLI/GUI Interfaces

2026년 4월 8일

[논문리뷰] MoRight: Motion Control Done Right

본 논문은 기존 비디오 생성 모델이 가진 카메라와 객체 동작의 얽힘(Entanglement) 문제와 인과 관계 추론의 부재를 해결하기 위해 MoRight 를 제안한다. 기존 연구들은 픽셀 기반의 트래킹 신호를 사용하므로 카메라 이동 시 모든 객체의 픽셀 궤적이 변하는 한계가 있어 정교한 동시 제어가 어렵다.

#Review #Video Generation #Disentangled Motion Control #Causal Motion Reasoning #Motion Dropout #Dual-stream Generation

2026년 4월 8일

[논문리뷰] MARS: Enabling Autoregressive Models Multi-Token Generation

본 논문은 기존의 AR 모델이 추론 시 토큰을 하나씩 생성함에 따라 발생하는 불필요한 컴퓨팅 자원 낭비 문제를 해결하고자 한다.

#Review #MARS #Autoregressive Model #Multi-Token Generation #Inference Acceleration #Block-Masked Prediction #Instruction-tuned LLM

2026년 4월 8일

[논문리뷰] Learning to Hint for Reinforcement Learning

본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning #Hint Generation #Advantage Collapse #Transferability

2026년 4월 8일

[논문리뷰] Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment

본 논문은 기존의 CLIR 평가 방식이 실제 다국어 환경에서의 모델 성능과 잠재적인 언어 편향성을 충분히 측정하지 못한다는 문제를 지적한다.

#Review #Cross-Lingual Information Retrieval #Semantic Alignment #Jensen-Shannon Divergence #InfoNCE #Multilingual Embedding Models #Language Bias

2026년 4월 8일

[논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

본 논문은 기존의 비디오 생성 모델들이 장기적인 공간 일관성을 유지하지 못하고 실시간 대화형 내비게이션을 지원하는 데 한계가 있다는 문제점을 해결하고자 합니다.

#Review #World Model #Spatiotemporal Autoregressive #Diffusion Transformer #Camera Control #Distribution Matching Distillation

2026년 4월 8일