Review

[논문리뷰] On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

본 논문은 범용적인 기초 모델을 넘어 수백만 명의 개인별 요구사항을 지속적으로 반영할 수 있는 '개인화된 모델(Personal Models)'의 확장성 문제를 해결하고자 합니다.

#Review #PEFT #LoRA #Personal Models #Reinforcement Learning #MoE #Infrastructure #Scaling Laws

2026년 6월 1일

[논문리뷰] Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

본 연구는 대형 모델의 추론 성능을 소형 모델에서 효율적으로 모사하기 위한 기존 추론 기법들의 한계를 해결하고자 합니다.

#Review #Mathematical Reasoning #Large Language Models #Process Reward Model #Inference-time Guidance #Chunk-Level Generation #Likelihood Scoring #Training-Free

2026년 6월 1일

[논문리뷰] Not only where, But when: Temporal Scheduling for RLVR

본 논문은 기존 RLVR 방법론에서 사용되는 Stagnant Credit Allocation 기법들이 가지는 최적화의 경직성 문제를 해결하고자 합니다. 대다수의 기존 연구는 특정 토큰을 강조하는 기준을 학습 내내 일관되게 적용하여, 시퀀스 내에 존재하는 이질적인 정책 행동(Reasoning scaffolding vs.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Large Language Models (LLMs)#Temporal Scheduling #Credit Allocation #Trajectory Percentile Score (TP-Score)#Policy Optimization

2026년 6월 1일

[논문리뷰] NITP: Next Implicit Token Prediction for LLM Pre-training

본 논문은 표준적인 NTP가 잠재 표현(latent representation)에 대해 충분한 기하학적 제약을 제공하지 못한다는 문제를 해결하고자 한다.

#Review #LLM Pre-training #Next Implicit Token Prediction #Representation Geometry #Representation Degeneration #Self-supervised Learning #MoE #Representation Expressivity

2026년 6월 1일

[논문리뷰] Multi-Agent Computer Use

본 논문은 현대의 CUA들이 주로 단일 직렬 에이전트 방식으로 운용됨에 따라 복잡하고 긴 호흡의 작업에서 한계를 보인다는 점을 해결하고자 합니다. 기존 방식은 작업 분해, 병렬 실행, 새로운 정보에 기반한 재계획이 부족하여 긴 작업 수행 시 쉽게 정체되는 문제를 겪습니다.

#Review #Multi-Agent System #Computer Use Agent #DAG #Task Decomposition #Parallel Execution #Replanning

2026년 6월 1일

[논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft

본 논문은 MLLM 에이전트의 진정한 오픈 월드 탐색 능력을 객관적으로 평가할 수 있는 통제된 프레임워크가 부족하다는 점을 해결하고자 한다. 기존의 게임 기반 벤치마크들은 특정 게임 메커니즘에 지나치게 의존하거나, 상호작용의 범위가 단기적인 작업에 국한되어 에이전트의 장기적인 탐색 능력을 측정하기 어렵다는 한계가 있다 .

#Review #MLLM Agents #Open-World Exploration #Minecraft #Embodied AI #Benchmark #Task Synthesis #Multi-Agent Workflow

2026년 6월 1일

[논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching

본 논문은 기존의 Output-level 메트릭이 모델 내부의 잔존 지식을 탐지하는 데 한계가 있다는 문제점을 제기합니다. 최근 연구들은 화이트박스 접근법을 통해 모델 내부의 지식 잔존을 확인하고 있으나, 데이터셋이나 보조 학습에 의존하여 범용적인 비교 지표가 부재한 상황입니다.

#Review #LLM Unlearning #Activation Patching #Model Privacy #Mechanistic Interpretability #White-box Evaluation #Faithfulness #Robustness

2026년 6월 1일

[논문리뷰] Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism

본 논문은 에이전트의 장기 궤적에서 발생하는 문맥 과부하 문제를 해결하기 위한 Observation Masking 기법이 특정 조건에서만 유효하게 작동하는 근본적인 이유를 규명하고자 합니다.

#Review #Agentic Search #Context Management #Observation Masking #Retriever-Model Mismatch #Model Saturation

2026년 6월 1일

[논문리뷰] MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

본 논문은 기존의 에이전트 벤치마크가 범용 도구 사용에만 집중되어 있어, 실제 사용자의 계정 및 로컬 데이터와 밀접하게 연동되는 개인화된 앱에서의 성능을 평가하지 못하는 문제를 해결하고자 한다.

#Review #Model Context Protocol #LLM Agents #Personalized Applications #Environment Simulation #Benchmarking #Tool-Traverse

2026년 6월 1일

[논문리뷰] LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation

본 논문은 Autoregressive(AR) 비디오 생성 모델에서 장기 생성 시 발생하는 오류 누적과 identity drift 문제를 해결하고자 합니다. 기존 방식은 효율성을 위해 Sliding-window Attention에만 의존하며, 생성된 초기 Latent를 폐기하거나 고정된 앵커(anchor)만을 사용합니다 .

#Review #Long Video Generation #Autoregressive #Retrieval-Augmented Generation #Video Diffusion #Temporal Consistency #Attention

2026년 6월 1일

[논문리뷰] LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning

본 논문은 Large Language Models (LLMs)의 long-context inference에서 발생하는 memory 및 compute cost 증가 문제를 해결하고자 한다.

#Review #Context Compression #Long-Context Reasoning #Large Language Models #Fine-Tuning #Cross-Attention #Code Reasoning #Cross-Family Generalization #Two-Stage Training

2026년 6월 1일

[논문리뷰] Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs

본 논문은 현대의 다중 모델(multi-provider) 생태계에서 기존의 LLM 워터마킹 기술이 근본적으로 취약하다는 점을 지적합니다. 기존 연구들은 공격자가 단일 모델에만 접근할 수 있다는 가정하에 설계되었으나, 실제로는 사용자가 여러 frontier LLM을 자유롭게 사용할 수 있는 환경이 조성되어 있습니다.

#Review #Watermarking #LLM #Ensemble #Distributional Perturbation #WASH #Attribution

2026년 6월 1일

[논문리뷰] LVSA: Training-Free Sparse Attention for Long Video Diffusion

본 논문은 video diffusion transformers의 긴 영상 생성 과정에서 발생하는 dense self-attention의 연산 효율성 저하와 품질 저하 문제를 해결합니다.

#Review #Video Diffusion Transformers #Sparse Attention #Long Video Generation #Training-Free #FlashInfer #Attention Optimization

2026년 6월 1일

[논문리뷰] K-BrowseComp: A Web Browsing Agent Benchmark Grounded in Korean Contexts

본 논문은 최신 Frontier 모델들이 Agentic Capability 평가로 패러다임을 전환하고 있음에도 불구하고, 한국어 환경에 특화된 브라우징 에이전트 벤치마크가 부재하다는 문제 의식에서 출발합니다.

#Review #Web Browsing Agent #Korean Contexts #Agentic Benchmark #Information Retrieval #Multi-hop Reasoning #Synthetic Data Generation

2026년 6월 1일

[논문리뷰] Joint Agent Memory and Exploration Learning via Novelty Signals

본 논문은 LLM 기반 에이전트가 개방형 환경에서 효율적인 탐색을 수행하지 못하는 문제를 해결하고자 합니다. 기존 에이전트는 환경과의 상호작용 기록이 길어짐에 따라 전체 기록을 유지하는 데 발생하는 막대한 계산 비용과 메모리 저장 공간 문제에 직면해 있습니다.

#Review #Agent Memory #Exploration #Novelty Signals #GUI Agents #Latency #Token Efficiency #Latent Memory

2026년 6월 1일

[논문리뷰] Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

본 연구는 기존 검색 에이전트들이 semantic 검색 결정과 복잡한 상태 관리(bookkeeping)를 동시에 수행함에 따라 발생하는 학습의 비효율성과 성능 저하 문제를 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Reinforcement Learning #Stateful Harness #Cognitive Offloading #Search Agents

2026년 6월 1일

[논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers

본 연구는 기존 VQA 벤치마크들이 주로 서구권의 데이터나 단순한 합성 차트에 편향되어 있어, 일본의 공식 행정 문서와 같이 복잡한 레이아웃과 높은 Domain-Specific 지식을 요구하는 자료에 대한 평가가 부족하다는 점을 해결하고자 합니다.

#Review #VQA #Japanese #Document AI #Multimodal LLMs #Chart Understanding #Table Reasoning #Benchmark

2026년 6월 1일

[논문리뷰] FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search

본 논문은 기존의 Agentic Search 모델들이 겪는 정답의 희소성 문제와 기존 Test-Time Compute scaling 기법들이 가진 신뢰성 한계를 해결하고자 합니다.

#Review #Agentic Search #Test-Time Compute #Self-Verification #Fine-Grained #LLM #Benchmark Auditing

2026년 6월 1일

[논문리뷰] EVA01: Unified Native 3D Understanding and Generation via Mixture-of-Transformers

본 논문은 기존의 Diffusion 기반 3D 생성 모델들이 의미론적 이해(semantic understanding)와 기하학적 추론(geometric reasoning)을 분리하여 처리함으로써 발생하는 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Mixture-of-Transformers #3D Native Generation #Context-aware Editing #Flow Matching #Sparse Voxel Representation

2026년 6월 1일

[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization

본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.

#Review #Reinforcement Learning #Large Language Models #Proximal Policy Optimization #Early Stopping #Reasoning #Compute Efficiency #Credit Assignment

2026년 6월 1일