[논문리뷰] Silent Failures in Physical AI: A Literature Review of Runtime Action Authorization for Autonomous Systems본 논문은 블랙박스 형태의 Physical AI 모델이 생성한 행동이 물리적 실행으로 이어지기 전, 적절한 검증이 이루어지지 않아 발생하는 '행동 승인 공백(Action-Authorization Gap)' 문제를 다룹니다.#Review#Physical AI#Runtime Guardrails#Embodied AI#Vision-Language-Action Models#Silent Failures#Runtime Assurance2026년 6월 1일댓글 수 로딩 중
[논문리뷰] SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models본 연구는 기존의 VFMs 평가 방식이 복잡한 객체 간의 관계와 의미적 대응(semantic correspondence) 능력을 충분히 검증하지 못한다는 한계에서 출발합니다.#Review#Vision Foundation Models#Semantic Correspondence#Benchmark#Object-Centric Representation#Transfer Learning#Feature Extraction2026년 6월 1일댓글 수 로딩 중
[논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes본 논문은 기존 VLM 벤치마크가 현실의 물리적 환경에서 발생하는 다양한 시각적 스트레스를 제대로 반영하지 못한다는 점을 해결하고자 합니다.#Review#Vision-Language Models#Embodied AI#Robustness#Physical Visual Stress#Benchmark#Inverse Graphics#Test-Time Rectification2026년 6월 1일댓글 수 로딩 중
[논문리뷰] RoboSemanticBench: Diagnosing Semantic Grounding in Action Prediction for VLA Models본 논문은 현대의 VLA 모델들이 학습 과정에서 진정한 의미적 이해보다는 시각적 혹은 지시어-행동 간의 통계적 Shortcut에 의존하는 문제를 해결하고자 한다 . 저자들은 기존의 로봇 학습 벤치마크들이 단순한 형태의 명령어를 사용하여 모델의 진정한 의미론적 추론 능력을 검증하지 못하고 있다고 지적한다.#Review#Vision-Language-Action Models#Embodied AI#Semantic Grounding#Action Prediction#Robotics Benchmark#Instruction-following2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Policy and World Modeling Co-Training for Language Agents본 논문은 LLM Agent가 표준 RL 학습 과정에서 보상 최적화에만 치중하여 환경의 결과 예측 능력을 결여하는 문제를 해결합니다. 기존 연구들은 별도의 시뮬레이터나 복잡한 다단계 학습, 혹은 추론 시 추가 연산을 요구하여 시스템 복잡도를 높이는 한계가 있었습니다.#Review#Language Agents#Reinforcement Learning#World Modeling#Co-Training#On-policy RL#Clipped MAE#Reward-adaptive Loss2026년 6월 1일댓글 수 로딩 중
[논문리뷰] PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding본 논문은 기존의 elastic vision-token compression 방식들이 가진 근본적인 표현력 한계를 극복하고자 한다.#Review#Vision-Language Models#Token Compression#Elastic Inference#Matryoshka Representation Learning#Pool-Conditioned Query Resampling#Efficient Multimodal Learning2026년 6월 1일댓글 수 로딩 중
[논문리뷰] OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents본 연구는 시각적 웹 에이전트(visual web agents)의 학습을 위해 사용되는 기존의 supervised post-training 방식이 가진 확장성 한계와 고비용 데이터를 해결하고자 합니다.#Review#Online Reinforcement Learning#Visual Web Agents#Multimodal Multi-turn GRPO#Live Website Interaction#Scalable Training Framework2026년 6월 1일댓글 수 로딩 중
[논문리뷰] On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters본 논문은 범용적인 기초 모델을 넘어 수백만 명의 개인별 요구사항을 지속적으로 반영할 수 있는 '개인화된 모델(Personal Models)'의 확장성 문제를 해결하고자 합니다.#Review#PEFT#LoRA#Personal Models#Reinforcement Learning#MoE#Infrastructure#Scaling Laws2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning본 연구는 대형 모델의 추론 성능을 소형 모델에서 효율적으로 모사하기 위한 기존 추론 기법들의 한계를 해결하고자 합니다.#Review#Mathematical Reasoning#Large Language Models#Process Reward Model#Inference-time Guidance#Chunk-Level Generation#Likelihood Scoring#Training-Free2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Not only where, But when: Temporal Scheduling for RLVR본 논문은 기존 RLVR 방법론에서 사용되는 Stagnant Credit Allocation 기법들이 가지는 최적화의 경직성 문제를 해결하고자 합니다. 대다수의 기존 연구는 특정 토큰을 강조하는 기준을 학습 내내 일관되게 적용하여, 시퀀스 내에 존재하는 이질적인 정책 행동(Reasoning scaffolding vs.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Large Language Models (LLMs)#Temporal Scheduling#Credit Allocation#Trajectory Percentile Score (TP-Score)#Policy Optimization2026년 6월 1일댓글 수 로딩 중
[논문리뷰] NITP: Next Implicit Token Prediction for LLM Pre-training본 논문은 표준적인 NTP가 잠재 표현(latent representation)에 대해 충분한 기하학적 제약을 제공하지 못한다는 문제를 해결하고자 한다.#Review#LLM Pre-training#Next Implicit Token Prediction#Representation Geometry#Representation Degeneration#Self-supervised Learning#MoE#Representation Expressivity2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Multi-Agent Computer Use본 논문은 현대의 CUA들이 주로 단일 직렬 에이전트 방식으로 운용됨에 따라 복잡하고 긴 호흡의 작업에서 한계를 보인다는 점을 해결하고자 합니다. 기존 방식은 작업 분해, 병렬 실행, 새로운 정보에 기반한 재계획이 부족하여 긴 작업 수행 시 쉽게 정체되는 문제를 겪습니다.#Review#Multi-Agent System#Computer Use Agent#DAG#Task Decomposition#Parallel Execution#Replanning2026년 6월 1일댓글 수 로딩 중
[논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft본 논문은 MLLM 에이전트의 진정한 오픈 월드 탐색 능력을 객관적으로 평가할 수 있는 통제된 프레임워크가 부족하다는 점을 해결하고자 한다. 기존의 게임 기반 벤치마크들은 특정 게임 메커니즘에 지나치게 의존하거나, 상호작용의 범위가 단기적인 작업에 국한되어 에이전트의 장기적인 탐색 능력을 측정하기 어렵다는 한계가 있다 .#Review#MLLM Agents#Open-World Exploration#Minecraft#Embodied AI#Benchmark#Task Synthesis#Multi-Agent Workflow2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching본 논문은 기존의 Output-level 메트릭이 모델 내부의 잔존 지식을 탐지하는 데 한계가 있다는 문제점을 제기합니다. 최근 연구들은 화이트박스 접근법을 통해 모델 내부의 지식 잔존을 확인하고 있으나, 데이터셋이나 보조 학습에 의존하여 범용적인 비교 지표가 부재한 상황입니다.#Review#LLM Unlearning#Activation Patching#Model Privacy#Mechanistic Interpretability#White-box Evaluation#Faithfulness#Robustness2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Masking Stale Observations Helps Search Agents -- Until It Doesn't: A Regime Map and Its Mechanism본 논문은 에이전트의 장기 궤적에서 발생하는 문맥 과부하 문제를 해결하기 위한 Observation Masking 기법이 특정 조건에서만 유효하게 작동하는 근본적인 이유를 규명하고자 합니다.#Review#Agentic Search#Context Management#Observation Masking#Retriever-Model Mismatch#Model Saturation2026년 6월 1일댓글 수 로딩 중
[논문리뷰] MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation본 논문은 기존의 에이전트 벤치마크가 범용 도구 사용에만 집중되어 있어, 실제 사용자의 계정 및 로컬 데이터와 밀접하게 연동되는 개인화된 앱에서의 성능을 평가하지 못하는 문제를 해결하고자 한다.#Review#Model Context Protocol#LLM Agents#Personalized Applications#Environment Simulation#Benchmarking#Tool-Traverse2026년 6월 1일댓글 수 로딩 중
[논문리뷰] LongLive-RAG: A General Retrieval-Augmented Framework for Long Video Generation본 논문은 Autoregressive(AR) 비디오 생성 모델에서 장기 생성 시 발생하는 오류 누적과 identity drift 문제를 해결하고자 합니다. 기존 방식은 효율성을 위해 Sliding-window Attention에만 의존하며, 생성된 초기 Latent를 폐기하거나 고정된 앵커(anchor)만을 사용합니다 .#Review#Long Video Generation#Autoregressive#Retrieval-Augmented Generation#Video Diffusion#Temporal Consistency#Attention2026년 6월 1일댓글 수 로딩 중
[논문리뷰] LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning본 논문은 Large Language Models (LLMs)의 long-context inference에서 발생하는 memory 및 compute cost 증가 문제를 해결하고자 한다.#Review#Context Compression#Long-Context Reasoning#Large Language Models#Fine-Tuning#Cross-Attention#Code Reasoning#Cross-Family Generalization#Two-Stage Training2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs본 논문은 현대의 다중 모델(multi-provider) 생태계에서 기존의 LLM 워터마킹 기술이 근본적으로 취약하다는 점을 지적합니다. 기존 연구들은 공격자가 단일 모델에만 접근할 수 있다는 가정하에 설계되었으나, 실제로는 사용자가 여러 frontier LLM을 자유롭게 사용할 수 있는 환경이 조성되어 있습니다.#Review#Watermarking#LLM#Ensemble#Distributional Perturbation#WASH#Attribution2026년 6월 1일댓글 수 로딩 중
[논문리뷰] LVSA: Training-Free Sparse Attention for Long Video Diffusion본 논문은 video diffusion transformers의 긴 영상 생성 과정에서 발생하는 dense self-attention의 연산 효율성 저하와 품질 저하 문제를 해결합니다.#Review#Video Diffusion Transformers#Sparse Attention#Long Video Generation#Training-Free#FlashInfer#Attention Optimization2026년 6월 1일댓글 수 로딩 중