최신 포스트

[논문리뷰] Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

본 논문은 최신 LLM이 의학적 시험에서는 우수한 성적을 거두지만, 실제 의료 환경의 복잡하고 오염된 정보 속에서는 판단 능력이 취약하다는 문제를 해결하고자 한다. 기존의 의료 벤치마크들은 주로 깨끗한(clean) 입력을 바탕으로 지식과 추론 능력을 평가하여 실제 배포 환경에서의 안정성을 과대평가하는 경향이 있다 .

#Review #Epistemic Resilience #LLM Evaluation #Medical Misinformation #Robustness #Benchmark #Medical Reasoning

2026년 6월 14일

[논문리뷰] MBench: A Comprehensive Benchmark on Memory Capability for Video World Models

본 논문은 기존의 영상 생성 평가 벤치마크들이 영상 품질, 모션 일관성, 텍스트 정렬에만 집중할 뿐, 세계 모델의 핵심인 장기적 메모리(Long-term Memory) 능력을 과소평가하고 있다는 문제의식에서 출발한다 .

#Review #Video World Models #Long-term Memory #Benchmark #Entity Consistency #Environment Consistency #Causal Consistency

2026년 6월 14일

[논문리뷰] LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations

본 연구는 LLM 기반 에이전트가 폐쇄적인 그룹 채팅 환경에서 암묵적인 사회적 규범을 추론하고 이에 맞춰 행동을 조정하는 능력을 평가하는 데 중점을 둡니다.

#Review #Local Social Norm Adaptation #Multi-party Chat #LLM Benchmarking #Theory of Mind #Conversational Context #Social Intelligence

2026년 6월 14일

[논문리뷰] LLM Agents Can See Code Repositories

본 논문은 현대적인 코딩 에이전트가 텍스트 기반의 인터페이스에 지나치게 의존함으로써 저장소의 복잡한 구조적 관계를 파악하는 데 한계를 겪고 있다는 점을 해결하고자 합니다 .

#Review #Multimodal Large Language Models #Software Engineering #Code Repository Understanding #Issue Resolution #Visual Representation #Agentic Frameworks

2026년 6월 14일

[논문리뷰] Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack

본 연구는 파편화된 로봇 학습 시스템의 한계를 극복하고, 데이터 수집부터 실제 현장 배치(Deployment)까지를 아우르는 통합된 엔드투엔드 VLA 학습 스택을 구축하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied AI #Flow Matching #Robot Learning Stack #Proximalized Preference Optimization #UMI

2026년 6월 14일

[논문리뷰] HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

본 논문은 현대 AI Agent의 성능이 모델 자체의 스케일링뿐만 아니라 이를 둘러싼 Harness 설계에 크게 의존함에도 불구하고, 기존 Harness들이 수동적이고 정적(static)이라는 점을 핵심 문제로 정의합니다.

#Review #AI Agent #Harness Engineering #Evolutionary Optimization #Agentic Workflow #Composable Architecture #Operational Mirror #GRPO

2026년 6월 14일

[논문리뷰] From Chatbot to Digital Colleague: The Paradigm Shift Toward Persistent Autonomous AI

본 논문은 LLM이 단순히 텍스트를 생성하는 챗봇에서 벗어나, 디지털 환경에서 자율적으로 업무를 수행하는 Digital Colleague로 진화하는 패러다임 전환 과정을 체계적으로 분석합니다.

#Review #Large Language Models #Autonomous AI #Digital Colleague #Workspace + Skill #Task Closure #Agentic Systems #Inference-time Computation

2026년 6월 14일

[논문리뷰] From AGI to ASI

본 논문은 AGI 달성이 더 이상 먼 미래의 일이 아닌 현 시점에서, 그 이후의 인공지능 발전 경로인 ASI로의 이행 과정을 학술적으로 탐구하고자 합니다.

#Review #AGI #ASI #Superintelligence #Universal Intelligence #Effective Compute

2026년 6월 14일

[논문리뷰] FVSpec: Real-World Property-Based Tests as Lean Challenges

본 논문은 AI 모델 및 에이전트의 실제 소프트웨어 형식 검증(formal software verification) 능력을 평가하기 위한 벤치마크 부족 문제를 해결하고자 합니다.

#Review #Formal Verification #Property-Based Testing #Lean 4 #LLM Pipeline #Benchmark #AI Safety #Structural Faithfulness

2026년 6월 14일

[논문리뷰] Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

본 연구는 OPD가 일반적인 Supervised Fine-tuning(SFT)과 달리 어떤 기하학적 특성을 가지며, 왜 RLVR(Reinforcement Learning from Verifier-derived Rewards)과 유사한 sparse한 업데이트 양상을 보이는지 규명합니다.

#Review #On-policy Distillation #Parameter Sparsity #Model Geometry #Subnetwork Masking #LLM Post-training #Optimizer Dynamics

2026년 6월 14일

[논문리뷰] ClinHallu: A Benchmark for Diagnosing Stage-Wise Hallucinations in Medical MLLM Reasoning

본 논문은 기존 의료용 MLLM 평가 체계가 최종 답변의 정확도만 판단할 뿐, 환각(Hallucination)이 발생하는 근본적인 원인을 규명하지 못하는 한계를 해결하고자 합니다.

#Review #Medical MLLM #Hallucination Diagnosis #Chain-of-Thought #Multimodal Reasoning #Stage-wise Evaluation #Stage-Replacement Intervention

2026년 6월 14일

[논문리뷰] CARVE: Certified Affordable Repair of Vetoed Maneuvers via Envelopes for Interactive Driving

본 논문은 자율주행 시스템이 상호작용 상황에서 발생하는 False-Veto 문제를 효과적으로 해결하고, 이를 위한 인증 가능한 수정 메커니즘을 정의하는 것을 목표로 한다.

#Review #Autonomous Driving #Interactive Repair Certification #Cooperation Envelope #Right-of-Way #Safety Filtering

2026년 6월 14일

[논문리뷰] Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

본 논문은 기존 AI agent 벤치마크가 과학 연구의 복잡성과 상호작용적인 성격을 충분히 반영하지 못하는 한계를 해결하고자 합니다. 기존의 연구들은 지나치게 정적인 과제에 국한되어 있거나, 과학적 도메인의 특수성(데이터의 이질성, 다단계 의존성 등)을 고려하지 않아 실질적인 과학적 기여도를 측정하는 데 미흡했습니다.

#Review #AI Agents #Scientific Discovery #Benchmarking #Computational Science #Multi-scale Modeling #Evaluation Framework

2026년 6월 14일

[논문리뷰] Avatar V: Scaling Video-Reference Avatar Video Generation

본 연구는 기존의 아바타 생성 방식이 가진 Generalization 부족과 Efficiency 문제를 해결하기 위해 대규모 데이터 기반의 Scaling 접근 방식을 제안합니다. 기존의 개별 모델 학습 방식은 특정 피사체에 종속되어 있어 다양한 인물과 동작을 일반화하는 데 한계가 있었습니다.

#Review #Avatar Generation #Video-Reference #Scaling Law #Diffusion Models #Neural Rendering #Computer Vision

2026년 6월 14일

[논문리뷰] An Enigma of Artificial Reason: Investigating the Production-Evaluation Gap in Large Reasoning Models

본 논문은 Large Reasoning Models가 추론 결과 생성에는 탁월한 성능을 보임에도 불구하고, 논리적 오류를 평가하는 능력에서는 심각한 결함을 보이는 Production-Evaluation Gap 문제를 제기한다.

#Review #Large Reasoning Models #Production-Evaluation Gap #Answer Confirmation Bias #Reasoning Evaluation #Chain-of-Thought #Causal Patching

2026년 6월 14일

[논문리뷰] AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models

본 논문은 Multimodal Foundation Models (MFMs)가 물리적 세계의 3D 공간을 추론하는 데 있어 근본적인 한계를 지니고 있음을 지적합니다.

#Review #AlloSpatial #Spatial Reasoning #Allocentric Cognitive Mapping #World2Mind #Spatial Reasoning Harness #Foundation Models #Reinforcement Learning

2026년 6월 14일

[논문리뷰] AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

본 논문은 실시간 스트리밍 환경에서 LLM이 적응형으로 추론하도록 최적화하는 AdaSR 프레임워크를 제안한다. 기존의 스트리밍 추론 연구들은 주로 감독 학습(Supervised Fine-tuning)에 의존하고 있어, 모델이 다양한 입력 상황에 맞춰 능동적으로 추론 여부를 결정하는 유연성이 부족하다.

#Review #Streaming Reasoning #Reinforcement Learning #Hierarchical Relative Policy Optimization #Adaptive Computation #Large Language Models #Chain-of-Thought

2026년 6월 14일

[논문리뷰] ActiveMimic: Egocentric Video Pretraining with Active Perception

본 논문은 대규모 Egocentric Human Video를 로봇 학습에 활용할 때 발생하는 성능 저하의 핵심 원인이 '능동적 인식(Active Perception) 정보의 부재'에 있음을 규명합니다 .

#Review #Robot Manipulation #Egocentric Human Video #Active Perception #Robot Pretraining #Unified Action Representation

2026년 6월 14일

[논문리뷰] APT: Action Expert Pretraining Improves Instruction Generalization of Vision-Language-Action Policies

본 논문은 continuous-action 기반 VLA 모델이 겪는 OOD 언어 일반화 성능 저하 문제를 해결하기 위해 APT (Action Expert Pretraining)를 제안합니다.

#Review #Vision-Language-Action #Language Generalization #Action Expert Pretraining #Bayesian Factorization #Visuomotor Prior #Gated Fusion

2026년 6월 14일

[논문리뷰] APPO: Agentic Procedural Policy Optimization

본 논문은 기존 Agentic RL의 조잡한(coarse) 보상 할당(credit assignment) 문제를 해결하고자 합니다.

#Review #Agentic Reinforcement Learning #Credit Assignment #Procedural Reasoning #Decision Points #Branching Score #Policy Optimization

2026년 6월 14일