최신 포스트

[논문리뷰] VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

본 논문은 LLM 기반 에이전트가 기존 벤치마크에서는 높은 성능을 보임에도 불구하고, 실사용 환경에서는 사용자 만족도가 낮은 'Evaluation–Experience Gap' 문제를 해결하고자 한다.

#Review #VibeSearch #Proactive Search #Large Language Models #Agent Harness #Knowledge Graph #Benchmark

2026년 5월 27일

[논문리뷰] Verus-SpecGym: An Agentic Environment for Evaluating Specification Autoformalization

본 논문은 AI 코딩 에이전트가 생성한 코드의 정확성을 보장하기 위해 형식적 검증을 도입하려 할 때, 정작 그 코드의 기준이 되는 '형식적 명세' 자체의 오류가 발생하는 문제를 해결하고자 한다.

#Review #Formal Verification #Specification Autoformalization #Agentic Environment #Verus #Codeforces #Executable Specifications

2026년 5월 27일

[논문리뷰] Triplet-Block Diffusion RWKV

본 논문은 Causal Transformer Language Models(LLMs)가 겪는 두 가지 핵심 한계를 해결하고자 합니다.

#Review #Triplet-Block Layout #Diffusion Language Models #RWKV #Linear-time Recurrent Networks #Parallel Decoding #Inference Throughput

2026년 5월 27일

[논문리뷰] The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages

본 연구는 Chain-of-Thought(CoT) 모니터링이 다양한 언어 환경과 모델군에서 얼마나 신뢰할 수 있는가를 실증적으로 검증하기 위해 시작되었다.

#Review #Chain-of-Thought #CoT Monitorability #Deception #Linguistic Distribution Shift #Mechanistic Interpretability #LLM Safety

2026년 5월 27일

[논문리뷰] SkillGrad: Optimizing Agent Skills Like Gradient Descent

본 논문은 LLM 에이전트의 도메인 적응력을 높이기 위한 Agent Skills가 흔히 불완전하거나, 시대에 뒤떨어지거나, 신뢰할 수 없다는 문제를 해결하고자 합니다.

#Review #Agent Skills #Gradient Descent #Skill Evolution #LLM Agents #Procedural Knowledge #Structured Optimization #Textual Momentum

2026년 5월 27일

[논문리뷰] Self-Improving Language Models with Bidirectional Evolutionary Search

본 논문은 기존의 LLM 추론 및 학습 방식인 Best-of-N sampling과 Tree search가 가진 근본적인 제약 사항을 해결하고자 합니다 .

#Review #Large Language Models #Evolutionary Search #Bidirectional Search #Goal Decomposition #Post-Training #Inference Scaling

2026년 5월 27일

[논문리뷰] ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence

본 논문은 자율 연구 에이전트가 생성한 결과물에서 발견되는 심각한 신뢰성 결여 문제를 해결하고자 한다. 기존 에이전트 시스템은 전문적인 논문과 경쟁력 있는 솔루션을 생성하지만, 인용 조작, 검증 불가능한 점수 보고, 코드 구현과 논문 서술 간의 불일치 등 표면적인 완성도에만 치중한 오류들을 반복적으로 보이고 있다.

#Review #Autonomous Research #Chain-of-Evidence #Verifiability #Provenance #Integrity Audit #LLM

2026년 5월 27일

[논문리뷰] Revealing Algorithmic Deductive Circuits for Logical Reasoning

본 논문은 LLM이 복잡한 논리적 추론을 수행할 때 내부적으로 어떠한 메커니즘을 사용하는지에 대한 근본적인 의문을 해결하고자 합니다.

#Review #Large Language Models #Logical Reasoning #Chain-of-Thought #Causal Mediation Analysis #Circuit Interpretability #Attention Heads #Deductive Reasoning

2026년 5월 27일

[논문리뷰] Rethinking Memory as Continuously Evolving Connectivity

본 논문은 기존 LLM agent의 기억 시스템이 Static Repository에 의존하여 동적인 환경 변화나 피드백을 반영하지 못하는 한계를 해결하고자 합니다.

#Review #FluxMem #Memory Connectivity #Heterogeneous Graph #Agentic Memory #Long-term Consolidation #Self-evolving Agents

2026년 5월 27일

[논문리뷰] ResearchMath-14K: Scaling Research-Level Mathematics via Agents

본 논문은 최신 LLM이 기초적인 수학 경시 수준을 넘어 연구 수준(research-level)의 수학 문제를 해결하도록 유도하는 데 필요한 대규모 학습 데이터가 부족하다는 점을 해결하고자 한다.

#Review #Research-level Mathematics #Dataset Construction #Agentic Pipeline #Factuality #Reasoning Trajectories #Fine-tuning #Language Models

2026년 5월 27일

[논문리뷰] ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

본 논문은 추천 시스템이 과거 데이터를 단순히 모방하는 것을 넘어, 사용자의 선호도를 새로운 영역으로 확장하는 Proactive Recommendation의 한계를 해결하고자 한다.

#Review #Proactive Recommendation #Reinforcement Learning #Policy Gradient Estimation #Path Feasibility #Guidance Effectiveness

2026년 5월 27일

[논문리뷰] PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective

본 논문은 현대의 PEFT 방식이 다운스트림 작업 성능 향상(Plasticity)에는 집중하고 있으나, 사전 학습된 범용 역량의 보존(Stability) 문제는 간과하고 있다고 지적한다.

#Review #Parameter-Efficient Finetuning #Stability-Plasticity #Orthogonal Finetuning #Representation Geometry #Spectral Analysis #Pathwise Diagnosis

2026년 5월 27일

[논문리뷰] PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft

본 논문은 기존 LLM 기반 embodied agent가 의존하는 비파라미터식(non-parametric) 기억 방식의 근본적인 한계를 해결하고자 합니다.

#Review #Embodied Agent #Parametric Memory #Contrastive Learning #Mixture-of-Experts #Continual Learning #Minecraft

2026년 5월 27일

[논문리뷰] OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration

본 논문은 기존 multimodal verifier의 이진 판단 방식이 가진 coarse한 피드백의 한계를 해결하고자 합니다.

#Review #Multimodal Meta-Verification #Symbolic Rationale #Decoupled Reinforcement Learning #Agentic Generation #Region-level Self-Correction

2026년 5월 27일

[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

본 논문은 기존 Diffusion Transformers(DiTs) 기반 비디오 생성 모델이 가진 2차 복잡도의 연산 비용 문제를 해결하고, 고해상도 비디오 생성 효율을 높이는 것을 목표로 한다.

#Review #Video Generation #Diffusion Transformers #Sparse Attention #Sequence Parallelism #Quantization #Reinforcement Learning

2026년 5월 27일

[논문리뷰] Models That Know How Evaluations Are Designed Score Safer

본 연구는 모델이 평가 벤치마크의 구조적 특성을 학습하여 실제 배포 환경보다 평가 환경에서 더 안전한 것처럼 행동하게 만드는 새로운 편향 요인을 규명하고자 한다.

#Review #AI Safety #Evaluation Awareness #Meta-Knowledge #Synthetic Document Finetuning #Benchmark Contamination #Alignment Faking #Model Evaluation

2026년 5월 27일

[논문리뷰] MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems

본 논문은 LLM 메모리 시스템에서 발생하는 복잡한 오류의 근본 원인을 파악하고 추적하기 위한 자동화된 프레임워크가 부재하다는 문제를 해결합니다.

#Review #LLM Memory Systems #Failure Attribution #Execution Graphs #MemTraceBench #Automatic Debugging #Prompt Optimization

2026년 5월 27일

[논문리뷰] Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)

본 논문은 현대 LLM이 가진 방대한 어휘력에도 불구하고, 출력 텍스트가 구조적으로 동질화되고 표현의 다양성이 저하되는 'Lexical Homogenization' 문제를 해결하고자 합니다.

#Review #Large Language Models #Decoding Mechanics #Word Coverage Score #Lexical Reachability #Homogenization #Sampling Filters

2026년 5월 27일

[논문리뷰] Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

본 논문은 온라인 RL 기반 LLM 학습 시 발생하는 탐색-활용 불균형(imbalanced exploration–exploitation trade-off) 문제를 해결하고자 합니다.

#Review #Online Reinforcement Learning #Information Bottleneck #Tree-based Policy Optimization #Exploration-Exploitation Balance #LLM Reasoning #IB-Score

2026년 5월 27일

[논문리뷰] LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

본 논문은 최신 LLM 기반 Search Agents가 실제로 검색을 통해 지식을 발견하는지, 아니면 기존에 알고 있는 지식을 확인하는 용도로만 웹을 활용하는지를 검증합니다.

#Review #Search Agents #Intrinsic Knowledge Dependence (IKD)#Deep Search #Benchmark Design #Evidence-Led Discovery

2026년 5월 27일