[논문리뷰] The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages본 연구는 Chain-of-Thought(CoT) 모니터링이 다양한 언어 환경과 모델군에서 얼마나 신뢰할 수 있는가를 실증적으로 검증하기 위해 시작되었다.#Review#Chain-of-Thought#CoT Monitorability#Deception#Linguistic Distribution Shift#Mechanistic Interpretability#LLM Safety2026년 5월 27일댓글 수 로딩 중
[논문리뷰] SkillGrad: Optimizing Agent Skills Like Gradient Descent본 논문은 LLM 에이전트의 도메인 적응력을 높이기 위한 Agent Skills가 흔히 불완전하거나, 시대에 뒤떨어지거나, 신뢰할 수 없다는 문제를 해결하고자 합니다.#Review#Agent Skills#Gradient Descent#Skill Evolution#LLM Agents#Procedural Knowledge#Structured Optimization#Textual Momentum2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Self-Improving Language Models with Bidirectional Evolutionary Search본 논문은 기존의 LLM 추론 및 학습 방식인 Best-of-N sampling과 Tree search가 가진 근본적인 제약 사항을 해결하고자 합니다 .#Review#Large Language Models#Evolutionary Search#Bidirectional Search#Goal Decomposition#Post-Training#Inference Scaling2026년 5월 27일댓글 수 로딩 중
[논문리뷰] ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence본 논문은 자율 연구 에이전트가 생성한 결과물에서 발견되는 심각한 신뢰성 결여 문제를 해결하고자 한다. 기존 에이전트 시스템은 전문적인 논문과 경쟁력 있는 솔루션을 생성하지만, 인용 조작, 검증 불가능한 점수 보고, 코드 구현과 논문 서술 간의 불일치 등 표면적인 완성도에만 치중한 오류들을 반복적으로 보이고 있다.#Review#Autonomous Research#Chain-of-Evidence#Verifiability#Provenance#Integrity Audit#LLM2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Revealing Algorithmic Deductive Circuits for Logical Reasoning본 논문은 LLM이 복잡한 논리적 추론을 수행할 때 내부적으로 어떠한 메커니즘을 사용하는지에 대한 근본적인 의문을 해결하고자 합니다.#Review#Large Language Models#Logical Reasoning#Chain-of-Thought#Causal Mediation Analysis#Circuit Interpretability#Attention Heads#Deductive Reasoning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Rethinking Memory as Continuously Evolving Connectivity본 논문은 기존 LLM agent의 기억 시스템이 Static Repository에 의존하여 동적인 환경 변화나 피드백을 반영하지 못하는 한계를 해결하고자 합니다.#Review#FluxMem#Memory Connectivity#Heterogeneous Graph#Agentic Memory#Long-term Consolidation#Self-evolving Agents2026년 5월 27일댓글 수 로딩 중
[논문리뷰] ResearchMath-14K: Scaling Research-Level Mathematics via Agents본 논문은 최신 LLM이 기초적인 수학 경시 수준을 넘어 연구 수준(research-level)의 수학 문제를 해결하도록 유도하는 데 필요한 대규모 학습 데이터가 부족하다는 점을 해결하고자 한다.#Review#Research-level Mathematics#Dataset Construction#Agentic Pipeline#Factuality#Reasoning Trajectories#Fine-tuning#Language Models2026년 5월 27일댓글 수 로딩 중
[논문리뷰] ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation본 논문은 추천 시스템이 과거 데이터를 단순히 모방하는 것을 넘어, 사용자의 선호도를 새로운 영역으로 확장하는 Proactive Recommendation의 한계를 해결하고자 한다.#Review#Proactive Recommendation#Reinforcement Learning#Policy Gradient Estimation#Path Feasibility#Guidance Effectiveness2026년 5월 27일댓글 수 로딩 중
[논문리뷰] PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective본 논문은 현대의 PEFT 방식이 다운스트림 작업 성능 향상(Plasticity)에는 집중하고 있으나, 사전 학습된 범용 역량의 보존(Stability) 문제는 간과하고 있다고 지적한다.#Review#Parameter-Efficient Finetuning#Stability-Plasticity#Orthogonal Finetuning#Representation Geometry#Spectral Analysis#Pathwise Diagnosis2026년 5월 27일댓글 수 로딩 중
[논문리뷰] PEAM: Parametric Embodied Agent Memory through Contrastive Internalization of Experience in Minecraft본 논문은 기존 LLM 기반 embodied agent가 의존하는 비파라미터식(non-parametric) 기억 방식의 근본적인 한계를 해결하고자 합니다.#Review#Embodied Agent#Parametric Memory#Contrastive Learning#Mixture-of-Experts#Continual Learning#Minecraft2026년 5월 27일댓글 수 로딩 중
[논문리뷰] OmniVerifier-M1: Multimodal Meta-Verifier with Explicit Structured Recalibration본 논문은 기존 multimodal verifier의 이진 판단 방식이 가진 coarse한 피드백의 한계를 해결하고자 합니다.#Review#Multimodal Meta-Verification#Symbolic Rationale#Decoupled Reinforcement Learning#Agentic Generation#Region-level Self-Correction2026년 5월 27일댓글 수 로딩 중
[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning본 논문은 기존 Diffusion Transformers(DiTs) 기반 비디오 생성 모델이 가진 2차 복잡도의 연산 비용 문제를 해결하고, 고해상도 비디오 생성 효율을 높이는 것을 목표로 한다.#Review#Video Generation#Diffusion Transformers#Sparse Attention#Sequence Parallelism#Quantization#Reinforcement Learning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Models That Know How Evaluations Are Designed Score Safer본 연구는 모델이 평가 벤치마크의 구조적 특성을 학습하여 실제 배포 환경보다 평가 환경에서 더 안전한 것처럼 행동하게 만드는 새로운 편향 요인을 규명하고자 한다.#Review#AI Safety#Evaluation Awareness#Meta-Knowledge#Synthetic Document Finetuning#Benchmark Contamination#Alignment Faking#Model Evaluation2026년 5월 27일댓글 수 로딩 중
[논문리뷰] MemTrace: Tracing and Attributing Errors in Large Language Model Memory Systems본 논문은 LLM 메모리 시스템에서 발생하는 복잡한 오류의 근본 원인을 파악하고 추적하기 위한 자동화된 프레임워크가 부재하다는 문제를 해결합니다.#Review#LLM Memory Systems#Failure Attribution#Execution Graphs#MemTraceBench#Automatic Debugging#Prompt Optimization2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)본 논문은 현대 LLM이 가진 방대한 어휘력에도 불구하고, 출력 텍스트가 구조적으로 동질화되고 표현의 다양성이 저하되는 'Lexical Homogenization' 문제를 해결하고자 합니다.#Review#Large Language Models#Decoding Mechanics#Word Coverage Score#Lexical Reachability#Homogenization#Sampling Filters2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization본 논문은 온라인 RL 기반 LLM 학습 시 발생하는 탐색-활용 불균형(imbalanced exploration–exploitation trade-off) 문제를 해결하고자 합니다.#Review#Online Reinforcement Learning#Information Bottleneck#Tree-based Policy Optimization#Exploration-Exploitation Balance#LLM Reasoning#IB-Score2026년 5월 27일댓글 수 로딩 중
[논문리뷰] LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?본 논문은 최신 LLM 기반 Search Agents가 실제로 검색을 통해 지식을 발견하는지, 아니면 기존에 알고 있는 지식을 확인하는 용도로만 웹을 활용하는지를 검증합니다.#Review#Search Agents#Intrinsic Knowledge Dependence (IKD)#Deep Search#Benchmark Design#Evidence-Led Discovery2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Less is More: Early Stopping Rollout for On-Policy Distillation본 논문은 기존 OPD 방식에서 발생하는 Off-policy Teacher Decay 문제를 해결하기 위해 제안되었습니다 .#Review#On-policy Distillation#Knowledge Distillation#Language Models#Early Stopping Rollout#Off-policy Teacher Decay#Cascading Alignment#Sub-mode Commitment2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Learn from Weaknesses: Automated Domain Specialization for Small Computer-Use Agents본 논문은 소규모(Small) 오픈소스 CUA들이 다양한 소프트웨어 환경에서 도메인 특화 성능이 여전히 부족하다는 점을 해결하고자 합니다.#Review#Computer-Use Agent#Domain Specialization#Annotation-free#Weakness-aware#Direct Preference Optimization#GUI Agent2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.#Review#Multi-Token Prediction#Reinforcement Learning#Optimization#Optimal Coefficient Calibration#Large Language Models#Mathematical Reasoning2026년 5월 27일댓글 수 로딩 중