[논문리뷰] KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks본 논문은 test-time scaling 환경에서 발생하는 KV-Cache 양자화의 오류 누적 문제를 해결하는 데 집중합니다. 기존의 양자화 방식은 주로 고정된 긴 컨텍스트를 다루는 prefill 설정에서 평가되었으나, 실제 디코딩 과정에서는 토큰 생성마다 오류가 반복적으로 누적되어 추론 품질이 급격히 저하됩니다 .#Review#KV-Cache Quantization#Variance Normalization#Error Accumulation#Reasoning Tasks#Hadamard Rotation#Dual-Scaling2026년 6월 2일댓글 수 로딩 중
[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization#Large Language Models (LLMs)#Generalization#Robustness#Reasoning Tasks2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.#Review#LLM Post-Training#Catastrophic Forgetting#Direct Preference Optimization (DPO)#Reward-based Learning#Data Rectification#Binary Cross-Entropy#Reasoning Tasks#Knowledge Preservation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Universal Reasoning Model본 연구는 Universal Transformer (UT) 모델이 ARC-AGI 와 같은 복잡한 추론 태스크에서 성능 향상을 보이는 근본적인 원인을 체계적으로 분석하는 것을 목표로 합니다.#Review#Universal Transformer#Recurrent Neural Networks#ARC-AGI#Reasoning Tasks#Nonlinearity#Convolutional Gating#Truncated Backpropagation#Model Efficiency2025년 12월 17일댓글 수 로딩 중
[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Curriculum Learning#Advantage Function#Reasoning Tasks#Multimodal AI#Policy Optimization#Generalization2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.#Review#Diffusion Language Models#Reinforcement Learning#Trajectory-aware RL#Value Model#Masked Diffusion Models#Large Language Models#Reasoning Tasks#Code Generation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks본 논문은 MoE(Mixture-of-Experts) 언어 모델에서 스파시티(sparsity)가 기억(memorization) 능력과 추론(reasoning) 능력에 미치는 영향을 규명하고, 고정된 연산 예산(compute budget) 내에서 태스크별 최적의 스파시티 구성을 찾는 것을 목표로 합니다.#Review#Mixture-of-Experts (MoE)#Sparsity#Scaling Laws#Reasoning Tasks#Memorization#Large Language Models#Generalization Gap#Top-k Routing2025년 8월 27일댓글 수 로딩 중
[논문리뷰] MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment본 논문은 영어 중심의 기존 VLM 벤치마크의 한계를 해결하고, 특히 페르시아어와 같은 저자원 언어에서 과학, 추론, 인간 수준의 이해 능력을 평가하기 위한 최초의 종합적인 멀티모달-멀티링구얼 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Multimodal Language Models#Multilingual Benchmarking#Persian Language#Educational Assessment#Vision-Language Models#Cultural Nuance#Reasoning Tasks2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Reward Design#Reasoning Tasks#Pass@k#Policy Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning본 논문은 대규모 추론 모델(LRMs)의 긴 토큰 생성 과정에서 발생하는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.#Review#Sparse Attention#LLMs#Reasoning Tasks#Efficiency#Training-Free#Global Locality#KV Cache Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Reasoning Tasks#GRPO#Negative Samples#Reward Modeling#Confidence Reweighting#Mathematical Reasoning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Self-Reflective Generation at Test Time본 논문은 대규모 언어 모델(LLM)의 자동회귀(autoregressive) 생성 과정에서 발생하는 초기 토큰 오류가 전체 추론 과정을 망가뜨리는 취약점을 해결하고자 합니다.#Review#Large Language Models#Self-Reflection#Test-Time Optimization#Uncertainty Monitoring#Proactive Error Prevention#Reasoning Tasks#Chain-of-Thought2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Loopholing Discrete Diffusion: Deterministic Bypass of the Sampling Wall본 논문은 이산 확산 모델(Discrete Diffusion Models)의 주요 한계점인 '샘플링 벽(sampling wall) 문제' 를 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion Models#Sampling Wall#Loopholing#Self-Conditioning#Non-Autoregressive Generation#Text Generation#Language Modeling#Reasoning Tasks2025년 10월 24일댓글 수 로딩 중
[논문리뷰] In-Place Feedback: A New Paradigm for Guiding LLMs in Multi-Turn Reasoning본 연구는 다중 턴(multi-turn) 추론 과정에서 대규모 언어 모델(LLMs)이 사용자 피드백을 신뢰성 있게 통합하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Feedback#Multi-turn Reasoning#In-place Editing#Token Efficiency#Error Correction#Human-AI Interaction#Reasoning Tasks2025년 10월 2일댓글 수 로딩 중