[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.#Review#Large Language Models#Reinforcement Learning#Exploration-Exploitation Trade-Off#Perplexity#Reward Shaping2026년 4월 19일댓글 수 로딩 중
[논문리뷰] On Surprising Effectiveness of Masking Updates in Adaptive Optimizers대규모 언어 모델(LLM) 학습에 주로 사용되는 밀집형 적응적 옵티마이저의 한계에 도전하고, 무작위 업데이트 마스킹이 최적화 성능을 향상시킬 수 있음을 입증하는 것이 목표입니다. 특히, 모멘텀-그래디언트 정렬을 활용하는 새로운 마스킹 기법인 Magma 를 제안하여 LLM 훈련의 안정성과 일반화 성능을 개선하고자 합니다.#Review#Adaptive Optimizers#Gradient Masking#LLM Training#Geometric Regularization#Momentum Alignment#RMSProp#Perplexity#Deep Learning2026년 2월 17일댓글 수 로딩 중
[논문리뷰] On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation본 논문은 음성 언어 모델(SLM) 평가에 널리 사용되는 '글로벌 토큰 퍼플렉시티(Global Token Perplexity)' 가 음성과 텍스트 양식 간의 근본적인 차이를 간과하여 실제 성능을 왜곡할 수 있다는 문제를 제기합니다.#Review#Spoken Language Models#Evaluation Metrics#Perplexity#Mean Opinion Score#Likelihood-based Evaluation#Model-as-a-Judge#Acoustic Consistency#Speech Generation2026년 1월 12일댓글 수 로딩 중
[논문리뷰] TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them본 논문은 LLM-as-a-judge 평가 프레임워크에서 발생하는 핵심적인 불일치 문제 를 해결하는 것을 목표로 합니다.#Review#LLM-as-a-Judge#Evaluation Frameworks#Inconsistency Reduction#Probabilistic Scoring#Transitivity#Information Loss#Perplexity#Large Language Models2025년 9월 26일댓글 수 로딩 중
[논문리뷰] MemMamba: Rethinking Memory Patterns in State Space Model본 논문은 기존 Mamba와 같은 State Space Model (SSM) 이 가지는 장거리 메모리 지수적 감쇠 문제를 체계적으로 분석하고, 이러한 한계를 극복하여 선형 복잡도를 유지하면서도 초장문맥에서 효과적으로 정보를 유지하고 활용하는 새로운 아키텍처를 제안하는 것을 목표로 합니다.#Review#State Space Models#Mamba#Long-sequence modeling#Memory decay#State summarization#Cross-layer attention#Perplexity#Linear complexity2025년 10월 10일댓글 수 로딩 중