[논문리뷰] Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information본 논문은 LLM의 추론 능력을 강화하기 위한 on-policy self-distillation 기법이 수학적 추론 과제에서 일관된 성능 향상을 보이지 못하는 문제를 해결합니다.#Review#Reinforcement Learning#Self-Distillation#Reasoning#Pointwise Mutual Information#LLM#GRPO#Jensen-Shannon Divergence2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment본 논문은 기존의 CLIR 평가 방식이 실제 다국어 환경에서의 모델 성능과 잠재적인 언어 편향성을 충분히 측정하지 못한다는 문제를 지적한다.#Review#Cross-Lingual Information Retrieval#Semantic Alignment#Jensen-Shannon Divergence#InfoNCE#Multilingual Embedding Models#Language Bias2026년 4월 8일댓글 수 로딩 중