[논문리뷰] HRBench: Benchmarking and Understanding Thinking-Mode Switch Strategies in Hybrid-Reasoning LLMs본 논문은 Hybrid-Reasoning LLM의 효율적인 활용을 위한 핵심 과제인 '상황별 최적의 추론 모드 선택' 문제를 해결하고자 합니다. 기존 연구들은 각기 다른 모델, 데이터셋, 평가 환경에서 개별적으로 제안되었기 때문에, 전략 간의 실질적인 성능이나 효율성을 객관적으로 비교하기 어렵다는 한계가 있습니다.#Review#Hybrid-Reasoning LLMs#Adaptive Thinking-Mode Switch#Efficiency-Effectiveness Trade-off#Prompt-Tuning#Routing#Speculative Execution#LLM Benchmarking2026년 5월 27일댓글 수 로딩 중
[논문리뷰] ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning본 논문은 기존 Mixture-of-LoRAs(MoLoRA) 모델에서 발생하는 '루팅 가중치 붕괴(routing weight collapse)' 문제를 해결하고자 합니다. 이 문제는 루팅 가중치가 특정 LoRA에 집중되어 나머지 LoRA의 활용도가 떨어지는 현상으로, 모델의 표현력을 제한합니다.#Review#LLM Finetuning#LoRA#Mixture of Experts (MoE)#Reinforcement Learning#Parameter-Efficient Finetuning (PEFT)#Routing#Weight Collapse2026년 3월 11일댓글 수 로딩 중
[axolotl] ScatterMoE 커널 라우팅 통합: Softmax/Sigmoid 기반 라우팅과 Autotune Telemetry 추가MoE 모델의 다양한 라우팅 전략(Softmax TopK, Sigmoid TopK)을 통합 함수로 정리하고, Triton autotune 결과를 자동 수집하는 telemetry callback을 추가한 사례를 분석합니다.#Axolotl#MoE#ScatterMoE#Triton#Routing#Telemetry2026년 3월 6일댓글 수 로딩 중
[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.#Review#MoE#Reinforcement Learning#Training Stability#Routing#Policy Alignment#Rollout Routing Replay#LLMs2025년 10월 27일댓글 수 로딩 중