[논문리뷰] Post-Trained MoE Can Skip Half Experts via Self-Distillation기존의 Dynamic MoE 연구들은 주로 모델을 밑바닥부터 재학습(from scratch)하거나 특정 작업에만 국한된 적응 방식을 취해왔습니다. 그러나 실제 현업에서는 이미 사전 학습 및 후속 학습(SFT, RL 등)이 완료된 Post-Trained MoE 모델을 활용하는 경우가 대부분입니다.#Review#Mixture-of-Experts#Dynamic Inference#Self-Distillation#Zero-Expert Injection#Large Language Models#Model Adaptation2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Sliding Window Attention Adaptation본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.#Review#Large Language Models#Sliding Window Attention#Model Adaptation#Long Context#Inference Optimization#Fine-tuning#Chain-of-Thought#Sparse Attention2025년 12월 14일댓글 수 로딩 중
[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action ModelVLA(Vision-Language-Action) 모델이 대규모 VLM(Vision-Language Model)과 광범위한 사전 훈련에 크게 의존하여 발생하는 높은 훈련 비용, 느린 미세 조정, 과도한 VRAM 사용 및 낮은 추론 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Multimodal Learning#Efficient AI#Model Adaptation#Bridge Attention#Low-resource Training2025년 9월 12일댓글 수 로딩 중