[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete TokensarXiv에 게시된 'LongCat-Next: Lexicalizing Modalities as Discrete Tokens' 논문에 대한 자세한 리뷰입니다.#Review#Multimodality#Autoregressive Modeling#Discrete Tokenization#Vision Transformer#Audio Tokenization#Mixture-of-Experts#Next-Token Prediction2026년 3월 31일댓글 수 로딩 중
[논문리뷰] LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement LearningarXiv에 게시된 'LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts#Native Formal Reasoning#Tool-Integrated Reinforcement Learning#Lean4#Auto-formalization#Theorem Proving#Hierarchical Importance Sampling Policy Optimization2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy DistillationarXiv에 게시된 'Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation' 논문에 대한 자세한 리뷰입니다.#Review#LLM Post-Training#Cascade RL#Multi-Domain On-Policy Distillation#Mixture-of-Experts#Reasoning#Agentic Capabilities#Competitive Programming#Mathematical Olympiad2026년 3월 19일댓글 수 로딩 중
[논문리뷰] ConFu: Contemplate the Future for Better Speculative SamplingarXiv에 게시된 'ConFu: Contemplate the Future for Better Speculative Sampling' 논문에 대한 자세한 리뷰입니다.#Review#Speculative Decoding#LLM Inference Acceleration#Draft Model#Future Prediction#Contemplate Tokens#Mixture-of-Experts#Token Acceptance Rate#Speedup Ratio2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Arcee Trinity Large Technical ReportarXiv에 게시된 'Arcee Trinity Large Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts#Sparse LLM#Training Stability#Load Balancing#MoE#Transformer Architecture#Context Extension#Muon Optimizer2026년 2월 19일댓글 수 로딩 중
[논문리뷰] ERNIE 5.0 Technical ReportHasuerYu이 arXiv에 게시한 'ERNIE 5.0 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Foundation Model#Autoregressive#Mixture-of-Experts#Elastic Training#Reinforcement Learning#Unified Architecture#Sparse MoE#Efficient Deployment2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Solar Open Technical ReportarXiv에 게시된 'Solar Open Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Mixture-of-Experts#Korean LLM#Synthetic Data Generation#Curriculum Learning#Reinforcement Learning#Tokenizer Optimization#Multilingual AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Token-Level LLM Collaboration via FusionRouteFurong Huang이 arXiv에 게시한 'Token-Level LLM Collaboration via FusionRoute' 논문에 대한 자세한 리뷰입니다.#Review#LLM Collaboration#Token-level Routing#Mixture-of-Experts#Complementary Logits#Preference Optimization#FusionRoute#Domain Adaptation2026년 1월 8일댓글 수 로딩 중
[논문리뷰] MiMo-V2-Flash Technical ReportarXiv에 게시된 'MiMo-V2-Flash Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts#Sliding Window Attention#Multi-Token Prediction#Multi-Teacher On-Policy Distillation#Reinforcement Learning#Long-Context Modeling#Agentic AI2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic ReasoningarXiv에 게시된 'Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts#Mamba-Transformer#Agentic Reasoning#Long Context LLM#FP8 Quantization#Supervised Fine-Tuning#Reinforcement Learning2025년 12월 24일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron 3: Efficient and Open IntelligencearXiv에 게시된 'NVIDIA Nemotron 3: Efficient and Open Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Hybrid Mamba-Transformer#Mixture-of-Experts#LatentMoE#NVFP4 Training#Multi-Token Prediction#Long Context#Reinforcement Learning#Open Models2025년 12월 24일댓글 수 로딩 중
[논문리뷰] INTELLECT-3: Technical ReportarXiv에 게시된 'INTELLECT-3: Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Large Language Models#Mixture-of-Experts#Asynchronous Training#Distributed Systems#Agentic AI#Code Execution#Model Evaluation2025년 12월 23일댓글 수 로딩 중
[논문리뷰] ProPhy: Progressive Physical Alignment for Dynamic World SimulationYuhao Cheng이 arXiv에 게시한 'ProPhy: Progressive Physical Alignment for Dynamic World Simulation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Physics-aware#World Simulation#Progressive Alignment#Mixture-of-Experts#Vision-Language Models#Token-level Routing2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Qwen3-VL Technical ReportarXiv에 게시된 'Qwen3-VL Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Multimodal Reasoning#Long-Context#Interleaved Data#Mixture-of-Experts#DeepStack#Agentic AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object DetectionAvishai Weizman이 arXiv에 게시한 'YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection' 논문에 대한 자세한 리뷰입니다.#Review#Object Detection#YOLOv9#Mixture-of-Experts#Adaptive Routing#Deep Learning#Computer Vision#Feature Specialization2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Soft Adaptive Policy OptimizationarXiv에 게시된 'Soft Adaptive Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Importance Ratios#Soft Clipping#Trust Region#Mixture-of-Experts#Asymmetric Temperature2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language FoundationarXiv에 게시된 'Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Mixture-of-Experts#Reasoning Capability#Sparse Activation#Scaling Laws#FP8 Training#Efficient Training#Instruction Tuning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Phased DMD: Few-step Distribution Matching Distillation via Score Matching within SubintervalsarXiv에 게시된 'Phased DMD: Few-step Distribution Matching Distillation via Score Matching within Subintervals' 논문에 대한 자세한 리뷰입니다.#Review#Distribution Matching Distillation#Few-step Diffusion#Score Matching#Mixture-of-Experts#Generative Models#Image Generation#Video Generation#Model Distillation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context ReasoningarXiv에 게시된 'Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Long-Context LLM#Hybrid Attention#Linear Attention#Mixture-of-Experts#FP8 Training#GPU Optimization#Training-Inference Alignment#Reinforcement Learning2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-TrainingPeng Cheng이 arXiv에 게시한 'Recycling Pretrained Checkpoints: Orthogonal Growth of Mixture-of-Experts for Efficient Large Language Model Pre-Training' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts#Large Language Models#Checkpoint Recycling#Model Growth#Efficient Pretraining#Depth Growth#Width Growth#Sunk Cost2025년 10월 10일댓글 수 로딩 중
[논문리뷰] NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data ConstraintsarXiv에 게시된 'NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Native MLLMs#Scaling Laws#Data Constraints#Visual Encoder#LLM Initialization#Mixture-of-Experts#End-to-end Training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Qwen3-Omni Technical ReportLhma-aslp이 arXiv에 게시한 'Qwen3-Omni Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Model#Thinker-Talker Architecture#Mixture-of-Experts#Low-latency#Audio Understanding#Cross-modal Reasoning#State-of-the-Art#Real-time Interaction2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SAIL-VL2 Technical ReportZijian Kang이 arXiv에 게시한 'SAIL-VL2 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Multimodal Understanding#Mixture-of-Experts#Progressive Training#Data Curation#Supervised Fine-tuning#Reinforcement Learning#SAIL-ViT2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Speed Always Wins: A Survey on Efficient Architectures for Large Language ModelsJusen Du이 arXiv에 게시한 'Speed Always Wins: A Survey on Efficient Architectures for Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Efficient Architectures#Transformer Optimization#Linear Attention#State Space Models#Mixture-of-Experts#Sparse Attention#Diffusion LLMs2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized AlignmentLei Fan이 arXiv에 게시한 'Learning to Align, Aligning to Learn: A Unified Approach for Self-Optimized Alignment' 논문에 대한 자세한 리뷰입니다.#Review#LLM Alignment#Reinforcement Learning from Human Feedback#Preference Learning#Group Relative Alignment Optimization#Self-Optimization#Mixture-of-Experts#Imitation Learning2025년 8월 14일댓글 수 로딩 중
[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation ModelsGLM-4. 5 Team이 arXiv에 게시한 'GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Model#Mixture-of-Experts#Agentic AI#Reasoning#Code Generation#Reinforcement Learning#Foundation Model2025년 8월 11일댓글 수 로딩 중
[논문리뷰] VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe ZooBin Jia이 arXiv에 게시한 'VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo' 논문에 대한 자세한 리뷰입니다.#Review#Omni-modal LLMs#Distributed Training#Model-centric#Parallelism#FSDP#Sequence Parallelism#Expert Parallelism#Mixture-of-Experts2025년 8월 5일댓글 수 로딩 중