[논문리뷰] Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based OptimizersarXiv에 게시된 'Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers' 논문에 대한 자세한 리뷰입니다.#Review#Distributed Training#Matrix-based Optimizers#Load Balancing#Asynchronous Compute#Data Parallelism#Tensor Parallelism#ZeRO-1#LLMs2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-MakingarXiv에 게시된 'Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making' 논문에 대한 자세한 리뷰입니다.#Review#Medical LLM#Clinical Decision Support#Reinforcement Learning#Hallucination Suppression#Multi-task Learning#Speculative Decoding#Quantization#Clinical Inquiry2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative ProbabilitiesIvan Oseledets이 arXiv에 게시한 'Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#LLM Reasoning#Exploration-Exploitation#Group Relative Policy Optimization#Entropy Collapse#Generative Models#Confidence-Aware Rewards2026년 2월 8일댓글 수 로딩 중
[논문리뷰] AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncodersarXiv에 게시된 'AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders' 논문에 대한 자세한 리뷰입니다.#Review#Sparse Autoencoders (SAEs)#Audio Representation Learning#Model Interpretability#Whisper#HuBERT#Feature Steering#EEG Correlation#Audio Analysis2026년 2월 8일댓글 수 로딩 중
[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal RetrievalZeyu Zhang이 arXiv에 게시한 'V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Retrieval#Agentic AI#Large Language Models (LLMs)#Visual Tools#Chain-of-Thought (CoT)#Reinforcement Learning#Curriculum Learning#Evidence-Driven Reasoning2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video ReasoningarXiv에 게시된 'Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Visual Reasoning#Zero-Shot Generalization#Test-Time Scaling#Visual Context#Sequential Planning#Continuous Manipulation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMsarXiv에 게시된 'SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Reasoning Modes#Hybrid Autoregressive#Latent Visual Reasoning#Dynamic Mode Selection#Supervised Fine-tuning#Vision-Language Tasks2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Steering LLMs via Scalable Interactive OversightarXiv에 게시된 'Steering LLMs via Scalable Interactive Oversight' 논문에 대한 자세한 리뷰입니다.#Review#Scalable Oversight#Interactive AI#Large Language Models#Human-AI Collaboration#Product Requirement Documents#Reinforcement Learning#Structured Interaction#Vibe Coding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive ScreeningarXiv에 게시된 'Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Agent Security#Intrinsic Risk Sensing#Adaptive Defense#Hierarchical Screening#Attack Detection#S2Bench Benchmark2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Semantic Search over 9 Million Mathematical TheoremsarXiv에 게시된 'Semantic Search over 9 Million Mathematical Theorems' 논문에 대한 자세한 리뷰입니다.#Review#Semantic Search#Theorem Retrieval#LLMs#Dense Retrieval#Mathematical Information Retrieval#Vector Embeddings#Mathematical Dataset#RAG2026년 2월 5일댓글 수 로딩 중
[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research AgentsChen Zhao이 arXiv에 게시한 'SAGE: Benchmarking and Improving Retrieval for Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Agents#Scientific Literature Retrieval#LLM-based Retrievers#Benchmarking#Test-time Scaling#Information Retrieval#Query Decomposition#RAG2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning CapabilitiesarXiv에 게시된 'Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities' 논문에 대한 자세한 리뷰입니다.#Review#Retrieval-Augmented Generation#Large Language Models#Reasoning#Benchmark#Deep Search#Error Analysis#Scientific Problem Solving#Context Understanding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Reinforcement World Model Learning for LLM-based AgentsarXiv에 게시된 'Reinforcement World Model Learning for LLM-based Agents' 논문에 대한 자세한 리뷰입니다.#Review#LLM-based Agents#World Model Learning#Reinforcement Learning#Self-Supervised#Environment Dynamics#Sim-to-Real Reward#Textual States2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Reinforced Attention LearningarXiv에 게시된 'Reinforced Attention Learning' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Multimodal LLMs#Attention Mechanisms#Policy Gradient#Knowledge Distillation#Visual Grounding#Post-training2026년 2월 5일댓글 수 로딩 중
[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?Zicheng Zhang이 arXiv에 게시한 'RISE-Video: Can Video Generators Decode Implicit World Rules?' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Implicit Reasoning#Benchmark#Evaluation#Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)2026년 2월 5일댓글 수 로딩 중
[논문리뷰] ProAct: Agentic Lookahead in Interactive EnvironmentsarXiv에 게시된 'ProAct: Agentic Lookahead in Interactive Environments' 논문에 대한 자세한 리뷰입니다.#Review#Agentic AI#Large Language Models#Reinforcement Learning#Lookahead Reasoning#Monte-Carlo Tree Search#Supervised Fine-Tuning#Value Estimation#Simulation Drift2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across TasksZhiyong Wang이 arXiv에 게시한 'Multi-Task GRPO: Reliable LLM Reasoning Across Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models (LLMs)#Multi-Task Learning#Reinforcement Learning#Policy Optimization#GRPO#Task Reweighting#Robustness#Reasoning Benchmarks2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVRZhixiong Zeng이 arXiv에 게시한 'Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning with Verifiable Rewards#LLMs#Policy Optimization#Response Length Bias#Sequence-level Clipping#Length-Unbiased Optimization#Multimodal Reasoning2026년 2월 5일댓글 수 로딩 중
[논문리뷰] LatentMem: Customizing Latent Memory for Multi-Agent SystemsZefeng He이 arXiv에 게시한 'LatentMem: Customizing Latent Memory for Multi-Agent Systems' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Agent Systems#LLM Memory#Latent Representation#Role-Aware#Token Efficiency#Policy Optimization#Continual Adaptation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] InterPrior: Scaling Generative Control for Physics-Based Human-Object InteractionsXiaohan Fei이 arXiv에 게시한 'InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions' 논문에 대한 자세한 리뷰입니다.#Review#Human-Object Interaction#Physics-Based Simulation#Generative Control#Reinforcement Learning#Imitation Learning#Variational Policy#Failure Recovery#Loco-Manipulation2026년 2월 5일댓글 수 로딩 중