Review

[논문리뷰] Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models

Maria Liakata이 arXiv에 게시한 'Fundamental Reasoning Paradigms Induce Out-of-Domain Generalization in Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Reasoning #Deduction #Induction #Abduction #Out-of-Domain Generalization #Symbolic Reasoning #Fine-tuning #Upcycling

2026년 2월 9일

[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

arXiv에 게시된 'Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition' 논문에 대한 자세한 리뷰입니다.

#Review #Video Understanding #In-Context Learning #Procedural Knowledge #Multimodal LLMs #Benchmark #Direct Preference Optimization #Demonstration Selection

2026년 2월 9일

[논문리뷰] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

arXiv에 게시된 'Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #Flow Matching #Text-to-Image Generation #Sparse Rewards #Credit Assignment #Turning Points #Group Relative Policy Optimization

2026년 2월 9일

[논문리뷰] AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research

arXiv에 게시된 'AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research' 논문에 대한 자세한 리뷰입니다.

#Review #Deep Research #Agentic Systems #Writing As Reasoning Policy (WARP)#Outline Generation #Iterative Refinement #Reinforcement Learning (RL)#Small Language Models

2026년 2월 9일

[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

arXiv에 게시된 'AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents' 논문에 대한 자세한 리뷰입니다.

#Review #AI Research Agents #LLM Agents #Machine Learning Benchmarks #Scientific Discovery #Code Generation #Evaluation Metrics #Scaffolds #Reproducibility

2026년 2월 9일

[논문리뷰] Self-Improving World Modelling with Latent Actions

Anna Korhonen이 arXiv에 게시한 'Self-Improving World Modelling with Latent Actions' 논문에 대한 자세한 리뷰입니다.

#Review #World Modeling #Latent Actions #Self-Improvement #Reinforcement Learning #LLMs #VLMs #Inverse Dynamics Model #Forward World Modelling

2026년 2월 8일

[논문리뷰] Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

Liqian Huang이 arXiv에 게시한 'Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training' 논문에 대한 자세한 리뷰입니다.

#Review #Multilingual Reasoning #Reinforcement Learning #Machine Translation #Question Understanding #Self-Improvement #Language Models #Cross-Lingual Alignment

2026년 2월 8일

[논문리뷰] SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

arXiv에 게시된 'SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks' 논문에 대한 자세한 리뷰입니다.

#Review #Multi-Turn Jailbreaks #LLM Safety #Red Teaming #Reinforcement Learning #Intent Drift #Response-Agnostic Generation #Self-Tuning

2026년 2월 8일

[논문리뷰] RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs

arXiv에 게시된 'RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Quantization #2-bit Quantization #Residual Binarization #Quantization-Aware Training (QAT)#Inter-Path Adaptation #Hardware Efficiency #Model Compression #Low-Bit LLMs

2026년 2월 8일

[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

Zhixin Wang이 arXiv에 게시한 'PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks' 논문에 대한 자세한 리뷰입니다.

#Review #Multimodal Models #Image Generation #Image Editing #Benchmark #Computer-Use Tasks #Planning #Evaluation Metrics

2026년 2월 8일

[논문리뷰] POINTS-GUI-G: GUI-Grounding Journey

Le Tian이 arXiv에 게시한 'POINTS-GUI-G: GUI-Grounding Journey' 논문에 대한 자세한 리뷰입니다.

#Review #GUI Grounding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering #UI Automation #Perception-intensive AI

2026년 2월 8일

[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

Yanxi Chen이 arXiv에 게시한 'On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics #Exploration-Exploitation #Policy Optimization #GRPO #Entropy Control #Discriminator Score

2026년 2월 8일

[논문리뷰] OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale

arXiv에 게시된 'OmniMoE: An Efficient MoE by Orchestrating Atomic Experts at Scale' 논문에 대한 자세한 리뷰입니다.

#Review #Mixture-of-Experts (MoE)#Fine-Grained Experts #Efficient Architectures #Transformer #Routing Algorithms #Hardware Acceleration #Sparse Models

2026년 2월 8일

[논문리뷰] OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

heroding77이 arXiv에 게시한 'OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Agents #Benchmarking #Inductive Reasoning #Long-Horizon Tasks #Active Exploration #World Models #Autonomous Discovery

2026년 2월 8일

[논문리뷰] MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

arXiv에 게시된 'MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments' 논문에 대한 자세한 리뷰입니다.

#Review #Mobile GUI Agents #Memory Benchmarking #Short-Term Memory #Long-Term Memory #LLM-as-Judge #Dynamic Environments #Evaluation Metrics #Task Automation

2026년 2월 8일

[논문리뷰] MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

arXiv에 게시된 'MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Training Stability #Gradient Explosion #Stable Rank #Jacobian Alignment #Matrix Sign Operation #Optimizer #Transformer

2026년 2월 8일

[논문리뷰] Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math

Amit Agarwal이 arXiv에 게시한 'Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Evaluation #Mathematical Reasoning #Oracle-Free Validation #Consequence-Based Utility #Solution Quality #In-Context Learning #Research-Level Math

2026년 2월 8일

[논문리뷰] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

arXiv에 게시된 'InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Iterative Reasoning #Reinforcement Learning #Large Language Models #Context Management #Summarization #Chain-of-Thought #Efficiency #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing

Zhen Zhang이 arXiv에 게시한 'Group-Evolving Agents: Open-Ended Self-Improvement via Experience Sharing' 논문에 대한 자세한 리뷰입니다.

#Review #Open-Ended Learning #Self-Improving Agents #Evolutionary Algorithms #Experience Sharing #Meta-Learning #Code Generation #Agent Frameworks

2026년 2월 8일

[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

arXiv에 게시된 'F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Reward Models #Diversity Preservation #Focal Loss #Group Sampling #Mathematical Reasoning

2026년 2월 8일