[논문리뷰] When Does Multi-Agent RL Improve LLM Workflows? Workflow, Scale, and Policy-Sharing Tradeoffs본 논문은 다중 에이전트 LLM 워크플로우의 end-to-end 강화학습 시 발생하는 성능 불안정성과 그 원인을 체계적으로 규명하는 것을 목표로 합니다. 기존 연구들은 개별 워크플로우에 특화된 알고리즘을 제안하는 데 그쳤으며, 왜 특정 환경에서 학습이 성공하거나 실패하는지에 대한 근본적인 메커니즘을 설명하지 못했습니다 .#Review#Multi-Agent RL#LLM Workflows#Reinforcement Learning#Policy-Sharing#Gradient Dynamics#Role Drift2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Policy and World Modeling Co-Training for Language Agents본 논문은 LLM Agent가 표준 RL 학습 과정에서 보상 최적화에만 치중하여 환경의 결과 예측 능력을 결여하는 문제를 해결합니다. 기존 연구들은 별도의 시뮬레이터나 복잡한 다단계 학습, 혹은 추론 시 추가 연산을 요구하여 시스템 복잡도를 높이는 한계가 있었습니다.#Review#Language Agents#Reinforcement Learning#World Modeling#Co-Training#On-policy RL#Clipped MAE#Reward-adaptive Loss2026년 6월 1일댓글 수 로딩 중
[논문리뷰] On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters본 논문은 범용적인 기초 모델을 넘어 수백만 명의 개인별 요구사항을 지속적으로 반영할 수 있는 '개인화된 모델(Personal Models)'의 확장성 문제를 해결하고자 합니다.#Review#PEFT#LoRA#Personal Models#Reinforcement Learning#MoE#Infrastructure#Scaling Laws2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses본 연구는 기존 검색 에이전트들이 semantic 검색 결정과 복잡한 상태 관리(bookkeeping)를 동시에 수행함에 따라 발생하는 학습의 비효율성과 성능 저하 문제를 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Reinforcement Learning#Stateful Harness#Cognitive Offloading#Search Agents2026년 6월 1일댓글 수 로딩 중
[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.#Review#Reinforcement Learning#Large Language Models#Proximal Policy Optimization#Early Stopping#Reasoning#Compute Efficiency#Credit Assignment2026년 6월 1일댓글 수 로딩 중
[논문리뷰] iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning본 논문은 MLLM의 fine-grained perception을 향상하기 위해 도입된 Visually Grounded CoT가 오히려 추론 단계에서 성능 저하를 일으킬 수 있다는 문제점을 지적합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Visually Grounded Reasoning#Chain-of-Thought#Dual-Stream Training#Test-Time Scaling2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Task-Focused Memorization for Multimodal Agents본 논문은 멀티모달 에이전트가 방대한 스트리밍 데이터 속에서 '무엇을 메모리화할 것인가'를 스스로 판단해야 하는 문제를 해결하고자 한다.#Review#Multimodal Agents#Long-term Memory#Reinforcement Learning#Task-Focused Memorization#Direct Preference Optimization#Streaming VQA2026년 5월 31일댓글 수 로딩 중
[논문리뷰] SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks본 연구는 기존 LLM의 Self-play가 수학, 코드 등 규칙 검증이 가능한 도메인에 한정되어 있으며, 오픈형 과제에서는 외부 데이터나 Frontier Model에 대한 의존성을 벗어나지 못한다는 문제점을 해결하고자 합니다.#Review#Self-Play#Open-Ended Tasks#Reinforcement Learning#Rubric Reward#Retrieval-Augmented Generation#Co-Evolution#Data-Free2026년 5월 31일댓글 수 로딩 중
[논문리뷰] SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search본 논문은 Agentic Search 시스템에서 발생하는 심각한 Over-search 문제를 해결하기 위해 SAAS 프레임워크를 제안합니다.#Review#Agentic Search#Reinforcement Learning#Over-Search Mitigation#Knowledge Boundary#Search Efficiency#Reward Hacking2026년 5월 31일댓글 수 로딩 중
[논문리뷰] LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards본 논문은 기존 long-context 강화학습이 가진 데이터의 낮은 난이도와 보상 신호의 희소성(Sparsity) 문제를 해결하고자 합니다.#Review#Long-Context#Reinforcement Learning#Rubric Reward#Search Agent Trajectories#Tiered Distractors#Multi-hop Reasoning2026년 5월 31일댓글 수 로딩 중
[논문리뷰] GrepSeek: Training Search Agents for Direct Corpus Interaction본 논문은 기존의 retrieval-augmented agentic search 시스템이 pre-computed index와 retriever에 의존함으로써 발생하는 한계를 해결하고자 합니다.#Review#Direct Corpus Interaction#Search Agent#Reinforcement Learning#Sharded-Parallel Execution#Information Retrieval#Agentic Search2026년 5월 31일댓글 수 로딩 중
[논문리뷰] GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language ModelsdLLMs는 기존의 Autoregressive Models(ARMs) 대비 효율적인 생성 성능을 제공하지만, 최적의 성능을 위해 필요한 강화학습(RL) 적용 시 정책 likelihood가 계산 불가능하다는 핵심적인 난관에 직면합니다.#Review#Diffusion Language Models#Reinforcement Learning#Self-Distillation#Training-Inference Mismatch#Logit Matching2026년 5월 31일댓글 수 로딩 중
[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#Multi-Turn Optimization#Importance Sampling#Distribution Matching2026년 5월 31일댓글 수 로딩 중
[논문리뷰] When Should Models Change Their Minds? Contextual Belief Management in Large Language Models본 논문은 LLM이 장기적인 상호작용 속에서 누적되는 정보들 중 무엇을 믿고, 무엇을 수정하며, 무엇을 무시해야 하는지에 대한 문제(CBM)를 해결하고자 합니다. 기존의 LLM은 문맥 내에서 제공되는 형식적 증거를 따르기보다 사전 학습된 파라메트릭 지식이나 문맥상의 노이즈에 과도하게 의존하는 경향이 있습니다 .#Review#Contextual Belief Management#Large Language Models#BeliefTrack#Reinforcement Learning#Contextual Interference#Symbolic Verification2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering본 논문은 지식 집약적 QA 작업에서 LLM의 사실적 정확도를 높이기 위한 효율적인 보상 신호가 부족하다는 점을 문제로 지적합니다.#Review#Reinforcement Learning#Factuality#Process Supervision#Wikipedia#Co-occurrence#Large Language Models#GRPO2026년 5월 28일댓글 수 로딩 중
[논문리뷰] RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains본 연구는 비검증(non-verifiable) 도메인에서의 LLM 평가가 가진 주관성과 기존 rubric 기반 평가의 모델 의존성 문제를 해결하고자 합니다.#Review#Reward Modeling#Rubric-based Evaluation#Reinforcement Learning#Pointwise Reward#LLM Alignment#Preference Optimization2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments본 논문은 기존의 embodied AI 모델들이 특정 작업이나 로봇 플랫폼에만 고도화되어 있어 발생하는 파편화(fragmentation) 문제를 해결하기 위해 통합 모델을 제안합니다. 현재의 방식은 데이터 활용도가 낮고 일반화 성능이 제한적이라는 한계가 있습니다.#Review#Embodied Intelligence#Vision-Language-Action Models#Flow-matching#Multi-task Learning#Cross-embodiment#Reinforcement Learning2026년 5월 28일댓글 수 로딩 중
[논문리뷰] LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training본 논문은 RL post-training 과정에서 발생하는 data contamination이 모델의 평가 신뢰성과 일반화 성능을 저해한다는 문제를 지적한다. 기존의 탐지 방식은 주로 token likelihood나 entropy 등 출력(Output-level) 신호에 의존해왔다.#Review#Data Contamination#Reinforcement Learning#Membership Inference Attack#Representation Geometry#Representation Dynamics#Model Interpretability2026년 5월 28일댓글 수 로딩 중
[논문리뷰] AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security본 논문은 현대 에이전트 시스템(예: OpenClaw)의 강력한 실행 능력으로 인해 기존 안전성 프레임워크가 대응하기 어려운 광범위한 위험 요소가 발생하고 있다는 문제의식에서 출발한다. 기존 연구들은 주로 단일 시점의 입력이나 출력만을 평가하여 궤적 전체에 누적되는 복합적인 위험 패턴을 탐지하는 데 한계가 있었다 .#Review#Agent Safety#Alignment Framework#AgentDoG 1.5#Trajectory-level Diagnosis#Reinforcement Learning#Online Guardrail2026년 5월 28일댓글 수 로딩 중
[논문리뷰] ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation본 논문은 추천 시스템이 과거 데이터를 단순히 모방하는 것을 넘어, 사용자의 선호도를 새로운 영역으로 확장하는 Proactive Recommendation의 한계를 해결하고자 한다.#Review#Proactive Recommendation#Reinforcement Learning#Policy Gradient Estimation#Path Feasibility#Guidance Effectiveness2026년 5월 27일댓글 수 로딩 중
[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning본 논문은 기존 Diffusion Transformers(DiTs) 기반 비디오 생성 모델이 가진 2차 복잡도의 연산 비용 문제를 해결하고, 고해상도 비디오 생성 효율을 높이는 것을 목표로 한다.#Review#Video Generation#Diffusion Transformers#Sparse Attention#Sequence Parallelism#Quantization#Reinforcement Learning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.#Review#Multi-Token Prediction#Reinforcement Learning#Optimization#Optimal Coefficient Calibration#Large Language Models#Mathematical Reasoning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders본 논문은 LLM post-training에서 데이터 엔지니어링이 모델 성능 향상의 핵심임에도 불구하고, 기존 방식들은 주로 외부 피드백(인간 선호도, 보상 모델, rollout 결과 등)에 의존하여 비용이 높고 효율성이 제한적이라는 문제에서 출발한다.#Review#Sparse Autoencoder#LLM Post-training#Reinforcement Learning#Data Engineering#Mechanistic Interpretability#Curriculum Learning#Data Selection2026년 5월 27일댓글 수 로딩 중
[논문리뷰] DenoiseRL: Bootstrapping Reasoning Models to Recover from Noisy Prefixes본 논문은 LLM의 추론 성능 향상을 위해 외부의 강력한 teacher 모델이나 복잡하게 큐레이션된 학습 데이터에 의존해야 하는 기존 RL 패러다임의 한계를 해결하고자 합니다. 기존 방식들은 학습 데이터의 품질이나 교사의 지식 수준에 따라 성능이 제약되는 structural limitation을 가지고 있습니다.#Review#Reinforcement Learning#Reasoning Models#Denoising Reasoning#Weak-to-Strong Generalization#Self-correction#Large Language Models2026년 5월 27일댓글 수 로딩 중
[논문리뷰] AgentFugue: Agent Scaling for Long-Horizon Tasks through Collective Reasoning본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 Long-Horizon Tasks 수행 능력 향상에 Scaling Out 전략이 기여할 수 있는지에 대한 연구를 수행한다.#Review#Agent Scaling#Collective Reasoning#Long-Horizon Tasks#Shared Reasoning Hub#Multi-Agent Systems#Homogeneous Teams#Heterogeneous Teams#Reinforcement Learning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Agent Explorative Policy Optimization for Multimodal Agentic Reasoning본 논문은 vision-language models(VLMs)의 agentic reasoning 과정에서 발생하는 '도구 사용의 비효율성' 문제를 해결하고자 합니다.#Review#Multimodal Agentic Reasoning#Reinforcement Learning#GRPO#AXPO#Tool-call Resampling#Thinking-Acting Gap#Vision-Language Models2026년 5월 27일댓글 수 로딩 중
[논문리뷰] MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research모바일 GUI Agent 연구는 빠른 발전을 보였지만, 현재 평가 및 훈련 환경은 근본적인 Trade-off 문제에 직면해 있다.#Review#Mobile GUI Agent#Simulation Environment#Reinforcement Learning#Verifiable Outcome Signals#Interaction Fidelity#MobileGym-Bench#Sim-to-Real Transfer2026년 5월 26일댓글 수 로딩 중
[논문리뷰] EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation본 연구는 generative video foundation models의 빠른 발전으로 professional-grade cinematic synthesis에 대한 수요가 증가함에 따라, Reinforcement Learning (RL) 및 agentic workflows로의 전환에 필요한 신뢰할 수 있는 평가의 bottleneck 문제를 해결하고자 한다.#Review#Video Generation#Benchmarking#Cinematic Quality#VLM#Chain-of-Thought#Human-Machine Alignment#Evaluation Framework#Reinforcement Learning2026년 5월 26일댓글 수 로딩 중
[논문리뷰] QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks본 논문은 Deep Research Agents의 광범위한 역량을 갖춘 훈련 방식의 불투명성과 기존 Open-weight 모델들의 한계점을 해결하고자 한다.#Review#Deep Research Agents#Synthetic Data#Rubric Tree#Context Management#Reinforcement Learning#Fact Seeking#Citation Grounding#Report Synthesis2026년 5월 25일댓글 수 로딩 중
[논문리뷰] Macaron-A2UI: A Model for Generative UI in Personal Agents본 논문은 Personal Agent가 복잡하고 사용자 중심적인 Task를 처리함에 따라, 기존의 Static Plain-Text Chat이 병목 현상으로 작용하는 문제를 해결하고자 한다.#Review#Generative UI#Personal Agents#A2UI#Reinforcement Learning#Supervised Fine-tuning#Dialogue Systems2026년 5월 25일댓글 수 로딩 중
[논문리뷰] HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon AgentsLong-horizon 과업에서 에이전트가 Sparse Reward 환경 하에 학습할 때, 전통적인 탐색 방법은 최적의 Policy를 수렴하는 데 극도로 긴 시간이 소요됩니다.#Review#Long-Horizon#Self-Distillation#Hindsight Experience Replay#Reinforcement Learning#Sparse Reward#Goal-Conditioned Policy2026년 5월 24일댓글 수 로딩 중
[논문리뷰] Geo-Align: Video Generation Alignment via Metric Geometry Reward본 연구는 기존 비디오 생성 모델이 텍스트 프롬프트와의 의미적 정렬(Semantic Alignment)을 유지하는 데 있어 발생하는 낮은 일관성 문제를 해결하고자 합니다.#Review#Video Generation#Alignment#Metric Geometry#Reward Model#Reinforcement Learning#Diffusion Models2026년 5월 24일댓글 수 로딩 중
[논문리뷰] Unsupervised Process Reward Models본 논문은 기존 PRM 학습에 필수적인 인간 전문가의 단계별 주석 데이터가 갖는 높은 비용과 확장성 문제를 해결하고자 합니다.#Review#Unsupervised Learning#Process Reward Models#Reinforcement Learning#Reasoning#Test-time Scaling#LLM-as-a-Judge2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning본 논문은 기존의 프롬프트 기반 스프레드시트 에이전트가 실제 비즈니스 환경의 복잡하고 다단계적인 워크플로우를 처리하는 데 한계가 있다는 문제 의식에서 출발한다.#Review#Large Language Model Agents#Reinforcement Learning#Spreadsheet Automation#GRPO#Excel Environment#Domain-Spreadsheet Benchmark2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles본 논문은 현대 LLM 에이전트가 특정 도메인에 강점을 가진 다양한 전문가 모델과 모듈식 스킬을 효과적으로 활용하지 못하는 Coordination Bottleneck 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Multimodal Agent#Orchestration#Skill Library#Expert Models#Hierarchical Registry2026년 5월 21일댓글 수 로딩 중
[논문리뷰] The Unlearnability Phenomenon in RLVR for Language Models본 논문은 LLM 학습 과정에서 특정 문제들이 정답 보상을 받음에도 불구하고 왜 지속적으로 학습되지 않는지(Unlearnability)라는 역설적인 현상을 규명합니다.#Review#Large Language Models#Reinforcement Learning#RLVR#Unlearnability#Gradient Outliers#Representation Learning2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Stitched Value Model for Diffusion Alignment본 논문은 diffusion model의 효과적인 alignment를 위해 noisy latent regime에서 정확하고 효율적인 Value Function을 구축하는 문제를 다룬다.#Review#Diffusion Models#Alignment#Value Function#Model Stitching#Reward Modeling#Inference-time Steering#Reinforcement Learning2026년 5월 20일댓글 수 로딩 중
[논문리뷰] PlanningBench: Generating Scalable and Verifiable Planning Data for Evaluating and Training Large Language Models본 논문은 기존의 계획 벤치마크가 고정된 인스턴스 집합에 의존하여 시나리오의 다양성과 구조적 복잡도를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 단순히 프롬프트 길이 등 표면적인 지표로 난이도를 측정하며, 자동화된 검증 및 확장 가능한 데이터 생성이 결여되어 있었습니다.#Review#Large Language Models#PlanningBench#Constraint-driven Synthesis#Reinforcement Learning#Verifiable Data#Taxonomy2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Mem-π: Adaptive Memory through Learning When and What to Generate본 논문은 기존 LLM 에이전트의 정적인 메모리 검색 패러다임이 갖는 한계를 극복하기 위해 제안되었습니다. 현재의 메모리 증강 에이전트들은 주로 외부 저장소에서 과거의 경험을 검색하는 방식에 의존하지만, 이러한 검색된 데이터는 현재의 에이전트 맥락과 맞지 않거나 지나치게 특수하여 범용성이 떨어지는 문제가 있습니다.#Review#Large Language Model Agents#Generative Memory#Reinforcement Learning#Adaptive Memory#Abstention Policy#Decoupled Policy Optimization2026년 5월 20일댓글 수 로딩 중
[논문리뷰] IndusAgent: Reinforcing Open-Vocabulary Industrial Anomaly Detection with Agentic Tools본 논문은 MLLM의 강력한 제로샷 성능에도 불구하고, 고도의 정밀함이 요구되는 산업 환경에서 도메인 불일치 및 구조적 환각(structural hallucination)으로 인해 발생하는 이상 탐지 성능 저하 문제를 해결합니다 .#Review#Industrial Anomaly Detection#Multimodal Large Language Models#Agentic Framework#Reinforcement Learning#Tool Augmentation#Zero-shot Learning2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Video Models Can Reason with Verifiable Rewards본 논문은 기존의 비디오 생성 모델이 시각적 사실성(Perceptual Realism)은 뛰어나지만, 특정 논리적 제약을 만족해야 하는 추론 문제 해결에는 한계가 있다는 점을 지적합니다. 기존의 지도 학습(SFT) 방식은 생성된 영상의 외형적 패턴을 모방할 뿐, 영상 내부의 물리적·논리적 올바름을 보장하지 못합니다 .#Review#Video Generation#Reinforcement Learning#Verifiable Rewards#Video Reasoning#Diffusion Models#Flow-Matching#RLVR2026년 5월 19일댓글 수 로딩 중
[논문리뷰] GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment본 논문은 현재 긴 문맥 이해를 위한 RL 학습이 데이터의 편향된 구성과 보상 신호의 불균일성으로 인해 비효율적으로 진행된다는 점을 핵심 문제로 지적한다.#Review#Long-Context RL#Capability-Oriented Data#Reinforcement Learning#Multitask Alignment#Advantage Estimation#TMN-Reweight2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information본 논문은 LLM의 추론 능력을 강화하기 위한 on-policy self-distillation 기법이 수학적 추론 과제에서 일관된 성능 향상을 보이지 못하는 문제를 해결합니다.#Review#Reinforcement Learning#Self-Distillation#Reasoning#Pointwise Mutual Information#LLM#GRPO#Jensen-Shannon Divergence2026년 5월 19일댓글 수 로딩 중
[논문리뷰] VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation본 논문은 기존의 LLM 기반 비디오 이해 모델들이 겪는 공간적·시간적 참조의 모호성 문제를 해결하기 위해 VideoSeeker를 제안한다.#Review#Large Vision-Language Models#Instance-level Video Understanding#Visual Prompts#Agentic Tool Invocation#Reinforcement Learning#Data Synthesis Pipeline2026년 5월 18일댓글 수 로딩 중
[논문리뷰] OProver: A Unified Framework for Agentic Formal Theorem Proving본 논문은 기존 formal theorem proving 시스템이 증명 실패 시의 feedback과 retrieval을 inference-time heuristic으로만 사용하여 학습과 추론 간의 불일치(mismatch)가 발생하는 문제를 해결하고자 합니다.#Review#Formal Theorem Proving#Lean 4#Agentic Proving#Compiler Feedback#Test-Time Refinement#Reinforcement Learning2026년 5월 18일댓글 수 로딩 중
[논문리뷰] KVPO: ODE-Native GRPO for Autoregressive Video Alignment via KV Semantic Exploration기존의 비디오 생성 모델 정렬 기법들은 주로 노이즈 기반의 탐색(exploration)이나 SDE 기반의 surrogate policy를 사용하여, 결정론적(deterministic) ODEdynamics로 작동하는 distilled AR 모델의 특성과 상충하는 문제를 야기합니다 .#Review#Autoregressive Video Generation#Reinforcement Learning#Policy Optimization#Flow Matching#KV Caching#Causal-Semantic Exploration#Trajectory Velocity Energy2026년 5월 18일댓글 수 로딩 중
[논문리뷰] AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents본 연구는 기존 VLM 에이전트가 긴 호흡의 공간적 과업(long-horizon spatial tasks)을 수행할 때 발생하는 '공간적 맹목(spatial blindness)'과 '모달리티 불일치(modality mismatch)' 문제를 해결합니다.#Review#VLM Agents#Visual Skill Memory#Reinforcement Learning#Reward Shaping#Spatial Reasoning#Self-Evolving2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Agent Bazaar: Enabling Economic Alignment in Multi-Agent Marketplaces본 논문은 LLM 기반의 자율 에이전트가 시장에서 상호작용할 때 발생하는 체계적인 경제적 리스크를 해결하고자 한다. 기존의 AI 정렬 방식은 개별 에이전트의 사실성이나 무해성에만 집중할 뿐, 다수의 에이전트가 상호작용하며 만드는 시장 수준의 불안정성을 제어하지 못한다.#Review#Multi-Agent Systems#Economic Alignment#Large Language Models#Simulation Framework#Market Stability#Reinforcement Learning2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution본 논문은 기존 LLM 기반 경쟁 프로그래밍 에이전트들이 가진 상태 비저장(stateless) 구조의 한계를 해결하고자 합니다. 대다수의 최신 프레임워크는 문제 해결 시마다 처음부터 시작하며, 과거의 디버깅 경험이나 실패 기록을 재사용하지 못하는 고립된 구조를 띱니다 .#Review#Large Language Models#Competitive Programming#Agentic Evolution#Reinforcement Learning#Knowledge Network#Code Generation#Multi-Agent System2026년 5월 17일댓글 수 로딩 중
[논문리뷰] PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control본 연구는 기존 GUI 에이전트들이 주로 의존하는 'region-tolerant' 패러다임이 정밀한 기하학적 구성 작업에서 실패하는 근본적인 문제를 해결하고자 한다.#Review#GUI Agents#Geometric Reasoning#Precision-Sensitive#Dependency-Structured Planning#Pixel-Grounded Supervised Tuning#Reinforcement Learning#Semantic-Execution Gap2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR본 논문은 RLVR 환경에서 고질적인 문제인 탐색의 병목 현상을 해결하고자 합니다. 기존 방식은 탐색 효율을 높이기 위해 샘플링 횟수(Rollout)를 무작정 늘리는 방식을 취하지만, 이는 계산 비용이 극심하고 long-tail에 위치한 희귀한 정답 추론 경로를 발견하는 데 한계가 있습니다 .#Review#RLVR#Reinforcement Learning#Exploration#LLM Reasoning#Strategy Nudging#Inter-Intra Group Advantage#Distillation2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards본 논문은 기존 RLVR 패러다임이 가진 sparse binary reward와 weak credit assignment 문제를 해결하여 모델의 추론 능력을 극대화하는 것을 목적으로 합니다.#Review#Reinforcement Learning#Large Language Models#Verifiable Rewards#Policy Optimization#Error Correction#Reasoning Capability2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Hölder Policy Optimisation본 논문은 LLM의 long-horizon 추론 과제에서 GRPO와 같은 기존 그룹 기반 RL 알고리즘이 사용하는 고정된 aggregation mechanism의 한계를 지적한다.#Review#Reinforcement Learning#Large Language Models#Hölder Mean#Gradient Concentration#Policy Optimisation#Group Relative Policy Optimisation (GRPO)2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization본 논문은 Video Diffusion Model의 효율적인 정렬(Alignment)을 위한 단일 단계(Single-step) 훈련 프레임워크인 Flash-GRPO를 제안합니다 .#Review#Video Diffusion Models#Group Relative Policy Optimization#Reinforcement Learning#Single-step Training#Iso-temporal Grouping#Temporal Gradient Rectification#Alignment2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning본 논문은 현재 T2I(Text-to-Image) 모델이 의존하는 single-step generation 패러다임의 한계를 극복하고자 합니다.#Review#Text-to-Image Generation#Chain-of-Thought#Reinforcement Learning#Diffusion Models#Test-time Scaling#Model Alignment#Efficient Inference2026년 5월 14일댓글 수 로딩 중
[논문리뷰] RewardHarness: Self-Evolving Agentic Post-Training본 논문은 기존의 Reward Modeling 방식이 대규모 인간 피드백 데이터에 의존하여 비용이 높고, 유연성이 부족하다는 문제점을 해결하고자 합니다.#Review#Reward Modeling#Agentic AI#Self-Evolution#Multimodal Evaluation#In-Context Learning#Reinforcement Learning2026년 5월 14일댓글 수 로딩 중
[논문리뷰] RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO본 논문은 기존의 고성능 양방향(Bidirectional) 비디오 확산 모델이 실시간 스트리밍 생성에는 부적합하다는 점을 해결하고자 합니다. 기존의 인과적(Causal) 자동 회귀 모델들은 학습 단계에서 사용하는 히스토리 분포와 실제 추론 시의 분포가 달라 품질이 저하되는 문제가 있습니다.#Review#Autoregressive Video Generation#Diffusion Models#Consistency Models#Reinforcement Learning#GRPO#Training-Time Test#Video Extrapolation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation본 논문은 현재의 비디오 생성 모델이 높은 시각적 사실성에도 불구하고, 인체의 관절 움직임과 같은 물리적 법칙을 심각하게 위반하는 아티팩트를 빈번하게 생성한다는 문제점에 주목합니다 .#Review#Human Video Generation#Reinforcement Learning#Motion Reward#Physical Feasibility#3D Human Motion#SMPL#MuJoCo2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis본 논문은 언어 모델의 자기 개선(Self-improvement)이 단순히 정적인 데이터셋을 모방하는 것을 넘어, 모델이 자신을 학습시킬 새로운 환경을 스스로 구축해야 한다는 관점에서 출발합니다.#Review#Reinforcement Learning#Reasoning RL#Verifiable Environment Synthesis#Self-Improving LLM#Stable Solve–Verify Asymmetry2026년 5월 14일댓글 수 로딩 중
[논문리뷰] FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale본 논문은 open-ended 코딩 훈련을 위한 고품질 데이터의 부족 문제를 해결하기 위해 FrontierSmith를 제안합니다.#Review#FrontierSmith#Open-ended Coding#LLM#Idea Divergence#Automated Data Synthesis#Reinforcement Learning2026년 5월 14일댓글 수 로딩 중
[논문리뷰] CurveBench: A Benchmark for Exact Topological Reasoning over Nested Jordan Curves본 논문은 현대의 Vision-Language Models(VLMs)가 시각적 입력으로부터 위상적 위계 구조를 정확하게 파악하는 데 한계를 보인다는 문제를 해결하고자 합니다.#Review#Topological Reasoning#Vision-Language Models#Jordan Curves#Reinforcement Learning#Structured Prediction#Containment Tree2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Boosting Omni-Modal Language Models: Staged Post-Training with Visually Debiased Evaluation본 논문은 현대의 Omni-modal LLM들이 기록하는 벤치마크 성능 향상이 진정한 모달리티 통합(integration)보다는 visual shortcut을 활용한 결과일 수 있다는 문제를 제기합니다.#Review#Omni-modal LLM#Visual Leakage#OmniClean#Staged Post-Training#Self-Distillation#Reinforcement Learning2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Adaptive Teacher Exposure for Self-Distillation in LLM Reasoning본 논문은 LLM reasoning을 위한 On-Policy Self-Distillation (OPSD)에서 teacher-side exposure mismatch라는 간과된 bottleneck을 식별하고 해결하고자 합니다.#Review#Self-Distillation#LLM Reasoning#Teacher Exposure#On-Policy#Adaptive Control#Reinforcement Learning#Beta-policy2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling본 연구는 고도의 수학 및 과학 Olympiad 문제에서 금메달 수준의 추론 능력을 갖춘 모델을 만들기 위한 간단하고 통합된 레시피를 제안합니다. 기존의 일반적인 추론 모델들은 수학적 문제 해결에서 단기적인 성과를 내지만, 복잡한 증명 문제에 필요한 엄격한 추론과 검증 능력이 부족하다는 한계가 있습니다.#Review#Olympiad Reasoning#Reinforcement Learning#Test-time Scaling#Supervised Fine-tuning#Reasoning Models#Proof-search#Reverse-Perplexity Curriculum2026년 5월 14일댓글 수 로딩 중
[논문리뷰] RoboEvolve: Co-Evolving Planner-Simulator for Robotic Manipulation with Limited Data본 논문은 로봇 조작(Robotic Manipulation) 분야에서 작업에 최적화된 물리적 상호작용 데이터가 부족하다는 근본적인 문제를 해결하고자 합니다.#Review#Robotic Manipulation#Vision-Language Models#Video Generation Models#Self-Evolving Framework#Complementary Learning Systems#Data Efficiency#Reinforcement Learning2026년 5월 13일댓글 수 로딩 중
[논문리뷰] MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading본 논문은 기존 long-context reasoning 모델들이 겪는 '정보의 영구적 손실'과 '무분별한 검색으로 인한 노이즈 유입' 문제를 해결하기 위해 MemReread를 제안한다. 기존 retrieval 기반 에이전트는 검색 쿼리의 부정확성과 불필요한 검색으로 인해 핵심 신호가 희석되는 한계를 가진다 .#Review#Long-Context Reasoning#Agentic Memory#Rereading#Reinforcement Learning#GRPO#Information Retrieval#Contextual Inference2026년 5월 13일댓글 수 로딩 중
[논문리뷰] HAGE: Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution본 논문은 기존의 에이전트 메모리 시스템이 정적인 검색(Static Lookup)이나 고정된 휴리스틱 그래프 탐색에 의존하여 장기 기억 활용의 효율성이 저하되는 문제를 해결하고자 합니다.#Review#Agentic Memory#Graph-based Retrieval#Reinforcement Learning#Query-Conditioned Traversal#Multi-Relational Graph#Memory-Augmented Generation2026년 5월 13일댓글 수 로딩 중
[논문리뷰] F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking본 논문은 LLM 기반의 검색 및 추천 시스템에서 발생하는 결합된 list-to-rank 최적화 문제를 해결하고자 한다. 기존의 Black-box LLM 접근법은 후보군 생성과 순위 결정을 단일 결과물로 출력하여 두 과정 간의 기여도를 명확히 구분하지 못하는 한계가 있다.#Review#LLM#Reinforcement Learning#Retrieval & Ranking#GRPO#Factorized Policy#Sequential Recommendation#Multi-hop Question Answering2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.#Review#Image Editing#Reward Modeling#Benchmark#Multimodal Large Language Models#Reinforcement Learning#Visual Reasoning2026년 5월 13일댓글 수 로딩 중
[논문리뷰] RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards본 논문은 Verifiable Reward(검증 가능한 보상)가 부재한 Open-ended 환경에서 Deep Research 에이전트를 효율적으로 학습시키는 문제를 해결하고자 한다.#Review#Meta-RL#Deep Research#Reinforcement Learning#Policy Decomposition#Rubric-guided#Stagewise Credit Assignment#Reflection Meta-Policy2026년 5월 12일댓글 수 로딩 중
[논문리뷰] Rethinking RL for LLM Reasoning: It's Sparse Policy Selection, Not Capability Learning본 논문은 LLM 추론 능력 향상에 필수적이라고 여겨지는 RL이 실제로 새로운 전략을 학습하는 것이 아니라, 베이스 모델 내에 이미 존재하는 솔루션들의 확률 분포를 재조정하는 것임을 밝힙니다. 기존의 RLVR은 전체 토큰에 대해 비효율적으로 경사 하강법을 수행하지만, 실제 추론 성능 개선은 극히 일부 지점에서 발생합니다.#Review#Large Language Models#Reinforcement Learning#Reasoning#Decision Points#Sparse Policy Selection#Contrastive Fine-Tuning#Entropy-Gated2026년 5월 10일댓글 수 로딩 중
[논문리뷰] HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents본 논문은 기존 Multimodal search agents가 다중 엔티티 검색 시 직면하는 비효율적인 순차적(sequential) 툴 호출 문제를 해결하기 위해 제안되었다.#Review#Multimodal Search Agents#Reinforcement Learning#Efficiency-Aware#Unified Grounded Search#Parallel Tool Calling#IMEB Benchmark#On-Policy Distillation2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Gated QKAN-FWP: Scalable Quantum-inspired Sequence Learning본 논문은 기존 QFWP(Quantum Fast Weight Programmers)가 사용하는 다중 큐비트 회로가 NISQ(Noisy Intermediate-Scale Quantum) 장치에서 확장하기 어렵고, 고전적 시뮬레이션 비용이 크다는 문제를 해결하고자 한다.#Review#Fast Weight Programming#Quantum Machine Learning#Kolmogorov-Arnold Networks#Sequence Modeling#Reinforcement Learning2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Flow-OPD: On-Policy Distillation for Flow Matching Models본 논문은 Flow Matching 모델의 다중 작업 정렬(multi-task alignment) 과정에서 발생하는 보상 희소성(reward sparsity)과 기울기 간섭(gradient interference) 문제를 해결하고자 합니다.#Review#Flow Matching#On-Policy Distillation#Reinforcement Learning#Multi-task Alignment#Manifold Anchor Regularization#Text-to-Image2026년 5월 10일댓글 수 로딩 중
[논문리뷰] MARBLE: Multi-Aspect Reward Balance for Diffusion RL본 논문은 diffusion model을 human preference에 맞게 미세 조정할 때, 여러 개의 reward를 동시에 최적화하는 과정에서 발생하는 성능 저하 문제를 해결하고자 합니다.#Review#Diffusion Models#Reinforcement Learning#Multi-Reward Optimization#Gradient Harmonization#Reward Balancing#Alignment2026년 5월 7일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces본 논문은 LLM 기반의 에이전트가 개별적인 도구 사용을 넘어 조율된 팀 단위로 진화함에 따라, 기존의 단일 에이전트 RL이나 고전적 MARL 방법론이 갖는 한계를 지적한다.#Review#LLM#Multi-Agent Systems#Reinforcement Learning#Orchestration Trace#Credit Assignment#Reward Design#System Engineering2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Healthcare AI GYM for Medical Agents본 논문은 의료 AI 에이전트가 복잡한 다단계 임상 추론 환경에서 안정적인 툴 사용 정책을 학습하는 데 한계가 있다는 문제를 해결하고자 합니다. 기존의 단일 턴(single-turn) 기반 의료 QA 연구들은 실제 임상 환경의 핵심인 다단계 상호작용과 툴 활용 능력을 충분히 반영하지 못합니다.#Review#Medical AI Agents#Reinforcement Learning#On-Policy Distillation#Clinical Reasoning#Multi-turn Interaction#Healthcare AI GYM2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL본 논문은 LMM의 표준 post-training 파이프라인인 SFT→RLVR에서 발생하는 distributional drift 문제를 해결하고자 한다. 기존의 SFT는 토큰 수준의 uniform objective에 의존하여 모델이 피상적인 패턴만을 학습하게 만들며, 이는 모델의 본래 성능을 왜곡하는 결과를 초래한다.#Review#Multimodal LLM#Reinforcement Learning#On-Policy Distillation#Distributional Drift#Mixture-of-Experts (MoE)#Adversarial Alignment2026년 5월 5일댓글 수 로딩 중
[논문리뷰] WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning본 연구는 기존 LLM 기반 웹사이트 생성 방식이 겪고 있는 확장성 및 품질 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Website Generation#GRPO#Multimodal Reward#React2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks본 연구는 LLM 기반 에이전트가 복잡하고 긴 호라이즌(Long-Horizon)을 가진 환경에서 일관된 의사결정을 수행하지 못하는 문제를 해결하고자 합니다. 기존 LLM 에이전트는 경험을 체계적으로 발견, 보유, 재사용할 수 있는 메커니즘이 부족하여 새로운 작업마다 매번 처음부터 다시 추론해야 하는 한계가 있습니다.#Review#LLM Agents#Long-Horizon Tasks#Skill Discovery#Co-Evolution#Skill Bank#Reinforcement Learning2026년 4월 23일댓글 수 로딩 중
[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.#Review#Spoken Dialogue Models#Post-Training#Reinforcement Learning#Preference Optimization#Modality Alignment#End-to-End#Acoustic Expressiveness2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Tool-supervised RL#Visual Reasoning#Curriculum Learning#ToolsRL2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Near-Future Policy Optimization본 논문은 RLVR 과정에서 on-policy 탐색이 갖는 한계를 극복하고 최적의 보조 학습 신호를 확보하는 문제를 다룹니다.#Review#Reinforcement Learning#RLVR#Mixed-Policy#Trajectory Quality#Variance Cost#Self-Taught RL#LLM Post-training2026년 4월 22일댓글 수 로딩 중
[논문리뷰] DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation저자들은 텍스트 기반의 합성 비디오에서 hybrid imitation target을 추출하여 이를 통해 humanoid control policy를 학습하는 DeVI 프레임워크를 제안합니다 . 우선 3D 인간 모델과 물체를 포함한 씬에서 텍스트 프롬프트를 사용하여 2D HOI 비디오를 생성합니다.#Review#Dexterous Manipulation#Video Generative Models#Physics-based Simulation#Reinforcement Learning#Human-Object Interaction2026년 4월 22일댓글 수 로딩 중
[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.#Review#Deep Research Agents#Edge-Scale Models#Open Data#Reinforcement Learning#Information Gain#Supervised Fine-Tuning2026년 4월 22일댓글 수 로딩 중
[논문리뷰] UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models본 논문은 `UDM`과 `GRPO`를 안정적으로 통합하기 위해 UDM-GRPO 프레임워크를 제안합니다. 첫째, 모든 타임스텝에서 액션을 중간 예측치가 아닌 최종 정제 샘플 `x_hat_1`으로 재정의하여 보상 일관성과 최적화 정밀도를 높였습니다 .#Review#Uniform Discrete Diffusion Model#Reinforcement Learning#GRPO#Text-to-Image Generation#Policy Optimization#Distribution Alignment2026년 4월 21일댓글 수 로딩 중
[논문리뷰] TEMPO: Scaling Test-time Training for Large Reasoning Models본 논문은 기존 <strong>Large Reasoning Models (LRMs)</strong>의 테스트 시점 학습(Test-time Training, TTT)이 겪는 성능 정체 및 다양성 붕괴 문제를 해결하고자 합니다.#Review#Test-time Training#Large Reasoning Models#Expectation-Maximization#Actor-Critic#Reinforcement Learning#Scalability#Diversity2026년 4월 21일댓글 수 로딩 중
[논문리뷰] HP-Edit: A Human-Preference Post-Training Framework for Image Editing본 논문은 기존의 이미지 편집 모델이 SFT(Supervised Fine-Tuning) 데이터의 품질 불일치와 실제 인간 선호도와 동떨어진 결과물을 생성하는 문제를 해결하고자 한다.#Review#Image Editing#Human-Preference Alignment#Reinforcement Learning#Flow Matching#Visual Large Language Model2026년 4월 21일댓글 수 로딩 중
[논문리뷰] PersonaVLM: Long-Term Personalized Multimodal LLMs본 논문은 기존 MLLM이 고정된 컨텍스트 윈도우와 'one-size-fits-all' 패러다임에 갇혀, 시간이 지남에 따라 변하는 사용자의 취향과 성격을 반영하지 못하는 한계를 해결하고자 합니다.#Review#Multimodal Large Language Models#Long-term Personalization#Memory Architecture#Personality Alignment#Agent Framework#Reinforcement Learning2026년 4월 19일댓글 수 로딩 중
[논문리뷰] Learning Adaptive Reasoning Paths for Efficient Visual Reasoning본 논문은 VRMs가 단순한 문제에도 불필요하게 긴 Chain-of-Thought(CoT)를 생성하여 발생하는 'Overthinking' 문제를 해결하는 것을 목적으로 합니다.#Review#Vision-Language Models#Visual Reasoning#Overthinking#Reinforcement Learning#Chain-of-Thought#Efficiency2026년 4월 19일댓글 수 로딩 중
[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.#Review#Large Language Models#Reinforcement Learning#Exploration-Exploitation Trade-Off#Perplexity#Reward Shaping2026년 4월 19일댓글 수 로딩 중
[논문리뷰] RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography본 논문은 Reinforcement Learning을 통해 최적의 도구 사용 전략을 자동 학습하는 RadAgent 프레임워크를 제안합니다. RadAgent는 초기 보고서 초안을 작성한 후, 임상 진단 체크리스트를 기반으로 단계별 에이전트 루프를 거치며 필요한 도구를 호출하고 결과를 업데이트합니다 .#Review#RadAgent#Reinforcement Learning#Vision-Language Models#Chest CT#Medical Report Generation#Tool-using AI Agent#Faithfulness#Robustness2026년 4월 16일댓글 수 로딩 중
[논문리뷰] LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning본 논문은 LLM의 Long-context 추론 능력을 강화하기 위한 RL 과정에서 모델 내부의 Intrinsic Representation이 충분히 활용되지 못하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Long-context#Sparsity#Activation Patterns#Saliency-guided2026년 4월 16일댓글 수 로딩 중
[논문리뷰] SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments본 논문은 3D 공간 추론 학습에서 데이터 주석(annotation) 비용과 모델 합의(consensus) 기반 학습의 한계 문제를 해결하고자 합니다.#Review#Spatial Reasoning#Self-Evolution#Vision-Language Models#Deterministic Geometric Environment#Reinforcement Learning2026년 4월 15일댓글 수 로딩 중
[논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time본 논문은 시각 생성 모델의 보상 모델이 인간의 복합적인 판단을 단일 스칼라 점수로 압축함으로써 발생하는 불투명성과 성능 저하 문제를 해결하고자 합니다.#Review#RationalRewards#Preference-Anchored Rationalization#Visual Generation#Reasoning-based Reward Model#Reinforcement Learning#Prompt Tuning2026년 4월 15일댓글 수 로딩 중
[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.#Review#Large Language Models#Reinforcement Learning#Pre-train Space#Policy Reincarnation#Negative Sample Reinforcement#Reasoning Enhancement2026년 4월 15일댓글 수 로딩 중
[논문리뷰] POS-ISP: Pipeline Optimization at the Sequence Level for Task-aware ISP본 연구는 ISP 최적화 문제를 단계적 의사결정이 아닌 단일 forward pass를 통한 전역적 시퀀스 예측 문제로 재정의한다. Sequence predictor는 GRU를 통해 이전 모듈의 컨텍스트를 고려하여 전체 모듈 시퀀스를 예측하고, Parameter predictor는 입력 이미지에 특화된 매개변수를 생성한다 .#Review#ISP#Reinforcement Learning#Task-aware#Sequence Optimization#Pipeline Design2026년 4월 9일댓글 수 로딩 중
[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Gaussian GRPO#Optimal Transport#Multi-task Learning#Visual Reasoning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering저자들은 시간 순서 재구성(temporal reordering) proxy task를 기반으로 세 가지 모달리티 오케스트레이션 전략(JMI, SMS, CMM)을 제안합니다. 특히, CMM 전략은 클립별로 정보를 마스킹하여 모델이 시각과 청각 정보를 능동적으로 교차 분석하게 함으로써 학습 성능을 극대화합니다 .#Review#Omni-modal Reasoning#Reinforcement Learning#Self-supervised Learning#Jigsaw Proxy Task#Modality Orchestration#Data Filtering2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Faithful GRPO: Improving Visual Spatial Reasoning in Multimodal Language Models via Constrained Policy Optimization본 논문은 RLVR 기반의 Multimodal Reasoning Models(MRM)이 높은 정답 정확도를 달성함에도 불구하고, 정작 그 과정인 CoT 추론의 신뢰성이 현저히 떨어지는 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Constrained Policy Optimization#Chain-of-Thought#Visual Spatial Reasoning#Lagrangian Relaxation#Faithfulness2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search본 논문은 기존 RL 기반 Search Agent가 겪는 스토캐스틱 탐색(Stochastic Exploration)의 비효율성과 훈련 불안정성 문제를 해결하고자 합니다.#Review#Agentic Search#Reinforcement Learning#Hierarchical Experience#Policy Optimization#Contrastive Distillation#Self-Reflection2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models본 논문은 HDPO 프레임워크를 제안하여 태스크 정확도와 도구 효율성을 orthogonal하게 최적화합니다. 제안 방법론은 accuracy 채널과 efficiency 채널을 명확히 분리하며, efficiency 채널은 오직 정확한 결과를 도출한 경로(trajectory) 내에서만 도구 사용을 최소화하도록 조건부 advantage를 계산합니다 .#Review#Multimodal Large Language Models#Agentic Systems#Reinforcement Learning#Hierarchical Decoupled Policy Optimization#Meta-Cognitive Tool Use#Efficiency#Reasoning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Learning to Hint for Reinforcement Learning본 논문은 GRPO 학습 중 어려운 문제에서 발생하는 Advantage Collapse 문제를 해결하고, 힌트가 모델의 실제 추론 능력 향상으로 이어지도록 하는 Transferability 문제를 다룹니다.#Review#Reinforcement Learning#Large Language Models#Reasoning#Hint Generation#Advantage Collapse#Transferability2026년 4월 8일댓글 수 로딩 중
[논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling본 논문은 탐색(exploration)과 최적화(optimization)를 분리한 Sol-RL이라는 2단계(two-stage) 프레임워크를 제안합니다 . 1단계에서는 고도로 최적화된 NVFP4 추론을 통해 방대한 후보군을 빠르게 생성하여 상대적 보상 순위를 매기고, 상위 및 하위의 contrastive subset을 선별합니다.#Review#Diffusion Models#Reinforcement Learning#FP4 Quantization#Rollout Scaling#Alignment#Efficiency#Two-stage Framework2026년 4월 8일댓글 수 로딩 중
[논문리뷰] AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning본 논문은 RL 기반의 AgentGL 프레임워크를 제안하여 그래프 학습을 에이전트 의사결정 프로세스로 최적화한다. AgentGL은 그래프 기반 검색 도구들을 활용하여 다중 스케일 탐색을 수행하고, search-constrained thinking 메커니즘을 도입하여 불필요한 도구 호출을 줄이고 추론 정확도를 높인다.#Review#Agentic Graph Learning#Reinforcement Learning#Large Language Models#Graph-Native Search#Curriculum Learning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.#Review#Vision-Language Models#Video Understanding#Post-Training#Linguistic Bias#Reinforcement Learning#Data Curation#Visually Grounded Reasoning2026년 4월 7일댓글 수 로딩 중
[논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement본 논문은 Reasoning 최적화와 Self-Refinement 최적화를 하나의 GRPO 프레임워크 안에서 결합한 ThinkTwice를 제안합니다. ThinkTwice는 각 훈련 단계에서 모델이 먼저 Reasoning 문제를 풀고, 동일한 문제에 대해 자신의 이전 답변을 개선하는(Thinking twice) 과정을 연속적으로 수행합니다 .#Review#Large Language Models#Reinforcement Learning#Reasoning#Self-Refinement#RLVR#Policy Optimization#Implicit Curriculum2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning본 논문은 정적인 과학 그래픽을 편집 가능한 TikZ 코드로 역공학(Reverse-engineering)하는 과정에서 발생하는 엄격한 공간적 제약 문제를 해결하고자 합니다.#Review#Graphics Program Synthesis#TikZ#Reinforcement Learning#Multimodal Large Language Models#Self-Consistency#Round-Trip Verification2026년 4월 7일댓글 수 로딩 중
[논문리뷰] QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization본 논문은 LLM 기반의 자동 프로그램 복구 기법에서 빈번하게 발생하는 Over-editing 문제를 해결하고자 합니다. 기존 모델들은 복구의 정확성(Correctness)만을 최적화하기 때문에, 버그를 정교하게 식별하지 못하고 전체 코드를 과도하게 수정하는 경향이 있습니다.#Review#Program Repair#Over-editing#LLMs#Reinforcement Learning#EA-GRPO#Speculative Edits#Code Maintainability2026년 4월 7일댓글 수 로딩 중
[논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control본 논문은 멀티모달 임베딩 학습에서 생성형 추론(Chain-of-Thought)을 통합할 때 발생하는 구조적 불일치와 비효율성 문제를 해결한다.#Review#Multimodal Embedding#Large Language Models#Chain-of-Thought#Reinforcement Learning#Latent Variable#Causal Inference2026년 4월 7일댓글 수 로딩 중
[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .#Review#Diffusion Large Language Models#Post-Training#Reinforcement Learning#Unified Framework#Systems Optimization2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.#Review#Vision-Language Models#Reinforcement Learning#Visual Reasoning#Multi-task Learning#Chain-of-Thought#Data Diversity#Reward Engineering2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Self-Execution Simulation Improves Coding Models본 논문은 LLM이 생성한 코드를 실제로 실행하지 않고도 코드의 실행 결과와 동학(dynamics)을 정확히 예측하도록 훈련하여 프로그래밍 성능을 향상시키는 것을 목표로 합니다.#Review#Code LLM#Execution Simulation#Self-Verification#Self-RLEF#Reinforcement Learning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Self-Distilled RLVR본 논문은 OPSD 가 훈련 초기에는 성능 향상을 보이나, 곧 정보 누출(Information Leakage)로 인해 성능이 저하되는 원인을 규명하고 이를 해결하고자 합니다.#Review#LLM Post-training#Reinforcement Learning#Self-Distillation#Information Asymmetry#Credit Assignment#RLVR2026년 4월 5일댓글 수 로딩 중
[논문리뷰] Apriel-Reasoner: RL Post-Training for General-Purpose and Efficient Reasoning본 논문은 대규모 언어 모델의 일반적인 추론 성능을 향상시키면서, 불필요하게 긴 추론(Overthinking)을 방지하여 추론 비용과 지연 시간(Latency)을 최소화하는 것을 목표로 합니다.#Review#Reinforcement Learning#Chain-of-Thought#Efficiency#RLVR#Multi-Domain#Reasoning2026년 4월 2일댓글 수 로딩 중
[논문리뷰] ASI-Evolve: AI Accelerates AI본 논문은 현대 AI 연구가 직면한 고비용, 장기 과제, 불투명한 연구 루프라는 병목 현상을 해결하기 위해 AI가 스스로 AI를 발전시키는 Asi-Evolve 를 제안한다.#Review#Agentic AI#Autonomous Scientific Discovery#Neural Architecture Design#Pretraining Data Curation#Reinforcement Learning2026년 4월 2일댓글 수 로딩 중
[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .#Review#Recommender Systems#Large Language Models#Product Reranking#Preference Memory#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] A Survey of On-Policy Distillation for Large Language Models본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다.#Review#On-Policy Distillation#Large Language Models#Knowledge Distillation#Exposure Bias#f-Divergence#Sequence-Level Learning#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.#Review#VectorGym#SVG Generation#Multi-task Learning#Reinforcement Learning#VLM-as-a-Judge2026년 3월 31일댓글 수 로딩 중
[논문리뷰] VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward대규모 비디오 Diffusion 모델은 뛰어난 시각적 품질을 보여주지만, 카메라 궤적의 불안정성이나 기하학적 표류(Geometric Drift)와 같은 3D/4D 일관성 문제에 취약합니다 .#Review#Video Diffusion Models#Geometric Consistency#Reinforcement Learning#Latent Geometry Model#4D Reconstruction#Group Relative Policy Optimization2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Think Anywhere in Code Generation기존의 Upfront Thinking 방식은 코드 생성 과정에서 발생하는 복잡한 문제 상황이나 예외적인 케이스들을 사전에 모두 예측하기 어렵다는 결정적인 한계가 있습니다 . 코드를 구현하는 도중에 문제의 복잡성이 드러나는 경우가 많음에도 불구하고, 기존 방식은 코드 생성 시작 전에만 추론을 수행하도록 제한되어 있습니다.#Review#Code Generation#Large Language Models#Reasoning#Reinforcement Learning#On-demand Reasoning#Adaptive Computation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.#Review#Reinforcement Learning#Large Language Models#Future-KL#Policy Optimization#GRPO#Chain-of-Thought#Credit Assignment2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Think over Trajectories: Leveraging Video Generation to Reconstruct GPS Trajectories from Cellular Signaling통신 기지국 기반의 시그널링 기록은 광범위한 모빌리티 데이터를 제공하지만, 기지국 수준의 거친 공간 해상도로 인해 정밀한 위치 기반 분석에는 한계가 존재합니다. 기존의 산업적 솔루션들은 핑퐁 효과 제거, 지도 매칭, 경로 추론 등 복잡한 다단계 엔지니어링 파이프라인에 의존하여 Latency 가 높고 자동화가 어렵습니다 .#Review#Cellular Signaling#Video Generation#GPS Trajectory Reconstruction#Reinforcement Learning#Mobility Analytics#Sig2GPS2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Kernel-Smith: A Unified Recipe for Evolutionary Kernel Optimization현대적인 대규모 모델 시스템과 과학 컴퓨팅 분야에서 고성능 GPU 커널 최적화는 하드웨어 성능을 실질적인 Throughput으로 전환하는 핵심 요소입니다.#Review#GPU Kernel Optimization#Large Language Models#Evolutionary Algorithms#Reinforcement Learning#Triton#MetaX MACA#System Optimization2026년 3월 30일댓글 수 로딩 중
[논문리뷰] KAT-Coder-V2 Technical ReportAgentic Coding은 단순 코드 생성을 넘어 복잡한 리포지토리 상호작용과 도구 호출을 요구하며, 이는 단일 학습 파이프라인으로는 최적화하기 어려운 복합적인 도메인들을 포함합니다. 기존 연구들은 환경 인프라가 에이전트 스캐폴드와 강하게 결합되어 있어 새로운 데이터셋이나 스캐폴드 통합이 비효율적이라는 한계가 있습니다.#Review#Agentic Coding#Specialize-then-Unify#KwaiEnv#Reinforcement Learning#On-Policy Distillation#Tree Training2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation최신 텍스트-이미지 생성 모델들은 놀라운 시각적 품질을 보여주지만, 학습 과정에서 습득한 고정된 지식에 의존한다는 근본적인 한계를 지닙니다. 특히 실시간 정보가 필요하거나 지식 집약적인 프롬프트가 주어질 경우, 모델은 올바른 시각적 참조 없이 이미지를 생성하여 factual error나 시각적 왜곡을 초래합니다.#Review#Agentic AI#Image Generation#Multi-hop Search#Reinforcement Learning#Grounded Generation#Multimodal Agent2026년 3월 30일댓글 수 로딩 중
[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.#Axolotl#GRPO#LLM Training#Performance#Flash Attention#PyTorch#Reinforcement Learning2026년 3월 28일댓글 수 로딩 중
[논문리뷰] EVA: Efficient Reinforcement Learning for End-to-End Video Agent기존 멀티모달 대규모 언어 모델(MLLM) 기반 비디오 이해 시스템은 비디오를 수동적인 인식기로 처리하여, 전체 비디오나 균일하게 샘플링된 프레임을 어떠한 적응적 추론 없이 처리하는 한계가 있습니다.#Review#Video Agent#Reinforcement Learning#MLLM#Planning-before-Perception#Tool Use#KTO#GRPO2026년 3월 25일댓글 수 로딩 중
[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.#Review#Unified Policy Optimization#Reinforcement Learning#Reasoning-Driven Generation#Interleaved Generation#Flow Matching#Markov Decision Process#Classifier-Free Guidance#Reward Hacking2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Rethinking Token-Level Policy Optimization for Multimodal Chain-of-ThoughtMultimodal Chain-of-Thought (CoT) 추론은 Large Vision-Language Models (LVLMs)가 시각 정보와 다단계 추론을 통합하는 데 필수적이다.#Review#Multimodal Chain-of-Thought#Reinforcement Learning#Token-Level Optimization#Visual Similarity#Entropy2026년 3월 24일댓글 수 로딩 중
[논문리뷰] PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost본 논문은 long-horizon agentic 태스크의 post-training에서 SFT의 compute 효율성과 end-to-end RL의 out-of-domain 성능을 동시에 얻기 위해, 정보량이 큰 'Pivot' 턴에서만 local on-policy rollout을 수행하고 functional equivalence를 보상하는 PivotRL을 제안합니다.#Review#Reinforcement Learning#Agentic Post-Training#On-Policy Rollout#Pivot Turn#Functional Equivalence#LLM Fine-Tuning2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs기존 Vision-language models (VLMs) 은 detail-sensitive tasks 를 해결하기 위해 high-resolution visual inputs 에 의존하지만, 이로 인해 computational costs 와 inference latency 가 크게 증가하는 문제가 발생한다.#Review#Vision-language models#High-resolution crops#Tool-calling#Efficiency#Reinforcement Learning#Multi-turn interaction#Data curation#Spatial-on-demand2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Insight-V++: Towards Advanced Long-Chain Visual Reasoning with Multimodal Large Language ModelsLarge Language Models (LLMs)는 Chain-of-Thought prompting과 같은 확장된 추론을 통해 상당한 발전을 이루었지만, 이를 Multi-modal Large Language Models (MLLMs)로 확장하는 것은 여전히 큰 도전 과제입니다.#Review#Visual Reasoning#Image Understanding#Video Understanding#Multi-Agent System#Reinforcement Learning#Self-Evolving2026년 3월 23일댓글 수 로딩 중
[논문리뷰] ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models본 논문은 MLLM이 어려운 시각 태스크에서 사용자에게 단순한 도움을 먼저 요청할 수 있는 'Proactiveness'를 갖췄는지 평가하기 위해 7개 데이터셋을 재구성한 ProactiveBench를 제안하고, 22개 MLLM을 분석합니다.#Review#MLLM#Benchmark#Proactiveness#Reinforcement Learning#Multimodal Reasoning#Human-AI Interaction2026년 3월 22일댓글 수 로딩 중
[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM AgentsLarge language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.#Review#LLM Agents#Subgoals#Reinforcement Learning#Web Navigation#Long-Horizon Planning#Reward Shaping#Curriculum Learning2026년 3월 22일댓글 수 로딩 중
[논문리뷰] ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM AgentsMulti-turn LLM Agents는 복잡하고 인터랙티브한 작업을 해결하는 데 점차 중요해지고 있으며, Reinforcement Learning (RL)은 long-horizon behavior를 개선하는 데 핵심적인 역할을 합니다.#Review#Multi-turn LLM Agents#Reinforcement Learning#Rollout-as-a-Service#Training-Rollout Decoupling#Sandbox Environments#HPC#Token-in/Token-out#Scalability2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Memento-Skills: Let Agents Design Agents현대의 Large Language Models (LLMs) 은 few-shot learning , supervised fine-tuning , post-training 을 통해 다양한 시나리오에서 탁월한 성능을 보이지만, 실제 활용을 위해서는 막대한 데이터와 컴퓨팅 자원을 요구하는 parameter optimization 이 필수적입니다.#Review#LLM Agents#Continual Learning#Skill Learning#Reinforcement Learning#Memory-based Agents#Agent Design#Read-Write Reflective Learning#Offline RL2026년 3월 19일댓글 수 로딩 중
[논문리뷰] RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference최근 Large Language Models (LLMs)는 자연어 처리 분야를 혁신했지만, FP16 포맷의 Llama-2-13B 모델이 26GB 의 memory를 요구하는 등 막대한 memory requirement로 인해 consumer GPU나 edge device에 배포하는 데 어려움을 겪는 Memory Wall 문제가 존재합니다.#Review#Mixed-Precision Quantization#Reinforcement Learning#Post-Training Quantization#Large Language Models#Policy Transfer#Scale Folding#GGUF#On-Device Inference2026년 3월 18일댓글 수 로딩 중
[논문리뷰] MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification최근 Large Language Models (LLMs)는 유창한 텍스트 생성 및 광범위한 질문 답변 능력에서 상당한 발전을 이루었지만, scientific analysis, financial reasoning, open-ended research와 같은 많은 real-world 문제들은 단순한 conversational ability를 넘어선다.#Review#Research Agents#Long-Horizon Reasoning#Verification#Agentic LLM#Multi-Step Problem Solving#Reinforcement Learning2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Visual-ERM: Reward Modeling for Visual EquivalenceVision-to-Code 작업은 AI 지원 프론트엔드 개발, 과학 논문 파싱, 지식 관리 및 시스템 통합과 같은 다양한 하위 시스템에 필수적인 핵심 기능입니다.#Review#Reward Modeling#Vision-to-Code#Reinforcement Learning#Multimodal Generative Model#Visual Equivalence#Fine-grained Feedback#Test-Time Scaling2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously온라인 Video Large Language Models (VideoLLMs) 는 스트리밍 시각 입력(streaming visual inputs)을 해석하고 실시간으로 응답하는 데 필수적이며, 특히 Embodied Intelligence와 상호작용형 AI 어시스턴트에서 중요하다.#Review#Streaming Video Understanding#VideoLLMs#Chain-of-Thought (CoT)#Real-time AI#Reinforcement Learning#Knowledge Graphs#Streaming Thinking#Low Latency2026년 3월 15일댓글 수 로딩 중
[논문리뷰] From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space최근 Diffusion/Flow Models은 Visual Content 생성에서 혁신적인 능력을 보여주고 있지만, 생성된 Outputs이 Human Preference 및 Task-specific Constraint에 Align되도록 하는 것은 여전히 중요한 과제입니다.#Review#Reinforcement Learning#GRPO#Diffusion Models#Flow Models#Preference Alignment#Condition Enhancement#Multi-View Learning2026년 3월 15일댓글 수 로딩 중
[논문리뷰] WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing저자들은 instruction-based image editing 분야에서 text-centric image editing 이 중요한 응용 잠재력에도 불구하고 아직 충분히 탐구되지 않은 영역임을 지적합니다.#Review#Text-centric Image Editing#Diffusion Models#Glyph-Guided Fine-tuning#Reinforcement Learning#Multilingual Benchmark#Dataset Construction2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and GenerationDiffusion models과 autoregressive models의 발전으로 T2I generation 및 image editing task에서 상당한 진전이 있었으나, 이러한 모델들의 성능 향상을 위한 RL 기반 접근 방식은 reward model 의 신뢰성 문제에 직면해 있습니다.#Review#Reinforcement Learning#Reward Modeling#Image Editing#Image Generation#MLLM#Data Curation#Fidelity#Instruction Following2026년 3월 12일댓글 수 로딩 중
[논문리뷰] DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning대규모 diffusion models 가 비디오 합성 능력을 혁신했지만, multi-subject identity 와 multi-granularity motion 에 대한 정밀한 제어는 여전히 중대한 과제로 남아있습니다.#Review#Video Diffusion Models#Video Customization#Motion Control#Reinforcement Learning#Multi-Subject#Omni-Motion#Latent Identity#DiT2026년 3월 12일댓글 수 로딩 중
[논문리뷰] DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use최근 LLM 기반 에이전트의 도구 사용 능력 향상을 위한 Agentic Task Synthesis 연구가 활발합니다. 그러나 기존 접근 방식은 합성된 작업의 Insufficient Diversity 로 인해 작업 및 도구 세트 변화에 대한 Robust Generalization 능력이 부족하다는 한계를 가집니다.#Review#Agentic Task Synthesis#Diversity Scaling#Tool Use#Generalization#Reinforcement Learning#Supervised Fine-tuning2026년 3월 12일댓글 수 로딩 중
[논문리뷰] V_{0.5}: Generalist Value Model as a Prior for Sparse RL RolloutsRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 정책 경사(policy gradients)의 안정성을 저해하는 희소 롤아웃(sparse rollouts) 으로 인한 높은 분산을 해결하고, 일반화된 가치 모델(Generalist Value Model)의 편향(bias) 문제를 완화하여, 안정적이고 효율적인 정책 학습을 가능하게 하는 강건한 어드밴티지…#Review#Reinforcement Learning#Value Models#Advantage Baseline#Sparse Rollouts#Shrinkage Estimation#Sequential Analysis#LLM Fine-tuning#Mathematical Reasoning2026년 3월 11일댓글 수 로딩 중
[논문리뷰] RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback본 논문은 LLM 기반 에이전트가 복잡한 대화형 환경에서 정적인 문제 해결을 넘어 지속적인 적응 및 진화를 가능하게 하는 것을 목표로 합니다. 기존 RL 패러다임의 탐색 부족 및 학습된 지식의 암묵적 특성으로 인한 비효율적인 학습 및 취약한 일반화 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Self-Reflection#Intrinsic Feedback#Continuous Adaptation#Memory Retrieval#Agentic AI#GRPO2026년 3월 11일댓글 수 로딩 중
[논문리뷰] ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning본 논문은 기존 Mixture-of-LoRAs(MoLoRA) 모델에서 발생하는 '루팅 가중치 붕괴(routing weight collapse)' 문제를 해결하고자 합니다. 이 문제는 루팅 가중치가 특정 LoRA에 집중되어 나머지 LoRA의 활용도가 떨어지는 현상으로, 모델의 표현력을 제한합니다.#Review#LLM Finetuning#LoRA#Mixture of Experts (MoE)#Reinforcement Learning#Parameter-Efficient Finetuning (PEFT)#Routing#Weight Collapse2026년 3월 11일댓글 수 로딩 중
[논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models본 논문은 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하도록 훈련할 때, 기존 SFT(Supervised Fine-Tuning) 기반 파이프라인의 높은 레이블링 데이터 비용 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Tool Use#In-Context Learning#Few-Shot Learning#SFT-free#Data Efficiency#Curriculum Learning2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Hindsight Credit Assignment for Long-Horizon LLM Agents본 논문은 Long-Horizon, Multi-Step 태스크에서 희소한 보상(Sparse Rewards) 으로 인해 LLM 에이전트 가 겪는 Credit Assignment 의 어려움을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Credit Assignment#Hindsight Credit Assignment#Policy Optimization#Sparse Rewards#Long-Horizon Tasks#Generative Verification2026년 3월 11일댓글 수 로딩 중
[논문리뷰] CodePercept: Code-Grounded Visual STEM Perception for MLLMs이 논문은 MLLMs 가 STEM (과학, 기술, 공학, 수학) 분야에서 시각적 추론에 실패하는 근본적인 원인이 인지 능력 부족인지 추론 능력 부족인지를 규명하는 데서 출발합니다. 연구의 핵심 목표는 MLLMs 의 시각적 인지 능력을 체계적으로 향상시키기 위해 실행 가능한 코드를 강력한 인지 매체로 확립하는 것입니다.#Review#Multimodal Large Language Models (MLLMs)#STEM Visual Reasoning#Code-Grounded Perception#Image-to-Code Translation#Data Generation#Benchmark#Reinforcement Learning#Matplotlib2026년 3월 11일댓글 수 로딩 중
[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization#Large Language Models (LLMs)#Generalization#Robustness#Reasoning Tasks2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning본 논문은 LLM(Large Language Model) 훈련 시 희소한 스칼라 보상에만 의존하여 발생하는 비효율적인 탐색 문제 를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Natural Language Feedback#Exploration#Group-Level Feedback#Self-Refinement#Sample Efficiency2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Reward Prediction with Factorized World States본 연구는 AI 에이전트가 새로운 목표와 환경에 걸쳐 일반화할 수 있는 정확하고 일반화 가능한 보상 예측 모델 을 개발하는 것을 목표로 합니다. 특히 훈련 데이터의 편향과 일반화 한계가 있는 기존 지도학습 기반 보상 모델의 문제를 해결하고, 미세한 단계별 보상 평가를 위한 벤치마크 부족을 해소하고자 합니다.#Review#Reward Prediction#World Models#State Representation#Large Language Models#Zero-shot Learning#Reinforcement Learning#Planning#Factorization2026년 3월 10일댓글 수 로딩 중
[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다.#Review#Vision-Language Models#Self-Evolution#Reinforcement Learning#Zero-Data#Multi-Agent Systems#Code Generation#Synthetic Data2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing논문은 3D 장면 편집 과정에서 발생하는 다중 뷰 일관성(multi-view consistency) 유지의 어려움 과 3D 일관성 편집 쌍 데이터의 극심한 부족 문제를 해결하는 것을 목표로 합니다.#Review#3D Scene Editing#Reinforcement Learning#Multi-view Consistency#Diffusion Models#Reward Modeling#3D Gaussian Splatting#FLUX-Kontext#VGGT2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable RewardsRLVR(Reinforcement Learning from Verifiable Rewards)을 통해 강화된 대규모 언어 모델(LLMs)이 겪는 심각한 과신(over-confidence) 문제와 이로 인한 캘리브레이션 저하 를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM Calibration#Over-confidence#Decoupled Optimization#Verifiable Rewards#Policy Optimization#Expected Calibration Error2026년 3월 10일댓글 수 로딩 중
[논문리뷰] TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward이 논문은 Few-Step Diffusion Models 이 비미분 가능한(non-differentiable) 보상 신호 를 효과적으로 활용하도록 강화 학습(RL)하는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Reinforcement Learning#Non-Differentiable Rewards#Few-Step Generation#Trajectory Distribution Matching#Surrogate Reward Learning#Text-to-Image2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Agentic Critical Training본 논문은 LLM 에이전트가 단순한 모방을 넘어, 행동의 품질에 대한 자율적인 비판적 추론 및 진정한 자기 성찰 능력 을 개발하도록 훈련시키는 것을 목표로 합니다. 기존 모방 학습(IL)이 '무엇을 할지'만 가르치고 '왜 그 행동이 더 나은지'에 대한 이해가 부족하다는 한계를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Imitation Learning#Self-Reflection#Action Quality#Out-of-Distribution Generalization#Critical Reasoning#GRPO2026년 3월 9일댓글 수 로딩 중
[논문리뷰] KARL: Knowledge Agents via Reinforcement Learning본 논문은 기업 검색 에이전트가 복잡하고 검증하기 어려운 에이전트성 검색 태스크에서 최첨단 성능 을 달성하도록 강화 학습 을 통해 훈련하는 시스템인 KARL 을 제안합니다.#Review#Reinforcement Learning#Knowledge Agents#Enterprise Search#Grounded Reasoning#Multi-task Learning#Off-policy RL#Test-time Compute#Agentic Synthesis2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Specificity-aware reinforcement learning for fine-grained open-world classification본 논문은 오픈 월드 환경에서 미세 분류를 수행할 때, 대규모 멀티모달 모델(LMMs) 이 지나치게 일반적인 예측을 내놓는 경향을 해결하고자 합니다. 모델의 정확성 을 저해하지 않으면서 예측의 구체성(specificity) 을 향상시키는 것이 주된 연구 목표입니다.#Review#Open-World Classification#Fine-Grained Classification#Reinforcement Learning#LMMs#Specificity-Aware Reward#GRPO#LLM-as-a-Judge#Cross-Domain Generalization2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory대규모 언어 모델(LLM) 에이전트가 장기 작업에서 직면하는 유한한 컨텍스트 윈도우 병목 현상을 해결하는 것이 목표입니다. 기존의 컨텍스트 축소 방식(예: 잘라내기, 요약)이 증거를 손실하는 근본적인 문제를 극복하여, 증거를 버리지 않고도 컨텍스트를 압축하는 효율적이고 정밀한 메모리 메커니즘을 개발하고자 합니다.#Review#LLM Agents#Long-Horizon Tasks#Memory Management#Indexed Experience Memory#Reinforcement Learning#Context Window#Tool Use#MEMEXRL2026년 3월 4일댓글 수 로딩 중
[논문리뷰] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning논문은 LLM이 장기 작업을 수행할 때 직면하는 효율적인 장기 메모리 유지 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 검색 방법들이 비용과 정확도 사이의 상충 관계를 겪고, 대규모 LLM이 모든 메모리를 처리하는 데 계산 비용이 높고 느리다 는 한계를 극복하고자 합니다.#Review#LLM Memory Retrieval#Proxy Model#Reinforcement Learning#Outcome-Driven Rewards#Long-Term Memory#Curriculum Learning#Model Merging#Inference-Time Scaling2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Heterogeneous Agent Collaborative Reinforcement Learning본 논문은 Heterogeneous Agent Collaborative Reinforcement Learning (HACRL) 이라는 새로운 학습 패러다임을 제안하여, 이질적인(heterogeneous) LLM 에이전트들의 독립적인 온-폴리시 최적화의 비효율성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Multi-Agent Systems#Policy Optimization#Heterogeneous Agents#Sample Efficiency#Knowledge Transfer#RLVR2026년 3월 4일댓글 수 로딩 중
[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.#Review#Reinforcement Learning#Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics#Verifiable Rewards#Engineering Reasoning#Structural Engineering#Group Relative Policy Optimization (GRPO)2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Qwen3-Coder-Next Technical Report본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.#Review#Coding Agents#Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training#Software Engineering#Reinforcement Learning#Code Generation#Tool Usage2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use에이전트형 언어 모델(LLMs)의 다단계 도구 사용(multi-step tool use) 환경에서 발생하는 고유한 안전 문제를 해결하는 것이 목표입니다.#Review#Agentic LLM#AI Safety#Multi-Step Tool Use#Reinforcement Learning#Preference-Based Learning#Safety Guardrails#Refusal Mechanism#Structured Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] InfoPO: Information-Driven Policy Optimization for User-Centric Agents본 논문은 사용자 중심의 대규모 언어 모델(LLM) 에이전트가 불완전하게 명시된(underspecified) 사용자 목표 를 해결하기 위한 다중 턴(multi-turn) 상호작용의 비효율성 문제를 다룹니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Information Gain#Credit Assignment#Multi-turn Interaction#User-centric Agents#Counterfactual Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models기존 Generative Reward Models (GRMs) 이 Chain-of-Thought (CoT) 의 길이를 단순히 늘리는 데 집중하며 다양한 추론 메커니즘의 효율성을 간과하는 문제를 해결하고자 합니다.#Review#Generative Reward Models#Chain-of-Thought#Breadth-CoT#Depth-CoT#Reinforcement Learning#Reward Modeling#Mechanism Alignment2026년 3월 3일댓글 수 로딩 중
[논문리뷰] When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains의료 Vision-Language Model (VLM)에서 강화 학습(RL)이 시각적 추론을 개선하는지, 또는 주로 Supervised Fine-tuning (SFT)을 통해 이미 유도된 행동을 단순히 강화하는지에 대한 불분명함을 해소하는 것이 목표입니다.#Review#Medical VLMs#Reinforcement Learning#Supervised Fine-tuning#Visual Question Answering#Multi-modality#Reasoning Capacity#MedMNIST2026년 3월 2일댓글 수 로딩 중
[논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale본 논문은 대규모의 재현 가능한 소프트웨어 엔지니어링(SWE) 태스크 환경 부족 문제를 해결하고, 특히 강화 학습(RL) 기반 LLM 에이전트 훈련을 위한 언어 독립적인(language-agnostic) SWE 태스크 컬렉션 을 대규모로 구축하는 것을 목표로 합니다.#Review#SWE Agents#Reinforcement Learning#Task Collection#Language-Agnostic#Automated Pipeline#Docker#LLM Judges#Reproducibility2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Recursive Think-Answer Process for LLMs and VLMs현재 Think-Answer 모델 들은 단일 패스(single-pass) 추론에 의존하여 'Oops!'와 같은 불확실성 신호를 보여도 자체 수정을 수행하지 못하고 오류에 취약합니다.#Review#LLMs#VLMs#Reasoning#Self-Correction#Reinforcement Learning#Confidence Estimation#Iterative Refinement#Think-Answer2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Learn Hard Problems During RL with Reference Guided Fine-tuning이 논문은 수학적 추론을 위한 강화 학습(RL)에서 발생하는 보상 희소성(reward sparsity) 문제를 해결하는 것을 목표로 합니다. 특히, 대규모 언어 모델(LLM)이 어려운 문제에 대한 정확한 추론 궤적을 생성하지 못하여 유의미한 보상 신호를 받지 못하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Mathematical Reasoning#Reward Sparsity#Fine-tuning#Large Language Models#Reference-Guided Learning#DAPO2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Efficient RLVR Training via Weighted Mutual Information Data Selection본 논문은 대규모 언어 모델(LLMs)의 강화 학습(RL) 훈련 과정에서 발생하는 데이터 선택의 비효율성 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Data Selection#Mutual Information#Epistemic Uncertainty#LLMs#RLVR#Training Efficiency2026년 3월 2일댓글 수 로딩 중
[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification본 논문은 실제 사용자 요구가 복잡하고 모호함에도 불구하고, 에이전트가 정확한 도구 실행을 통해 이를 충족해야 하는 다중 턴 대화형 도구 사용 에이전트 개발의 근본적인 과제를 해결하고자 합니다.#Review#Tool-Use Agents#Multi-turn Interaction#Data Synthesis#Constraint-Guided Verification#Large Language Models#Supervised Fine-tuning#Reinforcement Learning2026년 3월 2일댓글 수 로딩 중
[논문리뷰] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production본 논문은 Instagram, WhatsApp, Messenger와 같은 프로덕션 환경의 소셜 챗 애플리케이션에서 LLM 의 사용자 참여도와 조종성(steerability)을 반복적으로 개선하는 CharacterFlywheel 이라는 이터레이션 프로세스를 제시합니다.#Review#LLM#Social Chat#Engagement Optimization#Steerability#Reinforcement Learning#Reward Modeling#A/B Testing#Iterative Development2026년 3월 2일댓글 수 로딩 중
[논문리뷰] LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding본 논문은 낮은 컴퓨팅 예산 으로 장시간 비디오를 효율적으로 이해하는 과제를 해결하는 것을 목표로 합니다.#Review#Long Video Understanding#MLLM Agent#Active Learning#Reinforcement Learning#Chain-of-Thought#Video Navigation#Computational Efficiency2026년 3월 1일댓글 수 로딩 중
[논문리뷰] Enhancing Spatial Understanding in Image Generation via Reward Modeling본 연구는 복잡한 공간 관계가 포함된 텍스트 프롬프트에서 현재 Text-to-Image(T2I) 모델 이 직면하는 한계를 해결하고, 생성된 이미지의 공간적 정확도를 향상시키는 것을 목표로 합니다.#Review#Image Generation#Reward Modeling#Spatial Understanding#Reinforcement Learning#Visual Language Models#Text-to-Image#Preference Learning2026년 3월 1일댓글 수 로딩 중
[논문리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization이 논문은 기존 딥 리서치 에이전트의 높은 추론 비용과 지연 시간, 그리고 이질적인 연구 환경 전반에 걸친 낮은 일반화 성능이라는 두 가지 주요 문제를 해결하는 것을 목표로 합니다. 특히, 장기적인(long-horizon) 에이전트 검색 태스크에서 효율성과 일반화 능력을 동시에 향상시키고자 합니다.#Review#Agentic AI#Long-Horizon Search#Parallel Execution#Data Synthesis#Reinforcement Learning#Generalization#Efficiency#LLM Agent2026년 2월 26일댓글 수 로딩 중
[논문리뷰] MediX-R1: Open Ended Medical Reinforcement Learning본 논문은 의료 멀티모달 대규모 언어 모델(MLLM)이 다지선다형 질문을 넘어 임상적으로 근거한 자유 형식 답변 을 생성하도록 하는 오픈엔드 의료 강화 학습(RL) 프레임워크인 MediX-R1 을 제안합니다.#Review#Reinforcement Learning#Multimodal LLMs#Medical AI#Composite Reward#LLM-as-a-Judge#Open-ended Generation#Medical Imaging2026년 2월 26일댓글 수 로딩 중
[논문리뷰] From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models본 논문은 기존의 LMM(Large Multimodal Models) 자가 학습 프레임워크가 겪는 해석 가능한 진단 부족과 시각적 다양성 부족이라는 근본적인 한계를 해결하고자 합니다.#Review#Large Multimodal Models#Iterative Training#Diagnostic-Driven Learning#Reinforcement Learning#Multimodal Reasoning#Data Generation#Agent Systems2026년 2월 26일댓글 수 로딩 중
[논문리뷰] Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization대규모 언어 모델(LLM) 에이전트가 강화 학습(RL) 훈련 시 새로운 상태 발견이 필요한 환경에서 탐색에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 사전 학습된 지식에 의존하여 탐색 능력이 제한되는 한계를 극복하고, 더욱 탐색적이고 일반화 가능한 LLM 기반 에이전트 구축을 목적으로 합니다.#Review#LLM Agents#Reinforcement Learning#Exploration#Memory Augmentation#Hybrid RL#On-Policy Optimization#Off-Policy Optimization2026년 2월 26일댓글 수 로딩 중
[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.#Review#GUI Agents#Reinforcement Learning#Supervised Fine-tuning#Visual Grounding#Long-Horizon Tasks#Partial Verifiability#KL Regularization#Data Curation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.#Review#Efficient Reasoning#Large Language Models#Reinforcement Learning#Reward Shaping#Chain-of-Thought#RL Optimization#Length Adaptation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering본 논문은 텍스트-이미지 생성 모델에서 텍스트의 왜곡, 흐림, 정렬 불량 등 미세한 구조적 이상 을 기존 OCR 모델 이나 MLLMs 가 제대로 인식하지 못해 Visual Text Rendering (VTR) 평가 및 RL 기반 최적화 에 병목 현상이 발생하는 문제를 해결하고자 합니다.#Review#Visual Text Rendering#Reinforcement Learning#Structural Anomaly Perception#Reward Modeling#Text-to-Image Generation#OCR#MLLMs#Data Augmentation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL본 논문은 에이전트형 멀티모달 모델의 강화 학습 시 발생하는 상호작용 붕괴(interaction collapse) 문제를 해결하고, 안정적인 학습을 통해 지속적인 도구 사용과 다중 턴 추론 능력을 유지하는 것을 목표로 합니다. 특히 이미지 및 비디오 이해 태스크를 위한 오픈-웨이트 멀티모달 모델 에 초점을 맞춥니다.#Review#Agentic AI#Multimodal Models#Reinforcement Learning#Dynamic Tooling#Interaction Stability#Video Reasoning#Visual Language Models#Rollout Optimization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] SkillOrchestra: Learning to Route Agents via Skill Transfer논문은 복합 AI 시스템에서 효과적인 오케스트레이션 문제를 해결하고자 합니다.#Review#Agent Orchestration#Skill Transfer#LLM Routing#Performance-Cost Trade-off#Routing Collapse#Multi-turn Dialogue#Skill Handbook#Reinforcement Learning2026년 2월 23일댓글 수 로딩 중
[논문리뷰] AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting유전자 치료 벡터로 사용되는 아데노-관련 바이러스(AAV)는 조직 특이성, 면역 회피, 생산 효율성에서 한계를 가지며, 특히 신장 표적화는 난제로 남아있습니다.#Review#Generative AI#Protein Language Model#Reinforcement Learning#AAV Capsid Engineering#Multi-objective Optimization#Renal Targeting#AlphaFold3#ESM-22026년 2월 23일댓글 수 로딩 중
[논문리뷰] VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM TrainingLLM(Large Language Models)을 위한 오프-정책(off-policy) 강화 학습 훈련 시 발생하는 불안정성 문제, 즉 정책 노후화(policy staleness), 비동기 훈련, 훈련-추론 불일치로 인한 높은 중요도 샘플링(IS) 분산을 해결하는 것을 목표로 합니다.#Review#Off-Policy RL#LLM Training#Importance Sampling#Variance Reduction#Variational Optimization#Policy Gradient#Sequence-Level Optimization#Reinforcement Learning2026년 2월 22일댓글 수 로딩 중
[논문리뷰] Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty본 논문은 강화 학습(DRL)을 통해 학습된 제어 정책이 생성하는 비현실적인 고주파수 제어 신호 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Motion Control#Robotics#Character Animation#Linear Policies#Action Jacobian Penalty#Policy Regularization#Sim-to-Real2026년 2월 22일댓글 수 로딩 중
[논문리뷰] EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots본 논문은 모바일 로봇이 오직 자기 중심적(egocentric) 시각 관측 만을 사용하여 복잡한 환경에서 여러 객체를 장기적으로 재배열 하는 문제를 해결하는 것을 목표로 합니다.#Review#Egocentric Perception#Multi-Object Rearrangement#Mobile Robotics#Reinforcement Learning#Teacher-Student Distillation#Non-Prehensile Manipulation#Sim-to-Real Transfer#Object-Centric Representation2026년 2월 22일댓글 수 로딩 중
[논문리뷰] Does Your Reasoning Model Implicitly Know When to Stop Thinking?본 논문은 대규모 추론 모델(LRMs)이 긴 Chain of Thought (CoT) 를 통해 복잡한 추론 작업을 수행할 때 발생하는 상당한 중복과 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#Large Reasoning Models#Chain of Thought#Efficient Inference#Self-Aware Sampling#Reinforcement Learning#Reasoning Termination#Mathematical Benchmarks2026년 2월 22일댓글 수 로딩 중
[논문리뷰] World Models for Policy Refinement in StarCraft II본 논문은 StarCraft II (SC2) 와 같이 복잡하고 부분 관측 가능한(partially observable) 실시간 전략(RTS) 게임 환경에서 대규모 언어 모델(LLM) 기반 에이전트 의 정책 결정 능력을 개선하는 것을 목표로 합니다.#Review#StarCraft II#World Model#Policy Refinement#Large Language Models#Reinforcement Learning#Partial Observability#Structured Text Representation#Game AI2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Computer-Using World Model본 논문은 복잡한 소프트웨어 환경에서 에이전트가 행동의 결과를 추론하는 능력의 부재로 인해 발생하는 문제를 해결하는 것을 목표로 합니다.#Review#World Model#GUI Agents#Desktop Automation#Reinforcement Learning#Large Language Models#Visual State Realization#Textual State Transition2026년 2월 19일댓글 수 로딩 중
[Ray RLlib] SingleAgentEnvRunner의 validate 호출 위치 최적화로 3.1배 속도 향상Ray RLlib의 SingleAgentEnvRunner에서 매 스텝마다 호출되던 validate를 에피소드 완료 시점으로 이동하여 add_step_data의 누적 시간을 16.7초에서 5.43초로 줄인 최적화를 분석합니다.#Ray#RLlib#Python#Performance#Reinforcement Learning#Optimization2026년 2월 19일댓글 수 로딩 중
[논문리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 훈련 불안정성, 특히 후반부 성능 저하 문제를 해결하는 것을 목표로 합니다. 기존 RL 미세 조정 방식이 엔트로피 정규화나 가중치 재조정과 같은 휴리스틱에 의존하여 불안정한 훈련을 겪는 근본적인 원인을 밝히고 이를 개선하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Training Stability#Policy Optimization#Spurious Tokens#Entropy Regularization#Gradient Modulation2026년 2월 17일댓글 수 로딩 중
[논문리뷰] GLM-5: from Vibe Coding to Agentic Engineering본 논문은 AI 모델이 인간의 지시(vibe coding)에 의존하는 것을 넘어 자율적인 계획, 구현 및 반복 이 가능한 Agentic Engineering 패러다임으로 전환하는 것을 목표로 합니다.#Review#Foundation Model#Agentic AI#Reinforcement Learning#Sparse Attention#Software Engineering#Long-Context Models#GPU Optimization2026년 2월 17일댓글 수 로딩 중
[논문리뷰] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents본 논문은 대규모 언어 모델(LLM)이 긴 탐색 경로와 많은 상호작용이 필요한 심층 검색 태스크를 수행할 때 겪는 어려움, 특히 고품질 훈련 데이터 부족과 높은 상호작용 비용 문제를 해결하는 것을 목표로 합니다.#Review#Long-Horizon Search#Multimodal LLM#Task Synthesis#Agentic Mid-Training#Reinforcement Learning#Tool-Augmented Agents#Web Search2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts컴팩트한 30억(3B) 파라미터 규모의 모델인 Nanbeige4.1-3B 를 개발하여 강력한 에이전트 행동, 코드 생성 및 일반적인 추론 능력을 동시에 달성하는 것을 목표로 합니다. 단일 소규모 언어 모델(SLM) 내에서 이러한 다재다능성을 입증하고, 3B 파라미터 모델의 잠재력을 재정의하고자 합니다.#Review#Small Language Model#Generalist AI#Reasoning#Code Generation#Agentic Behavior#Reinforcement Learning#Tool Use#Deep Search2026년 2월 16일댓글 수 로딩 중
[논문리뷰] MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation인간 모션 이해 및 생성 분야에서 제한적인 추론 능력 과 테스트 시간 계획의 한계 를 극복하는 것을 목표로 합니다. 이를 위해, 모션 이해와 생성을 통합하는 단일 멀티모달 모션 모델 을 제안하여, 논리적 추론과 지각적 사실성을 동시에 개선하고자 합니다.#Review#Motion Understanding#Motion Generation#Reinforcement Learning#Chain-of-Motion#Multimodal LLM#Human Motion Synthesis#Text-to-Motion2026년 2월 16일댓글 수 로딩 중
[논문리뷰] LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models본 논문은 기존 확산 언어 모델(dLLMs) 기반 추론 시스템이 겪는 태스크 특이성, RL 학습 불안정성, 훈련 신호 부족 등의 문제를 해결하고자 합니다.#Review#Multimodal Diffusion Models#Reasoning#Reinforcement Learning#Supervised Finetuning#Visual Question Answering#Image Editing#Object Grounding#Policy Gradient2026년 2월 16일댓글 수 로딩 중
[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.#Review#Image Editing#Diffusion Transformer#Instruction-based Editing#Data Curation#Reinforcement Learning#Multimodal Models#REDEdit-Bench#Generative AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Experiential Reinforcement Learning언어 모델(LMs)이 희소하고 지연된 환경 피드백으로부터 학습하는 과정에서 발생하는 비효율성과 불안정성을 해결하는 것이 주요 목표입니다.#Review#Reinforcement Learning#Language Models#Self-Reflection#Experiential Learning#Policy Optimization#Distillation#Agentic Reasoning2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception논문은 멀티모달 대규모 언어 모델(MLLMs)이 미세한 시각 정보를 인식하는 데 겪는 어려움, 즉 전역적 컨텍스트에 의해 중요한 세부 정보가 가려지는 문제를 해결하고자 합니다.#Review#Multimodal Perception#Fine-Grained Analysis#Knowledge Distillation#Region-to-Image#MLLMs#ZoomBench#Reinforcement Learning2026년 2월 15일댓글 수 로딩 중
[논문리뷰] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis본 논문은 시각적 추론을 위한 Vision-Language Model (VLM)에서 강화 학습(RL)이 실제로 어떤 능력을 향상시키는지에 대한 모호함을 해결하고자 합니다.#Review#Reinforcement Learning#Visual Reasoning#Vision-Language Models#Causal Probing#Model Merging#Parameter Analysis#Transformer Layers#Functional Localization2026년 2월 15일댓글 수 로딩 중
[논문리뷰] RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models본 논문은 Vision-Language-Action (VLA) 모델 훈련 시, 시뮬레이션을 정적 데이터 소스로만 활용하고 폐쇄 루프 인터랙션을 충분히 활용하지 못하는 기존 Supervised Fine-Tuning (SFT) 기반 sim-real co-training의 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Sim-to-Real#Co-training#VLA Models#Robotic Manipulation#Supervised Fine-tuning#Catastrophic Forgetting2026년 2월 15일댓글 수 로딩 중
[논문리뷰] MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs본 논문은 실세계 임상 애플리케이션에서 일반 목적의 의료 이해 및 추론을 발전시키기 위한 MedXIAOHE 라는 의료 비전-언어 파운데이션 모델을 제안합니다.#Review#Medical LLMs#Multimodal Foundation Models#Continual Pre-training#Entity-Aware Learning#Reinforcement Learning#Medical Diagnosis#Instruction Following#Unified Benchmarking2026년 2월 15일댓글 수 로딩 중
[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics기존 VLLM 기반 지리 위치 추정(geolocation) 모델이 AI 생성 CoT 데이터의 불완전성, 비합리적인 학습 전략, 지역적 편향, 그리고 미세한 위치 주석 부족으로 인해 겪는 한계를 해결하고자 합니다.#Review#Geolocation#Reinforcement Learning#Vision-Language Models#Chain-of-Thought#Geospatial AI#Dataset#Reward Function2026년 2월 15일댓글 수 로딩 중
[논문리뷰] FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching본 논문은 Diffusion Models 및 Flow Matching 과 같은 반복적인 생성 정책(iterative generative policies)을 Maximum Entropy Reinforcement Learning (Max-Ent RL) 과 결합할 때 발생하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Maximum Entropy RL#Kinetic Energy Regularization#Schrödinger Bridge#Generative Policies#Flow Matching#Actor-Critic2026년 2월 15일댓글 수 로딩 중
[논문리뷰] DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels본 연구는 고도로 전문화된 CUDA 커널 생성 태스크에서 diffusion large language models (dLLMs) 의 잠재력을 탐색하고, 이 분야의 고품질 학습 데이터 부족 및 dLLM의 적합성 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion LLM#CUDA Kernel Generation#Reinforcement Learning#Code Generation#High-Performance Computing#Bi-phase Curated RL#CuKe Dataset2026년 2월 15일댓글 수 로딩 중
[Ray RLlib] 커넥터 최적화: 벌크 데이터 추출과 리스트 연산 개선Ray RLlib의 학습 커넥터에서 타임스텝별 개별 추출을 벌크 추출로, append 루프를 extend로 변경하여 데이터 처리 성능을 개선한 PR을 분석합니다.#Ray#RLlib#Performance#Python#Connector#Reinforcement Learning2026년 2월 13일댓글 수 로딩 중
[논문리뷰] Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation본 논문은 Group Relative Policy Optimization (GRPO) 가 탐색 및 난이도 적응에서 겪는 어려움의 근본 원인을 규명하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Group Relative Policy Optimization#Advantage Estimation#Exploration-Exploitation#Curriculum Learning#Multi-modal LLMs2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#In-Context Learning#Reinforcement Learning#Test-Time Scaling#Exploration-Exploitation#State Coverage#Reward Shaping#Chain-of-Thought2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision과학적 추론 태스크에서 대규모 언어 모델(LLM)의 취약한 성능을 개선하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 솔루션 평가와 검증 전략의 다양성 부족 문제, 그리고 제한된 감독 환경에서의 자가 진화 프레임워크 개발이라는 과제를 해결하고자 합니다.#Review#LLM#Scientific Reasoning#Co-evolution#Reinforcement Learning#Sparse Supervision#Geometric Consensus#Self-Play#Verifier2026년 2월 12일댓글 수 로딩 중
[논문리뷰] RISE: Self-Improving Robot Policy with Compositional World Model본 논문은 VLA(Vision-Language-Action) 모델 이 접촉이 많고 역동적인 로봇 조작 작업에서 여전히 취약하며, 물리적 환경에서의 온-정책(on-policy) 강화 학습이 하드웨어 비용, 느린 상호작용, 수동 리셋 등의 문제로 인해 확장이 어렵다는 한계를 해결하고자 합니다.#Review#Robot Learning#Reinforcement Learning#World Models#Compositional Models#Robotic Manipulation#Self-Improving#Vision-Language-Action (VLA)2026년 2월 12일댓글 수 로딩 중
[논문리뷰] MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning본 논문은 최신 Multimodal Large Language Models (MLLMs) 이 기본적인 Visual Question Answering (VQA) 에는 뛰어나지만, 이미지 내에 내재된 미묘한 문화적, 감정적, 상황적 함의(특히 이미지 은유 )를 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Image Metaphor Understanding#Visual Reasoning#Reinforcement Learning#MLLMs#TFQ-GRPO#End-to-End Learning#Cognitive AI2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.#Review#On-Policy Distillation#Reward Extrapolation#Large Language Models (LLMs)#Knowledge Distillation#Reinforcement Learning#Math Reasoning#Code Generation#Multi-teacher Distillation2026년 2월 12일댓글 수 로딩 중
[논문리뷰] GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning본 논문은 현재 VLA(Vision-Language-Action) 모델이 겪는 제한된 장면 이해 능력과 약한 미래 예측 능력으로 인한 장기적인 액션 계획의 한계를 해결하는 것을 목표로 합니다.#Review#VLA Models#World Models#Reinforcement Learning#Robotic Manipulation#Long-Horizon Control#Human-in-the-Loop#Continual Learning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing본 논문은 현재 대규모(~10B 이상) 파라미터를 요구하는 멀티모달 이미지 생성 및 편집 모델의 높은 훈련 비용과 배포 한계를 극복하는 것을 목표로 합니다. 경량의 5B 파라미터 모델(DeepGen 1.0) 을 통해 훨씬 큰 모델과 동등하거나 이를 능가하는 포괄적인 생성 및 편집 능력을 달성하고자 합니다.#Review#Multimodal Model#Image Generation#Image Editing#Diffusion Models#VLM-DiT Architecture#Stacked Channel Bridging#Reinforcement Learning#Lightweight Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language ModelsRLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Prompt Engineering#Compositional Generalization#Verifiable Rewards#Curriculum Learning#Mathematical Reasoning#Multi-task Learning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning대규모 언어 모델(LLMs)이 장문 컨텍스트 추론에서 겪는 성능 저하, 컨텍스트 길이 증가에 따른 메모리 폭발(memory explosion) , 그리고 불필요한 연산으로 인한 비효율성 문제 를 해결하는 것을 목표로 합니다.#Review#Long-Context Reasoning#Large Language Models (LLMs)#Recurrent Memory#Gated Mechanisms#Reinforcement Learning#Memory Efficiency#Early Exit2026년 2월 11일댓글 수 로딩 중
[논문리뷰] TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions본 논문은 기존 오디오-비주얼 캡셔닝이 갖는 시간적 기반 부재 및 시각 중심적 한계 를 해결하고자 합니다.#Review#Video Captioning#Multi-Scene Videos#Time-Aware#Structural Captions#Audio-Visual Understanding#Large Language Models#Reinforcement Learning#OmniDCBench2026년 2월 11일댓글 수 로딩 중
[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.#Review#Multimodal Critics#Physical AI#Reinforcement Learning#Self-Referential Finetuning#Evaluation Models#Causal Reasoning#Embodied AI#RLVR2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Internalizing Meta-Experience into Memory for Guided Reinforcement Learning in Large Language Models본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 기법인 RLVR(Reinforcement Learning with Verifiable Rewards)의 메타 학습 병목 현상 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Meta-Learning#Error Attribution#Knowledge Internalization#Self-Distillation#Verifiable Rewards2026년 2월 11일댓글 수 로딩 중
[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.#Review#LLM Adaptation#Reinforcement Learning#Data Curation#Data Pipelines#Data Recipes#Data Verifier#Data-centric AI2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable RewardsGRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLMs#Credit Assignment#Multi-Objective Optimization#Advantage Estimation#Calibration#Structured Generation#Group Relative Policy Optimization2026년 2월 11일댓글 수 로딩 중
[논문리뷰] UI-Venus-1.5 Technical Report본 논문은 기존 GUI 에이전트의 일반성 및 일관된 고성능 달성 문제를 해결하기 위해, 강력한 실제 애플리케이션을 위한 통합된 엔드투엔드 GUI 에이전트인 UI-Venus-1.5 를 제안합니다.#Review#GUI Agent#MLLM#Reinforcement Learning#Model Merging#GUI Grounding#Task Navigation#Online-RL#Offline-RL2026년 2월 10일댓글 수 로딩 중
[논문리뷰] TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution본 연구는 GUI 자동화의 핵심 과제인 GUI 플래닝의 확장성 문제를 해결하는 것을 목표로 합니다. 기존 방식의 스텝 중복과 낮은 궤적 다양성, 그리고 인간 주석 의존성으로 인한 데이터 부족 문제를 극복하고, 고품질의 대규모 GUI 궤적 데이터를 효율적으로 합성하는 방법론을 제시합니다.#Review#GUI Automation#Computer-Use Agents#Trajectory Synthesis#Tree-Structured Exploration#Multi-Agent Framework#Reinforcement Learning#DPO#Data Efficiency2026년 2월 10일댓글 수 로딩 중
[논문리뷰] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement LearningLLM(Large Language Model) 에이전트가 고립적으로 작동하며 과거 경험으로부터 학습하지 못하고, 기존 메모리 기반 방식이 중복되고 노이즈가 많은 원시 궤적을 저장하여 일반화 및 재사용 가능한 행동 패턴 추출을 방해하는 문제를 해결합니다.#Review#LLM Agents#Reinforcement Learning#Skill Discovery#Recursive Evolution#Experience Distillation#Hierarchical Skills#Context Efficiency#Task Planning2026년 2월 10일댓글 수 로딩 중
[논문리뷰] ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training본 논문은 일반 목적의 도구 사용 에이전트 훈련에 필요한 대규모의 사실적이고 검증 가능한 인터랙티브 환경 이 부족하다는 문제를 해결하고자 합니다.#Review#Environment Synthesis#Tool-Use Agents#Reinforcement Learning#Generalization#Procedural Generation#LLM Agents#Interactive Environments#Data Scaling2026년 2월 10일댓글 수 로딩 중
[논문리뷰] P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads본 논문은 기존 텍스트 기반 모델의 한계를 극복하고, 시각적 정보와 과학적 추론을 통합하여 물리 올림피아드 수준의 복잡한 문제 를 해결할 수 있는 개방형 Vision-Language Model (VLM) 을 개발하는 것을 목표로 합니다.#Review#Vision-Language Models#Reinforcement Learning#Curriculum Learning#Physics Olympiads#Scientific Reasoning#Agentic AI#Multimodal AI#Physics2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning대규모 언어 모델(LLMs)이 직면한 긴 컨텍스트 처리의 문제를 해결하는 것이 목표입니다. 특히 연산 비용 증가 , 정보 망각 , 그리고 RAG(Retrieval-Augmented Generation)의 컨텍스트 단편화 와 같은 한계를 극복하며, 효율적인 긴 컨텍스트 추론 프레임워크를 제시하고자 합니다.#Review#Long Context Reasoning#Memory Compression#Reinforcement Learning#Large Language Models (LLMs)#Inference Efficiency#Dynamic Recall#KV-Cache#Multi-hop Reasoning2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems다중 에이전트 LLM 시스템의 강화 학습(RL) 사후 훈련 시 발생하는 불안정성의 핵심 원인을 규명하고, 이를 해결하여 안정적인 훈련을 가능하게 하는 새로운 방법론을 제안하는 것입니다.#Review#Multi-Agent LLM#Reinforcement Learning#Training Stability#GRPO#Agent-wise Normalization#Gradient Explosion#LLM Orchestration2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Code2World: A GUI World Model via Renderable Code Generation본 논문은 기존 텍스트 및 픽셀 기반 GUI 월드 모델이 가지는 시각적 충실도와 세밀한 구조적 제어 능력 부족 문제를 해결하고자 합니다. 사용자 인터페이스(UI)의 다음 상태를 렌더링 가능한 코드 생성 을 통해 예측하여, 높은 시각적 충실도와 정교한 구조적 제어가 가능한 GUI 월드 모델 을 구축하는 것을 목표로 합니다.#Review#GUI World Model#Renderable Code Generation#Vision-Language Model#Reinforcement Learning#HTML Synthesis#UI Prediction#GUI Agents2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning본 논문은 대규모 언어 모델(LLM) 기반 에이전트 훈련을 위한 다양하고 신뢰할 수 있는 환경의 부족 문제 를 해결하고자 합니다.#Review#Agentic AI#Reinforcement Learning#Synthetic Environments#Tool-Use Agents#World Model#Database-Backed Simulation#LLM-powered Agents2026년 2월 10일댓글 수 로딩 중
[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.#Review#Reinforcement Learning#World Models#Video Generation#Autoregressive Generation#Long-Horizon#Post-training#Diffusion Models#Reward Functions2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control대규모 사전 훈련(large-scale pretraining)과 효율적인 미세 조정(efficient finetuning) 사이의 간극을 줄여 휴머노이드 로봇 제어의 샘플 효율성과 안전성을 향상 시키는 것을 목표로 합니다.#Review#Humanoid Control#Reinforcement Learning#SAC#Model-Based RL#Pretraining#Finetuning#Physics-Informed World Model#Sim-to-Real Transfer2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory이 논문은 LLM 에이전트의 기존 오프라인, 쿼리-불가지론적 메모리 구성 방식이 비효율적이며 쿼리-중요 정보를 놓칠 수 있다는 문제를 제기합니다. 핵심 목표는 런타임 메모리 추출을 위해 명시적이고 제어 가능한 성능-비용 트레이드오프 를 가능하게 하는 프레임워크를 개발하는 것입니다.#Review#LLM Agents#Runtime Memory#Budget-Tier Routing#Reinforcement Learning#Performance-Cost Trade-off#Modular Memory Pipeline#Query-Aware Memory#Resource Management2026년 2월 9일댓글 수 로딩 중
[논문리뷰] LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning화학 분야의 대규모 언어 모델(LLMs)이 명시적인 자연어 Chain-of-Thought (CoT) 추론에 과도하게 의존하여 발생하는 '연속성-이산성 격차(continuity-discretization gap)' 문제를 해결하고자 합니다.#Review#Chemical Reasoning#Large Language Models (LLMs)#Chain-of-Thought (CoT)#Latent Space#Molecular Optimization#Inference Efficiency#Reinforcement Learning#Chemical AI2026년 2월 9일댓글 수 로딩 중
[논문리뷰] LLaDA2.1: Speeding Up Text Diffusion via Token Editing본 연구는 확산 언어 모델(dLLMs)에서 디코딩 속도와 생성 품질 간의 고질적인 트레이드오프를 극복하고, 병렬 디코딩 시 발생하는 토큰 수준의 불일치를 해결하여 효율적이면서도 고품질의 텍스트 생성을 달성하는 것을 목표로 합니다.#Review#Text Diffusion#Token Editing#Inference Acceleration#Mask-to-Token#Token-to-Token#Reinforcement Learning#Speedy Mode#Quality Mode2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO본 논문은 텍스트-투-이미지 생성에 Flow Matching 모델과 Group Relative Policy Optimization (GRPO)을 적용할 때 발생하는 희소한 보상(sparse rewards) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Flow Matching#Text-to-Image Generation#Sparse Rewards#Credit Assignment#Turning Points#Group Relative Policy Optimization2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Self-Improving World Modelling with Latent Actions본 논문은 액션이 레이턴트 변수로 취급되는 상태-온리 시퀀스 로부터 LLM(Large Language Models) 및 VLM(Vision-Language Models)의 내재적 월드 모델링 능력을 향상시키는 것을 목표로 합니다.#Review#World Modeling#Latent Actions#Self-Improvement#Reinforcement Learning#LLMs#VLMs#Inverse Dynamics Model#Forward World Modelling2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training다국어 환경에서 긴 추론 모델( LRMs )이 겪는 어려움, 즉 비영어권 질문에 대해 영어로 추론하려는 경향과 질문 언어로 추론 시 정확도가 현저히 떨어지는 문제를 해결하는 것을 목표로 합니다.#Review#Multilingual Reasoning#Reinforcement Learning#Machine Translation#Question Understanding#Self-Improvement#Language Models#Cross-Lingual Alignment2026년 2월 8일댓글 수 로딩 중
[논문리뷰] SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks기존의 다중 턴(multi-turn) 탈옥(jailbreak) 공격 방법론들이 겪는 탐색 복잡성 과 의도 왜곡(intent drift) 문제를 해결하고자 합니다.#Review#Multi-Turn Jailbreaks#LLM Safety#Red Teaming#Reinforcement Learning#Intent Drift#Response-Agnostic Generation#Self-Tuning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning대규모 추론 모델의 Chain-of-Thought(CoT) 방식이 직면한 2차 비용, 컨텍스트 길이 제한, 'lost-in-the-middle' 현상 으로 인한 추론 품질 저하 문제를 해결하는 것을 목표로 합니다.#Review#Iterative Reasoning#Reinforcement Learning#Large Language Models#Context Management#Summarization#Chain-of-Thought#Efficiency#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the RareRLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Reward Models#Diversity Preservation#Focal Loss#Group Sampling#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making본 논문은 기존 의료 LLM이 보이는 수동적인 질문-답변 방식과 개방형 임상 상담에서의 환각 문제를 해결하고자 합니다. 능동적인 정보 획득, 장기적 추론, 적응형 환각 억제 기능을 갖춘 임상 등급의 의사결정 지원 시스템인 Baichuan-M3 를 개발하여 신뢰할 수 있는 의료 의사결정을 목표로 합니다.#Review#Medical LLM#Clinical Decision Support#Reinforcement Learning#Hallucination Suppression#Multi-task Learning#Speculative Decoding#Quantization#Clinical Inquiry2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities본 논문은 LLM 추론에서 RLVR(Reinforcement Learning with Verifiable Rewards) 훈련 시 발생하는 엔트로피 붕괴(entropy collapse) 및 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Exploration-Exploitation#Group Relative Policy Optimization#Entropy Collapse#Generative Models#Confidence-Aware Rewards2026년 2월 8일댓글 수 로딩 중
[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval기존 MLLM 기반 검색 시스템이 정적 시각 인코딩에 의존하고 시각적 증거를 능동적으로 검증하지 못해 시각적으로 모호한 경우 추론 오류가 발생하는 문제를 해결하고자 합니다. 시각적 검사에 기반한 증거 기반 에이전트 추론 프로세스 를 통해 범용 멀티모달 검색의 정확성과 신뢰성을 향상시키는 것을 목표로 합니다.#Review#Multimodal Retrieval#Agentic AI#Large Language Models (LLMs)#Visual Tools#Chain-of-Thought (CoT)#Reinforcement Learning#Curriculum Learning#Evidence-Driven Reasoning2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Steering LLMs via Scalable Interactive Oversight본 논문은 대규모 언어 모델(LLM)이 복잡하고 장기적인 태스크를 자동화함에 따라 발생하는 '감독 격차(supervision gap)' 문제를 해결하고자 합니다. 이는 비전문가 사용자가 충분한 도메인 전문성 없이 AI 시스템을 효과적으로 조종하고 복잡한 출력을 검증하기 어려운 문제를 지칭합니다.#Review#Scalable Oversight#Interactive AI#Large Language Models#Human-AI Collaboration#Product Requirement Documents#Reinforcement Learning#Structured Interaction#Vibe Coding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Reinforcement World Model Learning for LLM-based Agents대규모 언어 모델(LLM) 기반 에이전트가 현실 환경에서 행동 결과(action consequences)를 예측하고 환경 역학에 적응하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#LLM-based Agents#World Model Learning#Reinforcement Learning#Self-Supervised#Environment Dynamics#Sim-to-Real Reward#Textual States2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Reinforced Attention Learning본 논문은 기존 RL 기반 LLM 후처리 방식이 MLLM에서 시각적 추론을 위한 '생성할 내용'에만 초점을 맞추어 제한적인 성능 향상을 보이거나 심지어 성능을 저하시키는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Multimodal LLMs#Attention Mechanisms#Policy Gradient#Knowledge Distillation#Visual Grounding#Post-training2026년 2월 5일댓글 수 로딩 중
[논문리뷰] ProAct: Agentic Lookahead in Interactive EnvironmentsProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.#Review#Agentic AI#Large Language Models#Reinforcement Learning#Lookahead Reasoning#Monte-Carlo Tree Search#Supervised Fine-Tuning#Value Estimation#Simulation Drift2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Multi-Task Learning#Reinforcement Learning#Policy Optimization#GRPO#Task Reweighting#Robustness#Reasoning Benchmarks2026년 2월 5일댓글 수 로딩 중
[논문리뷰] InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions논문은 물리 기반 휴머노이드 로봇이 고수준의 목표만으로도 다양한 객체와 상호작용하는 복잡한 로코-조작(loco-manipulation) 행동을 생성하고 일반화하는 데 있어 기존 방법론의 확장성 및 견고성 한계를 해결하고자 합니다.#Review#Human-Object Interaction#Physics-Based Simulation#Generative Control#Reinforcement Learning#Imitation Learning#Variational Policy#Failure Recovery#Loco-Manipulation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.#Review#Reinforcement Learning#Kernel Generation#Triton#GPU Optimization#LLMs#Reward Hacking#Multi-turn Interaction#Code Generation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#GRPO#Sparse Rewards#Self-Hinting#Policy Optimization#Adaptive Curriculum#On-Policy Training2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Rethinking the Trust Region in LLM Reinforcement LearningLarge Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.#Review#LLM#Reinforcement Learning#Trust Region#PPO#DPPO#Policy Optimization#Training Stability#Divergence Approximation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.#Review#Reinforcement Learning#Large Language Models#Scientific QA#Information Retrieval#Verifiable Rewards#Biomedical Domain#Search Agents#Dataset Generation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] ERNIE 5.0 Technical ReportERNIE 5.0은 텍스트, 이미지, 비디오, 오디오에 걸쳐 통합된 멀티모달 이해 및 생성 을 위한 본질적으로 자기회귀(autoregressive) 기반 파운데이션 모델 을 개발하는 것을 목표로 합니다.#Review#Multimodal Foundation Model#Autoregressive#Mixture-of-Experts#Elastic Training#Reinforcement Learning#Unified Architecture#Sparse MoE#Efficient Deployment2026년 2월 4일댓글 수 로딩 중
[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.#Review#Self-Supervised Learning#Code Generation#Documentation Generation#Back-Translation#Reinforcement Learning#Large Language Models (LLMs)#Code-Documentation Alignment#Low-Resource Languages2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning이 논문은 LLM 에이전트가 복잡한 실제 작업을 수행할 때 발생하는 과도한 사고(thought) 및 관찰(observation) 컨텍스트 축적 문제 를 해결하고 효율성을 향상시키는 것을 목표로 합니다.#Review#LLM Agents#Agent Efficiency#Context Management#Thought Omission#Observation Omission#Reinforcement Learning#Adaptive Policy2026년 2월 4일댓글 수 로딩 중
[논문리뷰] WideSeek: Advancing Wide Research via Multi-Agent Scaling본 논문은 기존의 심층 연구(Deep Research) 패러다임이 아닌, 복잡한 제약 조건 하에서 포괄적인 정보를 병렬적으로 검색하고 종합하는 광범위 연구(Wide Research) 패러다임의 발전을 목표로 합니다. 특히, 이러한 광범위 검색을 위한 전용 벤치마크 및 최적화 방법론의 부족이라는 문제를 해결하고자 합니다.#Review#Wide Research#Multi-Agent Systems#Reinforcement Learning#Information Seeking#Benchmarking#LLM Agents#Knowledge Graphs2026년 2월 3일댓글 수 로딩 중
[논문리뷰] SWE-World: Building Software Engineering Agents in Docker-Free Environments소프트웨어 엔지니어링(SWE) 에이전트의 훈련 및 평가가 의존하는 Docker 기반 물리적 실행 환경 의 높은 자원 소모와 확장성 한계를 해결하는 것이 목표입니다.#Review#Software Engineering Agents#LLM#Docker-Free#Execution Simulation#Reinforcement Learning#Supervised Fine-tuning#World Model2026년 2월 3일댓글 수 로딩 중
[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training이 논문은 기존 LLM 기반 소프트웨어 엔지니어링 에이전트의 불투명성과 재현성 부족, 그리고 복잡한 장기 SWE 태스크 해결 능력의 한계를 해결하고자 합니다.#Review#Software Engineering Agents#Post-Training#Supervised Fine-Tuning#Reinforcement Learning#Language Server Protocol#SWE-bench#Code Navigation#LLM2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification대규모 언어 모델(LLM) 추론을 위한 RLVR (Reinforcement Learning with Verifiable Rewards) 의 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Instruction Purification#Interference Tokens#Sample Efficiency#Policy Optimization#Verifiable Rewards2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation본 논문은 DeepResearch가 생성하는 보고서의 훈련 및 평가에 필요한 검증 가능한 보상 신호 부재 라는 핵심 과제를 해결하고자 합니다.#Review#DeepResearch#Rubric Generation#Human Preferences#Reinforcement Learning#Multi-agent Systems#LLM Evaluation#Reward Modeling2026년 2월 3일댓글 수 로딩 중
[논문리뷰] CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs논문은 LLM 추론을 강화하는 RLVR(Reinforcement Learning with Verifiable Rewards) 프레임워크에서 GRPO(Group Relative Policy Optimization) 와 같은 기존 방법론의 비효율적인 균일 롤아웃 예산 할당 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLMs#Budget Allocation#Adaptive Learning#Capability-Oriented Value Function#Exploration-Exploitation#Resource Efficiency2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models본 논문은 기존 멀티모달 딥 리서치 MLLM들이 겪는 히트율 문제(검색 엔진의 노이즈와 불안정성) 및 제한된 추론 깊이/검색 폭 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models#Deep Research#Agentic AI#Tool Use#Visual Question Answering#Reinforcement Learning#Multi-scale Search2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language Model본 논문은 추상적인 시각 정보와 시각적 기억을 요구하는 복잡한 인지 문제에서 멀티모달 대규모 언어 모델(MLLMs) 의 제한된 성능을 개선하는 것을 목표로 합니다. 인간의 시각 공간 스케치패드와 시각적 심상과 유사한 시각적 추론 메커니즘을 MLLM 에 부여하여 인지 능력 격차를 해소하고자 합니다.#Review#Multimodal Large Language Models#Cognitive Reasoning#Visual Imagery#Latent Representations#Reinforcement Learning#Visual Question Answering#Benchmark2026년 2월 2일댓글 수 로딩 중
[논문리뷰] SWE-Universe: Scale Real-World Verifiable Environments to Millions본 논문은 낮은 생산 수율, 취약한 검증기, 과도한 비용 등 기존의 자동화된 소프트웨어 엔지니어링(SWE) 검증 가능 환경 구축의 문제점을 해결하고자 합니다.#Review#Software Engineering Environments#LLM Agents#Data Generation#Verifiable Tasks#Multilingual#Reinforcement Learning#Self-Verification#Hacking Detection2026년 2월 2일댓글 수 로딩 중
[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다.#Review#Reinforcement Learning#Large Language Models#Agentic AI#Reward Modeling#Environment Adaptation#Closed-loop Optimization#Multimodal Agents2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Kimi K2.5: Visual Agentic Intelligence본 논문은 일반 에이전트 지능(general agentic intelligence)을 발전시키기 위해 오픈소스 멀티모달 에이전트 모델 Kimi K2.5 를 소개합니다.#Review#Multimodal AI#Agentic Intelligence#Vision-Language Models#Parallel Agent Orchestration#Reinforcement Learning#Joint Optimization#Visual Reasoning#Software Engineering2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Green-VLA: Staged Vision-Language-Action Model for Generalist Robots본 논문은 로봇 학습의 고질적인 문제인 데이터의 이질성, 낮은 품질, 그리고 행동 모방 (Behavior Cloning, BC)의 장기 태스크 한계를 해결하고자 합니다.#Review#Vision-Language-Action#Generalist Robots#Staged Training#Reinforcement Learning#Multi-embodiment#Data Quality#Humanoid Robotics#Flow Matching2026년 2월 2일댓글 수 로딩 중
[논문리뷰] TTCS: Test-Time Curriculum Synthesis for Self-EvolvingTTCS는 대규모 언어 모델(LLM)이 테스트 질문만 사용하여 추론 능력을 향상시키는 기존 Test-Time Training(TTT) 방법론의 한계를 극복하고자 합니다.#Review#Test-Time Training#Self-Evolving LLMs#Curriculum Learning#Reinforcement Learning#Question Synthesis#Mathematical Reasoning#GRPO2026년 2월 1일댓글 수 로딩 중
[논문리뷰] THINKSAFE: Self-Generated Safety Alignment for Reasoning Models본 논문은 강화 학습(RL) 기반의 추론 모델들이 복잡한 추론 태스크에서 성능을 극대화하는 과정에서 발생하는 '안전성 저하(safety tax)' 문제를 해결하고자 합니다.#Review#Large Reasoning Models#Safety Alignment#Self-Distillation#Refusal Steering#Distributional Shift#Chain-of-Thought#Reinforcement Learning2026년 2월 1일댓글 수 로딩 중
[논문리뷰] SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization본 논문은 검증 가능한 보상 기반 강화 학습(RLVR)에서 이진 보상(binary rewards) 의 한계(최적화 모호성, 학습 비효율성, 정책 취약성)를 해결하고자 합니다.#Review#Reinforcement Learning#Reward Shaping#Agent Optimization#GUI Automation#Complex Reasoning#Sample Efficiency#Tiered Rewards2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors본 논문은 대규모 언어 모델(LLMs), 특히 소형 LLMs가 다중 턴 도구 실행에서 발생하는 실행 오류로부터 취약하고, 오류 발생 시 반복적인 무효 호출에 빠지는 문제를 해결하고자 합니다.#Review#Tool Use#Execution Errors#Error Recovery#Reinforcement Learning#LLMs#Agentic AI#GRPO#FISSION2026년 2월 1일댓글 수 로딩 중
[논문리뷰] RM -RF: Reward Model for Run-Free Unit Test Evaluation본 연구의 핵심 목표는 자동으로 생성된 유닛 테스트의 품질을 컴파일 및 실행 과정 없이 평가할 수 있는 경량 리워드 모델(RM-RF) 을 개발하는 것입니다.#Review#Unit Test Generation#Reward Model#Reinforcement Learning#Code Coverage#Mutation Testing#Large Language Models#Run-Free Evaluation#Software Engineering Automation2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification본 논문은 대규모 언어 모델(LLMs)의 확률적 토큰 예측 과정에서 발생하는 논리적 불일치와 보상 해킹 문제를 해결하고, 이를 통해 자연어 추론의 신뢰성과 정확성을 향상시키는 것을 목표로 합니다.#Review#LLM Reasoning#Formal Verification#Neuro-Symbolic AI#Reinforcement Learning#Supervised Fine-tuning#Logic Consistency#Mathematical Reasoning2026년 2월 1일댓글 수 로딩 중
[논문리뷰] MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning본 논문은 LLM 기반 에이전트의 장기적 추론 시 발생하는 제한된 컨텍스트 창 문제를 해결하는 것을 목표로 합니다. 기존 텍스트 기반 메모리 시스템의 균일한 정보 밀도 문제를 극복하고, 시각적 레이아웃을 통해 적응적 정보 밀도 를 구현하여 적은 예산으로도 효과적인 장기적 추론 능력을 향상시키고자 합니다.#Review#Long-Horizon Reasoning#Multimodal Memory#Visual Layout#Adaptive Information Density#Reinforcement Learning#Context Window#Large Language Models2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization논문은 LLM의 CoT(Chain-of-Thought) 추론 이 가진 높은 연산 비용과 이산 토큰 샘플링으로 인한 추론 경로 붕괴 문제를 해결하고자 합니다.#Review#Latent Reasoning#Chain-of-Thought (CoT)#Large Language Models (LLMs)#Planning#Reinforcement Learning#Mathematical Reasoning#Decoupling#Interpretability2026년 2월 1일댓글 수 로딩 중
[논문리뷰] DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment본 논문은 Flow Matching Model 의 인간 선호도 정렬 과정에서 발생하는 희소 보상(Sparse Reward) 문제 를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Flow Matching Models#Dense Reward#Sparse Reward Problem#Preference Alignment#SDE Sampler#GRPO#Text-to-Image Generation2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Continual GUI Agents본 연구는 GUI(Graphical User Interface) 에이전트가 새로운 도메인이나 해상도 변화와 같은 동적인 디지털 환경(데이터 분포의 변화)에서 성능 저하 없이 지속적으로 학습(continual learning) 할 수 있도록 하는 새로운 태스크인 Continual GUI Agents 를 정의합니다.#Review#Continual Learning#GUI Agents#Reinforcement Learning#Grounding#Domain Adaptation#Resolution Adaptation#Reward Shaping#Human-Computer Interaction2026년 2월 1일댓글 수 로딩 중
[논문리뷰] ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas논문은 도구-증강 언어 모델 에이전트 훈련의 어려움(수동 개입, 검증 불가능한 시뮬레이션 환경, 불안정한 장기/다중 턴 학습)을 해결하기 위해 완전히 자동화된 종단 간 프레임워크 ASTRA 를 제안합니다.#Review#LLM Agent#Tool Use#Trajectory Synthesis#Reinforcement Learning#Environment Synthesis#Data Generation#Multi-turn Interaction#Automated Training2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models본 연구는 제한된 자원과 엄격한 투명성 제약이 있는 환경에서, 지역 또는 국가 기관이 모델 가중치, 훈련 데이터, 배포에 대한 통제력을 유지할 수 있도록 하는 소버린 대규모 언어 모델(LLM) 의 최소한의 공개 포스트 트레이닝 레시피 를 개발하는 것을 목표로 합니다.#Review#Sovereign LLMs#Post-Training#Instruction Tuning#Supervised Fine-tuning#On-Policy Distillation#Reinforcement Learning#Knowledge Injection#Thai Language2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technical Report사이버보안 도메인에서 복잡한 다단계 분석을 수행하는 데 특화된 최초의 오픈소스 네이티브 추론 모델 인 Foundation-Sec-8B-Reasoning 을 개발하는 것이 목표입니다.#Review#Cybersecurity LLM#Reasoning Model#Supervised Fine-Tuning#Reinforcement Learning#Verifiable Rewards#8B Parameters#Open-Source AI2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Language-based Trial and Error Falls Behind in the Era of ExperienceLarge Language Models (LLMs)가 언어 기반이 아닌 새로운 환경(예: 상징적, 공간적 태스크)에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Reinforcement Learning#Exploration Efficiency#Sub-Scale Collaboration#Out-of-Distribution Tasks#Agentic AI#Supervised Fine-Tuning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning본 논문은 대규모 언어 모델(LLM) 기반의 에이전트가 장기적인 태스크를 수행할 때 발생하는 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다. 기존 RL 방법론은 컴퓨팅 자원을 중간 단계에 균일하게 할당하여 중요하지 않은 단계에서 자원을 낭비하고 고품질 궤적 확보에 실패하는 한계를 가지고 있습니다.#Review#Agentic AI#Reinforcement Learning#Long-Horizon Tasks#Dynamic Branching#Strategic Exploration#LLM Agents#Sample Efficiency#Policy Optimization2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning via Self-Distillation대규모 언어 모델(LLM)의 강화 학습(RL) 후 훈련에서 발생하는 심각한 신용 할당(credit assignment) 병목 현상 을 해결하는 것이 목표입니다. 특히, 코드 생성이나 수학 문제 해결과 같은 검증 가능한 도메인 에서 스칼라 보상 이 아닌 풍부한 텍스트 피드백 을 활용하여 학습 효율성을 극대화하고자 합니다.#Review#Reinforcement Learning#Self-Distillation#Large Language Models (LLMs)#Rich Feedback#Credit Assignment#Policy Optimization#RLHF#Code Generation#Test-Time Training2026년 1월 28일댓글 수 로딩 중
[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution본 논문은 모바일 및 데스크톱 환경 모두에서 자율적인 태스크 실행을 위한 범용 GUI(Graphical User Interface) 에이전트 모델인 OmegaUse 를 구축하는 것을 목표로 합니다.#Review#GUI Agent#Multimodal AI#MoE#Data Synthesis#Reinforcement Learning#Cross-Platform#Benchmarking2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Innovator-VL: A Multimodal Large Language Model for Scientific Discovery본 논문은 다양한 과학 도메인에 걸쳐 멀티모달 이해 및 추론 을 발전시키고, 동시에 일반 비전 태스크에서 우수한 성능을 유지하는 과학 멀티모달 대규모 언어 모델(MLLM) 인 Innovator-VL을 제시합니다.#Review#Multimodal LLM#Scientific AI#Data Efficiency#Reinforcement Learning#Vision-Language Model#Scientific Reasoning#Reproducible AI2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Mathematical Reasoning#Difficulty-Aware Optimization#Data Augmentation#Policy Optimization#LLMs#GRPO#MQR2026년 1월 28일댓글 수 로딩 중
[논문리뷰] TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment본 논문은 대규모 언어 모델(LLM)에서 유해한 콘텐츠 생성을 완화하는 안전성 정렬의 시급한 문제를 다룹니다. 기존 방법론들이 겪는 확장성 한계, 레드 팀 훈련의 엔트로피 붕괴, 방어 모델의 과적합, 그리고 적대적 다양성 부족 문제를 해결하는 것을 목표로 합니다.#Review#LLM Safety Alignment#Reinforcement Learning#Self-Play#Red Teaming#Adversarial Training#Multi-Role Framework#Reward Hacking Mitigation2026년 1월 27일댓글 수 로딩 중
[논문리뷰] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning본 논문은 멀티모달 대규모 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위해, 적응적이며 다단계적인 도구 활용 능력 을 개발하는 것을 목표로 합니다. 기존 MLLM이 새로운 도구나 작업에 직면했을 때 도구를 유연하게 사용하고 조정하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Tool Orchestration#Visual Reasoning#Reinforcement Learning#Adaptive Learning#Generalization#Tool Use2026년 1월 27일댓글 수 로딩 중
[논문리뷰] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation컴퓨터 비전 모델이 긴 서사적 일관성을 유지하지 못하고, 대화 같은 고수준의 아이디어와 시네마틱 실행 간의 '의미론적 간극'을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 단순 대화 입력만으로 장기적이고 일관성 있는 시네마틱 비디오를 자동 생성하는 엔드투엔드 프레임워크를 개발하고자 합니다.#Review#Dialogue-to-Video Generation#Agentic AI#Cinematic Scripting#Long-Horizon Video Synthesis#Visual Coherence#Reinforcement Learning#Multimodal LLM2026년 1월 26일댓글 수 로딩 중
[논문리뷰] SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback본 논문은 복잡한 다중 문서 추론이 필요한 딥 서치(deep search) 질문-답변(QA) 쌍을 효율적으로 생성하는 문제를 다룹니다.#Review#Deep Search#Agentic Data Generation#LLMs#Execution Feedback#Reinforcement Learning#Question Answering#Synthetic Data2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents본 연구는 대규모 언어 모델(LLM) 에이전트가 좁은 범위의 환경에서 후기 훈련(post-training)된 후 광범위하고 이전에 본 적 없는 도메인에 배포될 때 발생하는 일반화 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Cross-Domain Generalization#State Information Richness#Planning Complexity#State Augmentation#Step-by-Step Reasoning#Mid-Training2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation대규모 언어 모델(LLMs)이 겪는 '지식 단절(knowledge cutoff)' 문제와, 지도 미세 조정(SFT)이 새로운 지식 통합 시 추론 능력 향상에 한계가 있으며, 강화 학습(RL)은 온라인 적응에 비실용적으로 비싼 비용 문제를 해결하는 것이 목표입니다.#Review#LLMs#Continual Adaptation#Reinforcement Learning#Supervised Fine-Tuning#Skill Transfer#Task Arithmetic#Tool Use2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 파이프라인에서 발생하는 계산 비효율성, 특히 전체 훈련 시간의 70% 이상을 차지하는 롤아웃(rollout) 단계의 병목 현상을 해결하고자 합니다.#Review#Reinforcement Learning#FP8 Quantization#LLM Training#On-Policy RL#Unified Precision Flow#Training Efficiency#Rollout Acceleration2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Endless Terminals: Scaling RL Environments for Terminal Agents본 논문은 자체 개선 에이전트 훈련을 위한 환경이 부족하다는 문제점을 해결하고, 확장 가능한 RL 환경을 제공하는 것을 목표로 합니다.#Review#Reinforcement Learning#Procedural Generation#Terminal Agents#Environment Scaling#Language Models (LLMs)#PPO#Task Generation#Automated Verification2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind본 논문은 학술적 반론(rebuttal) 과정에서 단순히 표면적인 언어적 유사성을 모방하는 현재 AI 모델의 한계를 극복하고자 합니다.#Review#Academic Rebuttal#Theory of Mind#Large Language Models#Strategic Persuasion#Reinforcement Learning#Self-Reward#Dataset Synthesis#Automated Evaluation2026년 1월 25일댓글 수 로딩 중
[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.#Review#Diffusion Language Models#Reasoning#Reinforcement Learning#Autoregressive Models#Generation Order#Entropy Degradation#Pass@k#GRPO2026년 1월 22일댓글 수 로딩 중
[논문리뷰] SAMTok: Representing Any Mask with Two Words본 논문은 픽셀 단위의 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 인코더, 전용 디코더, 비호환적인 훈련 목표로 인해 확장성 문제를 겪는 점을 해결하고자 합니다.#Review#Mask Tokenization#Multimodal LLMs#Pixel-wise Vision-Language#Reinforcement Learning#Segmentation Anything Model#Discrete Representation2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Learning to Discover at Test Time본 연구는 AI를 활용하여 과학적 문제에서 새로운 SOTA(State-of-the-Art) 솔루션 을 발견하는 방법을 제시합니다. 특히, 훈련 데이터 범위를 넘어서는 새로운 아이디어 를 요구하는 난제들을 LLM이 테스트 시점에 지속적으로 학습 하며 해결하는 것을 목표로 합니다.#Review#Test-Time Training#Reinforcement Learning#Scientific Discovery#LLM Optimization#GPU Kernel Engineering#Algorithm Design#Single-Cell Analysis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] LLM-in-Sandbox Elicits General Agentic Intelligence본 논문은 LLM이 코드 샌드박스(가상 컴퓨터) 내에서 탐색할 수 있도록 지원하여, 비-코드 도메인에서 일반 에이전트 지능 을 이끌어내는 LLM-in-Sandbox 패러다임을 제안합니다.#Review#LLM-in-Sandbox#Agentic Intelligence#Code Sandbox#Reinforcement Learning#Generalization#Tool Use#Multi-Modal Generation#Long-Context Processing2026년 1월 22일댓글 수 로딩 중
[논문리뷰] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience본 논문은 정적 데이터 스케일링의 한계로 인해 장기적인 컴퓨터 사용 작업에서 복잡한 인과적 역학을 포착하는 데 어려움을 겪는 네이티브 컴퓨터 사용 에이전트(CUA) 의 문제를 해결하고자 합니다.#Review#Computer Use Agent#Synthetic Experience#Evolutionary Learning#Reinforcement Learning#Direct Preference Optimization#GUI Automation#Scalable Infrastructure#Verifiable Synthesis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] FARE: Fast-Slow Agentic Robotic Exploration본 연구는 자율 로봇 탐사에서 기존 방법론이 장기 정보 활용 및 환경 변화 적응에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Robotic Exploration#LLM#Reinforcement Learning#Fast-Slow Thinking#Hierarchical Planning#Agentic AI#Graph Reasoning2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Agentic Reasoning for Large Language Models본 설문조사 논문은 대규모 언어 모델(LLM)의 추론 능력이 정적인 폐쇄형 환경에서 벗어나 동적이고 개방형 환경에서 계획, 행동, 학습을 통해 지속적으로 상호작용하는 자율 에이전트 로 발전하는 Agentic Reasoning 패러다임을 체계화하는 것을 목표로 합니다.#Review#Agentic Reasoning#LLM Agents#Self-Evolving AI#Multi-Agent Systems#Planning#Tool Use#Retrieval-Augmented Generation#Reinforcement Learning2026년 1월 21일댓글 수 로딩 중
[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.#Review#Process Reward Models#Tool-using Agents#Benchmark#Reinforcement Learning#Large Language Models#Reward-guided Search#Agent Evaluation#Step-level Rewards2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Think3D: Thinking with Space for Spatial Reasoning기존 Vision-Language Models (VLMs) 이 2D 인식을 넘어선 진정한 3D 공간 추론 능력 과 일관된 공간 표현을 구축하는 데 한계가 있음을 해결하고자 합니다.#Review#Spatial Reasoning#3D Reconstruction#VLM Agents#Tool Calling#Reinforcement Learning#Novel View Synthesis#Iterative Exploration2026년 1월 20일댓글 수 로딩 중
[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR논문은 복잡한 다단계 OCR 파이프라인 없이 문서 이미지를 깨끗하고 자연스럽게 정렬된 텍스트로 변환하는 10억 개의 파라미터를 가진 종단 간 다국어 비전-언어 모델 LightOnOCR-2-1B 를 제안합니다.#Review#OCR#Vision-Language Model#End-to-End Learning#Multilingual#Reinforcement Learning#Document Understanding#Bounding Box Prediction#Task Arithmetic Merging2026년 1월 20일댓글 수 로딩 중
[논문리뷰] KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning픽셀 기반 강화 학습(RL) 에이전트가 잠재된 역학 및 보상이 고정되어 있음에도 불구하고 순수한 시각적 분포 변화에 취약한 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Visual Generalization#Distribution Shift#Benchmarking#JAX#Controlled Environments#PPO2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Agentic-R: Learning to Retrieve for Agentic Search본 논문은 멀티턴 에이전트 검색(agentic search)의 맥락에서 리트리버(retriever) 훈련의 한계를 극복하는 것을 목표로 합니다.#Review#Agentic Search#Retrieval-Augmented Generation#Retriever Training#Passage Utility Modeling#Iterative Optimization#Reinforcement Learning#Large Language Models2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.#Review#LLM-based Issue Resolution#Software Engineering#Autonomous Agents#Code Generation#Benchmarking#Reinforcement Learning#Supervised Fine-tuning#Multimodal LLMs2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론이 길고 저대역폭의 이산 토큰 시퀀스를 생성하는 문제점을 해결하고, 인간처럼 여러 가능한 다음 단계에 대한 분포를 유지하며 추론하는 확률적이고 샘플링 기반의 연속적 추론 메커니즘 을 개발하는 것을 목표로 합니다.#Review#Large Language Models#Reasoning#Chain-of-Thought#Reinforcement Learning#Stochastic Reasoning#Continuous Representation#Token Efficiency2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Reasoning Models Generate Societies of Thought본 논문은 대규모 언어 모델(LLM)의 정교한 추론 능력 이면에 있는 메커니즘을 규명하고, 이러한 능력이 단순히 계산량 증가가 아닌, 복잡한 다중 에이전트 상호작용 인 '생각의 사회(society of thought)'를 내재적으로 시뮬레이션함으로써 발현된다는 가설을 제시합니다.#Review#Reasoning Models#Large Language Models (LLMs)#Multi-Agent Systems#Society of Thought#Mechanistic Interpretability#Reinforcement Learning#Cognitive Diversity#Conversational AI2026년 1월 18일댓글 수 로딩 중
[논문리뷰] Urban Socio-Semantic Segmentation with Vision-Language Reasoning본 논문은 위성 이미지에서 건물이나 수역과 같은 물리적 속성이 아닌, 학교나 공원과 같은 사회적으로 정의된 도시의 의미론적 개체 를 정확하게 분할하는 새로운 도전 과제인 도시 사회-의미론적 분할(Urban Socio-Semantic Segmentation)을 해결하는 것을 목표로 합니다.#Review#Urban Segmentation#Socio-Semantic#Vision-Language Models (VLMs)#Reinforcement Learning#Geospatial Data#Multi-modal Reasoning#SAM2026년 1월 15일댓글 수 로딩 중
[논문리뷰] ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback본 논문은 LLM 기반 에이전트의 도구 호출 기능에서 발생하는 보안 위험을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Tool Use Safety#Guardrail#Step-level Safety Detection#Prompt Injection#Reinforcement Learning#Feedback Framework2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders본 논문은 기존 텍스트-이미지(T2I) 확산 모델들이 대규모 언어 모델(LLM) 기반 텍스트 인코더 를 단순히 특징 추출기로 사용하여 추론 능력을 충분히 활용하지 못하는 한계를 해결하고자 합니다.#Review#Text-to-Image#Diffusion Models#LLM Encoders#Reasoning-Aware AI#Reinforcement Learning#Dual-GRPO#Prompt Rewriting2026년 1월 15일댓글 수 로딩 중
[논문리뷰] STEP3-VL-10B Technical Report본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.#Review#Multimodal Large Language Models#Vision-Language Models#Reinforcement Learning#Parallel Coordinated Reasoning#Model Efficiency#Foundation Models#Pre-training#Post-training2026년 1월 15일댓글 수 로딩 중
[논문리뷰] MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching본 논문은 Tool-Integrated Reasoning (TIR) 에서 기존 강화 학습 방법론이 획일적인 보상 할당 으로 인해 비효율적인 도구 사용 최적화를 초래하는 문제를 해결하고자 합니다.#Review#Tool-Integrated Reasoning#LLMs#Reinforcement Learning#Fine-Grained Supervision#Bipartite Matching#Credit Assignment#Advantage Estimation2026년 1월 15일댓글 수 로딩 중
[논문리뷰] LSRIF: Logic-Structured Reinforcement Learning for Instruction Following본 논문은 대규모 언어 모델(LLMs)이 복잡한 실세계 명령, 특히 순차적 의존성이나 조건부 분기와 같은 논리적 구조 를 포함하는 명령을 따르는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Instruction Following#Reinforcement Learning#Logical Structures#LLMs#Reward Modeling#Dataset Construction#Attention Mechanism2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning본 논문은 멀티 에이전트 강화 학습(MARL)의 자원 집약적 이고 불안정한 훈련 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Reinforcement Learning#Test-Time Adaptation#Large Language Models#Collaborative Reasoning#Credit Assignment#Textual Experience#Distribution Shift Robustness2026년 1월 15일댓글 수 로딩 중
[논문리뷰] TranslateGemma Technical Report본 논문은 Gemma 3 파운데이션 모델을 기반으로 한 오픈형 기계 번역 모델인 TranslateGemma 를 소개합니다.#Review#Machine Translation#Large Language Models#Reinforcement Learning#Supervised Fine-tuning#Gemma 3#Multimodal AI#Synthetic Data2026년 1월 14일댓글 수 로딩 중
[논문리뷰] SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL본 논문은 일반적인 Large Vision-Language Models (LVLMs) 이 피부과 진단에서 겪는 '확산 주의(diffuse attention)' 문제를 해결하는 것을 목표로 합니다. 이는 모델이 미묘한 병리학적 병변을 배경 노이즈로부터 분리하지 못해 정보 전달 효율성이 저하되는 현상입니다.#Review#Dermatological Diagnosis#Multimodal LLM#Reinforcement Learning#Dynamic Visual Encoding#Information Transmission#Clinically Grounded Evaluation2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.#Review#LLM Agents#World Models#Adaptive Planning#Lookahead#Reinforcement Learning#POMDP#Task Planning#Reasoning2026년 1월 14일댓글 수 로딩 중
[논문리뷰] ExpSeek: Self-Triggered Experience Seeking for Web Agents기존 웹 에이전트들이 경험을 수동적으로 전역 컨텍스트로 주입하여 동적으로 변하는 환경에서 비효율적인 탐색과 신뢰할 수 없는 응답을 생성하는 문제를 해결하고자 합니다.#Review#Web Agents#Experience Seeking#Self-Triggered#LLM Reasoning#Entropy#Proactive Guidance#Reinforcement Learning#Foundation Models2026년 1월 14일댓글 수 로딩 중
[논문리뷰] VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory기존 Vision-Language-Action (VLA) 모델이 복잡하고 장기적인 내비게이션 태스크에서 부족했던 명시적 추론 능력 과 영구적인 기억 구조 의 부재를 해결하는 것을 목표로 합니다.#Review#Embodied Navigation#VLA Model#Adaptive Reasoning#Chain-of-Thought (CoT)#Linguistic Memory#Reinforcement Learning#Sim-to-Real Transfer#Multi-task Learning2026년 1월 13일댓글 수 로딩 중
[논문리뷰] The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 신뢰성을 높이기 위해, 도구 사용 환경에서 발생하는 verbalized calibration(언어화된 확신) 의 문제를 분석하고 완화하는 것을 목표로 합니다.#Review#LLM Agents#Calibration#Tool Use#Reinforcement Learning#Miscalibration#Overconfidence#Trustworthy AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Solar Open Technical ReportSolar Open 논문은 기존 LLM 생태계에서 영어와 중국어 외의 언어들 , 특히 한국어와 같은 데이터 부족 언어 가 겪는 모델 개발의 어려움을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Mixture-of-Experts#Korean LLM#Synthetic Data Generation#Curriculum Learning#Reinforcement Learning#Tokenizer Optimization#Multilingual AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] End-to-End Video Character Replacement without Structural Guidance본 논문은 기존 비디오 캐릭터 교체 방법론이 페어링된 데이터 부족과 per-frame segmentation masks 및 explicit structural guidance (e.g., skeleton, depth) 에 의존하여 일반화 및 시각적 일관성 측면에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Video Character Replacement#Diffusion Models#In-Context Learning#Reinforcement Learning#Structural Guidance#Video Editing#Data Generation Pipeline2026년 1월 13일댓글 수 로딩 중
[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Agents#Open-Ended Tasks#Relative Ranking#Tournament-based Ranking#Discriminative Collapse#Reward Modeling#Benchmarks2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization기존 Text-to-Visualization (Text2Vis) 시스템, 특히 오픈소스 LLM 들이 쿼리와 의미적으로 정렬되고 가독성이 높으며 실행 가능한 시각화를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Text-to-Visualization#Reinforcement Learning#Multi-Objective Optimization#GRPO#Multimodal Feedback#LLMs#Code Generation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning본 논문은 여행 계획 생성 시 발생하는 세 가지 주요 문제를 해결하는 것을 목표로 합니다: 방대한 관심 지점(POI) 후보군의 효율적인 가지치기, 단일 추론 경로로 인한 해법 공간 탐색 능력 제한, 그리고 하드 제약(예: 유효 방문 시간)과 소프트 제약(예: 경로 효율성)의 동시 최적화 어려움.#Review#Travel Planning#LLM Agents#Reinforcement Learning#Multi-path Reasoning#Constraint Satisfaction#POI Optimization#Chain-of-Thought2026년 1월 12일댓글 수 로딩 중
[논문리뷰] PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning본 논문은 현대 언어 모델(LLM)이 고정된 컨텍스트 창 내에서 순차적 추론에 의존하여 테스트 시간 연산(Test-Time Compute, TTC) 을 대규모로 확장할 수 없다는 근본적인 한계를 해결하는 것을 목표로 합니다.#Review#PaCoRe#Test-Time Compute Scaling#LLMs#Parallel Reasoning#Reinforcement Learning#Reasoning Synthesis#Message Passing#Mathematical Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] OpenTinker: Separating Concerns in Agentic Reinforcement Learning기존 대규모 언어 모델(LLM) 에이전트용 강화 학습(RL) 시스템의 한계를 극복하고, 에이전트 환경 및 상호작용 프로토콜의 재사용성 부족, 그리고 에이전트 프로그래밍과 실행 간의 분리 부재 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Agents#Multi-Agent Systems#System Architecture#Separation of Concerns#RLaaS#Distributed Training#Agent Protocol Coordination2026년 1월 12일댓글 수 로딩 중
[논문리뷰] MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era본 논문은 인터랙티브하고 자율적인 AI 에이전트의 대규모 훈련 및 평가를 위한 기존 인프라의 한계를 해결하고자 합니다.#Review#Agentic AI#Distributed Orchestration#Scalability#Cloud-Native#Reinforcement Learning#Software Engineering Agents#Resource Management2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization기존 대규모 시각-언어 모델(LVLM) 기반 지리 위치 특정(Geolocalization) 방법론이 지도 활용이라는 인간의 일반적인 전략을 간과하고 내부 추론에만 의존하는 한계를 극복하고자 합니다.#Review#Geolocalization#LVLM#Map-Augmented Agent#Reinforcement Learning#Parallel Test-Time Scaling#Tool Use#MAPBench2026년 1월 11일댓글 수 로딩 중
[논문리뷰] SmartSearch: Process Reward-Guided Query Refinement for Search Agents대규모 언어 모델(LLM) 기반 검색 에이전트의 중간 검색 쿼리 품질이 낮아 예기치 않은 검색 결과와 전체 성능 저하로 이어지는 문제를 해결하는 것입니다.#Review#Search Agent#Information Retrieval#Large Language Models#Process Reward#Query Refinement#Reinforcement Learning#Curriculum Learning2026년 1월 11일댓글 수 로딩 중
[논문리뷰] RelayLLM: Efficient Reasoning via Collaborative Decoding본 논문은 복잡한 추론 작업에서 대규모 언어 모델(LLM) 의 높은 연산 비용과 지연 시간 문제를 해결하면서, 소규모 언어 모델(SLM) 의 제한된 추론 능력을 보완하는 효율적인 방법을 제안합니다.#Review#LLM#SLM#Collaborative Decoding#Token-level Intervention#Reinforcement Learning#GRPO#Efficient Reasoning#Resource Efficiency2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Re-Align: Structured Reasoning-guided Alignment for In-Context Image Generation and Editing본 논문은 In-Context Image Generation and Editing (ICGE) 태스크에서 사용자의 의도를 정확하게 이해하고 충실하게 실행하는 데 필요한 정확한 이해 능력과 생성 능력 간의 격차 를 해소하는 것을 목표로 합니다.#Review#In-Context Image Generation#Image Editing#Multimodal Models#Chain-of-Thought#Structured Reasoning#Reinforcement Learning#Alignment#Diffusion Models2026년 1월 8일댓글 수 로딩 중
[논문리뷰] ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing본 연구는 다중 모달 생성 모델을 활용한 지시 기반 이미지 편집에서 시각적 추론 능력의 한계 를 해결하고자 합니다. 특히, 기존 RL 방법론의 제한된 추론 탐색, 편향된 보상 통합, 불안정한 VLM 기반 지시 보상 문제를 극복하여, 추론 중심의 이미지 편집 품질을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Image Editing#Reasoning#Chain-of-Thought#Multimodal Generative Models#Reward Modeling#VLM2026년 1월 7일댓글 수 로딩 중
[논문리뷰] MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics본 논문은 분자 동역학(MD) 시뮬레이션에서 LAMMPS 스크립트 작성 의 전문성과 시간 소모 문제를 해결하고, LLM의 도메인 데이터 희소성, 높은 배포 비용 및 낮은 코드 실행 가능성 한계를 극복하는 것을 목표로 합니다.#Review#Molecular Dynamics#LAMMPS#Code Generation#Knowledge Q&A#Large Language Models#Reinforcement Learning#Multi-agent System#Domain Adaptation2026년 1월 7일댓글 수 로딩 중
[논문리뷰] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models기존 GRPO(Group Relative Policy Optimization) 기반의 플로우 모델들이 여러 디노이징 타임스텝에 걸쳐 정책을 최적화할 때 발생하는 희소하고 모호한 보상 신호 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#Flow Models#Entropy-aware Sampling#Group Relative Policy Optimization#SDE#Human Preference Alignment#Image Generation2026년 1월 7일댓글 수 로딩 중
[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Online Post-training#Scalable Robot Learning#Distributed Systems#Multi-task Learning#Imitation Learning#Reinforcement Learning2026년 1월 6일댓글 수 로딩 중
[논문리뷰] MiMo-V2-Flash Technical Report본 논문은 빠른 추론 속도와 강력한 추론 및 에이전트 능력을 동시에 갖춘 효율적이고 비용 효율적인 대규모 언어 모델(LLM)인 MiMo-V2-Flash를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Sliding Window Attention#Multi-Token Prediction#Multi-Teacher On-Policy Distillation#Reinforcement Learning#Long-Context Modeling#Agentic AI2026년 1월 6일댓글 수 로딩 중
[논문리뷰] CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving기존 Multimodal Large Language Models (MLLMs) 이 시각적 수학 문제 해결에서 낮은 정확도와 일관성 없는 추론을 보이는 문제를 해결하는 것이 목표입니다. 특히, 시각적 정보 추출 후 이 정보가 추론 과정에 충실히 통합되고 활용되는지를 보장하지 못하는 한계를 극복하고자 합니다.#Review#Multimodal LLMs#Visual Reasoning#Mathematical Problem Solving#Knowledge Internalization#Reinforcement Learning#Cognitive-Inspired AI#Perception-Reasoning Alignment2026년 1월 6일댓글 수 로딩 중
[논문리뷰] VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive GenerationVisual Autoregressive (VAR) 모델은 이질적인 입력 구조와 생성 단계별로 크게 변동하는 쿼리 토큰 수로 인해 비동기 정책 충돌이 발생하여, 특히 RL 환경에서 불안정한 학습과 최적화되지 않은 정렬을 초래합니다.#Review#Visual Autoregressive Models#Reinforcement Learning#Policy Conflicts#GRPO#Text-to-Image Generation#Credit Assignment#Multi-scale Generation2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes본 논문은 기존 텍스트 기반 이미지 편집 모델이 객체 수준의 기하학적 변환(이동, 회전, 크기 조절)에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Text-Guided Image Editing#Object-Level Transformation#Geometric Transformation#Diffusion Models#GRPO#Scene Editing#Spatially Grounded Rewards2026년 1월 5일댓글 수 로딩 중
[논문리뷰] NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and GenerationNextFlow는 단일 decoder-only autoregressive transformer 를 사용하여 멀티모달 이해 및 생성 능력을 통합하는 것을 목표로 합니다.#Review#Multimodal AI#Decoder-only Transformer#Next-scale Prediction#Image Generation#Image Editing#Reinforcement Learning#Unified Modeling#TokenFlow2026년 1월 5일댓글 수 로딩 중
[논문리뷰] GARDO: Reinforcing Diffusion Models without Reward HackingReinforcement Learning(RL) 기반의 확산 모델 fine-tuning 과정에서 발생하는 Reward Hacking 문제(proxy reward는 증가하지만 실제 이미지 품질이 저하되고 다양성이 감소하는 현상)를 해결하는 것이 주 목표입니다.#Review#Diffusion Models#Reinforcement Learning#Reward Hacking#KL Regularization#Adaptive Regularization#Diversity Optimization#Text-to-Image Generation2026년 1월 5일댓글 수 로딩 중
[논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer비디오 얼굴 스와핑(VFS)에서 기존 이미지 얼굴 스와핑(IFS) 모델 대비 신원 유사성 및 속성 보존 능력의 격차를 해소하고, 시간적 일관성 문제를 해결하는 것이 주된 목표입니다.#Review#Video Face Swapping#Diffusion Transformer#Identity Preservation#Temporal Consistency#Modality-Aware Conditioning#Reinforcement Learning#Data Synthesis2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization본 논문은 기존 LLM 에이전트 프레임워크가 겪는 높은 구성 비용 과 정적 기능 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Automated Agent Generation#Reinforcement Learning#Hybrid Policy Optimization#Tool Synthesis#In-context Learning#Agent Framework#Scalability2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation본 논문은 멀티모달 대규모 언어 모델(MLLMs) 이 시각적 내용보다 언어적 선험 지식에 과도하게 의존하여 발생하는 시각적으로 근거 없는 환각(hallucinations) 문제를 해결하는 것을 목표로 합니다.#Review#MLLMs#Video Understanding#Hallucinations#Counterfactual Generation#Diffusion Models#Reinforcement Learning#QA Dataset#DNA-Train2026년 1월 4일댓글 수 로딩 중
[논문리뷰] SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning본 논문은 기존 VLM 기반 에이전트의 텍스트 중심 추론 및 고립된 도구 호출 한계를 극복하고자 합니다.#Review#Multimodal Agents#Reinforcement Learning#Vision-Language Models#Tool Use#Agentic Reasoning#Image Search#HR-MMSearch#BN-GSPO2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.#Review#Next Token Prediction#Reinforcement Learning#Large Language Models#Reward Shaping#Pre-training Objective#Policy Gradient#Exploration-Exploitation2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem본 논문은 대규모 언어 모델(LLM)이 복잡하고 다단계의 에이전트 태스크를 실제 환경에서 수행하기 위한 확장 가능하고 종단 간(end-to-end)의 안정적인 에이전트 에코시스템을 구축하는 것을 목표로 합니다.#Review#Agentic Learning Ecosystem#Large Language Models#Reinforcement Learning#Agentic Crafting#Tool Use#ROME Model#Policy Optimization#Sandbox Environment2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking본 논문은 텍스트 전용 추론 모델이 암묵적인 공간 및 기하학적 관계를 파악하는 데 어려움을 겪는 복잡한 추론 문제의 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Visual Thinking#Reinforcement Learning#Code Generation#Geometric Reasoning#Adaptive Reward Mechanism#Problem Solving2025년 12월 31일댓글 수 로딩 중
[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language ModelsDiffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.#Review#Diffusion Language Models#Post-Training#Reinforcement Learning#GRPO#FlexAttention#LMDeploy#Math Reasoning#SFT2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.#Review#Software Engineering Agents#Execution-free Feedback#Reward Model#Reinforcement Learning#Test-Time Scaling#Calibration#AUC#SWE-Bench2025년 12월 28일댓글 수 로딩 중
[논문리뷰] MAI-UI Technical Report: Real-World Centric Foundation GUI Agents본 연구는 사용자 상호작용 부족, UI 전용 작업의 한계, 비실용적인 배포 아키텍처, 동적 환경에서의 취약성 등 기존 GUI 에이전트의 현실적인 배포 문제를 해결하고자 합니다.#Review#GUI Agents#Foundation Models#Reinforcement Learning#Device-Cloud Collaboration#Mobile Navigation#Tool Augmentation#User Interaction2025년 12월 28일댓글 수 로딩 중
[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search본 논문은 최신 개방형 멀티모달 에이전트가 복잡한 실세계 시각적 추론 작업(예: 고밀도 차트 분석, 지도 탐색)에서 보이는 한계를 해결하고자 합니다.#Review#Multimodal AI#Visual Search#Foundation Models#Multi-agent Systems#Reinforcement Learning#Benchmarking#Visual Reasoning2025년 12월 28일댓글 수 로딩 중
[논문리뷰] VA-π: Variational Policy Alignment for Pixel-Aware Autoregressive Generation본 논문은 Autoregressive (AR) 시각 생성 모델이 토큰 수준에서만 최적화되어 픽셀 공간에서 낮은 품질의 이미지를 생성하는 문제를 해결하고자 합니다.#Review#Autoregressive Generation#Pixel-Aware Alignment#Variational Optimization#Reinforcement Learning#Visual Tokenizers#Image Quality#ELBO#Post-Training Framework2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning본 논문은 오픈 소스 로 제공되며, 효율적 이면서도 에이전트적 추론 능력이 뛰어난 Mixture-of-Experts (MoE) 하이브리드 Mamba-Transformer 언어 모델 인 Nemotron 3 Nano를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Mamba-Transformer#Agentic Reasoning#Long Context LLM#FP8 Quantization#Supervised Fine-Tuning#Reinforcement Learning2025년 12월 24일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron 3: Efficient and Open IntelligenceNemotron 3 가족 모델(Nano, Super, Ultra)을 공개하여 강력한 agentic, 추론, 대화 능력 을 제공하는 효율적인 오픈 모델을 구축하는 것이 목표입니다.#Review#Hybrid Mamba-Transformer#Mixture-of-Experts#LatentMoE#NVFP4 Training#Multi-Token Prediction#Long Context#Reinforcement Learning#Open Models2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Step-DeepResearch Technical Report본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.#Review#Deep Research Agents#LLMs#Reinforcement Learning#Supervised Fine-tuning#Agentic AI#Multi-hop Reasoning#Benchmarking#Cost-effectiveness2025년 12월 23일댓글 수 로딩 중
[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMs멀티모달 대규모 언어 모델(MLLM) 내에서 공간 능력의 계층적 구조가 제대로 이해되지 않고 단편적으로 연구되는 문제를 해결하는 것을 목표로 합니다.#Review#Spatial Intelligence#Multimodal LLMs#Cognitive Hierarchy#Benchmark#Reinforcement Learning#Supervised Fine-tuning#Spatial Reasoning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] LongVideoAgent: Multi-Agent Reasoning with Long Videos본 논문은 기존 MLLM(Multimodal Large Language Models)이 긴 길이의 비디오에서 발생하는 정보 압축 손실, 제한된 도구 세트, 그리고 미세한 시간적 추론 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent System#Long Video Understanding#Video Question Answering#Reinforcement Learning#Large Language Models#Temporal Grounding#Multimodal Reasoning#Tool-Augmented AI2025년 12월 23일댓글 수 로딩 중
[논문리뷰] INTELLECT-3: Technical Report본 논문은 기존 오픈소스 LLM RL 인프라의 복잡성과 확장성 한계를 해결하고, 106B 파라미터 Mixture-of-Experts (MoE) 모델인 INTELLECT-3 를 통해 최첨단 성능을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Mixture-of-Experts#Asynchronous Training#Distributed Systems#Agentic AI#Code Execution#Model Evaluation2025년 12월 23일댓글 수 로딩 중
[논문리뷰] FaithLens: Detecting and Explaining Faithfulness Hallucination본 논문은 대규모 언어 모델(LLM) 출력에서 발생하는 충실성 환각(faithfulness hallucination) 을 탐지하고, 그 결정에 대한 설명(explanation) 을 함께 제공하여 LLM의 신뢰성을 향상시키는 비용 효율적이고 효과적인 모델 FaithLens 를 제안합니다.#Review#LLM Hallucination Detection#Explainable AI#Faithfulness Evaluation#Data Augmentation#Reinforcement Learning#Fact-Checking2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Interpretability#Transformer#Internal Policy#Entropy Analysis2025년 12월 23일댓글 수 로딩 중
[논문리뷰] GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators본 논문은 대규모 언어 모델(LLM) 에이전트 훈련의 주요 병목인 높은 비용과 실세계 상호작용 데이터의 정적인 특성을 해결하고자 합니다.#Review#LLM Agents#Environment Simulation#Co-evolution#Curriculum Learning#Data Efficiency#Reinforcement Learning#Adaptive Simulation#Difficulty Alignment2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience본 논문은 학부 및 대학원 수준 이상의 수학 문제에 대한 형식적 정리 증명(Formal Theorem Proving)의 효율성과 성능을 개선하는 것을 목표로 합니다. 특히, LLM 기반의 형식적 증명에서 나타나는 높은 계산 비용과 도전 과제를 해결하며, 자연어 증명과 형식어 증명 간의 간극을 효과적으로 연결하고자 합니다.#Review#Formal Theorem Proving#Large Language Models#Reinforcement Learning#Agentic Prover#Lean Theorem Prover#Mathematical Reasoning#Test-Time Scaling2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Meta-RL Induces Exploration in Language Agents본 논문은 기존 강화 학습(RL) 기반의 대규모 언어 모델(LLM) 에이전트가 환경에서 능동적인 탐색과 시행착오 경험으로부터 효율적인 정책 적응에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Meta-RL#LLM Agents#Exploration#Reinforcement Learning#Policy Adaptation#In-context Learning#Self-reflection#Multi-episode tasks2025년 12월 21일댓글 수 로딩 중
[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Robotics#Foundation Models#Multi-modal Learning#Reinforcement Learning#Sim-to-Real Transfer#Human-Robot Interaction2025년 12월 21일댓글 수 로딩 중
[논문리뷰] RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing본 논문은 기존 지시 기반 이미지 편집 모델들이 Instruction-Visual Complexity (IV-Complexity) 시나리오(복잡한 시각적 문맥, 모호한 지시, 다중 객체 참조, 세계 지식 및 인과적 추론 필요)에서 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#Image Editing#Vision-Language Models#Diffusion Models#Region-aligned Guidance#Reinforcement Learning#Instruction-Visual Complexity#Attention Mechanism2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious RewardRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Clipping#Policy Entropy#Spurious Rewards#Mathematical Reasoning#RLVR2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification본 논문은 기존 MLLM 평가 방법론의 해석력 부족 과 중요한 능력 격차를 포착하지 못하는 한계 를 해결하고자 합니다. 특히 모델의 고질적인 약점 과 실패 모드 를 자동으로 식별하고 해석하며, 이를 효과적으로 개선 할 수 있는 프레임워크를 구축하는 것을 목표로 합니다.#Review#MLLM#Model Auditing#Capability Gaps#Failure Mode Discovery#Reinforcement Learning#Data Rectification#Counterfactual Generation#VQA2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Adaptation of Agentic AI본 논문은 급성장하는 에이전트 AI 시스템의 적응(adaptation) 연구 분야를 체계적인 프레임워크로 통합하고, 에이전트 적응과 툴 적응 모두를 포괄하는 통일된 관점을 제공하는 것을 목표로 합니다.#Review#Agentic AI#Adaptation#Agent Adaptation#Tool Adaptation#Reinforcement Learning#Fine-tuning#Modular AI2025년 12월 18일댓글 수 로딩 중
[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal LLM#Adaptive Tool-Use#Reinforcement Learning#Chain-of-Thought#Vision-Language Models#Visual Reasoning#AT-GRPO2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Step-GUI Technical Report논문은 GUI 자동화 분야에서 고품질 훈련 데이터를 효율적이고 신뢰성 있게 확보하는 근본적인 문제를 해결하고자 합니다. 또한, 이종 기기 간의 표준화된 인터페이스를 구축하여 사용자 개인 정보를 보호하고, 실제 일상적인 사용 패턴에 기반한 평가 벤치마크를 통해 에이전트의 실용성을 검증하는 것을 목표로 합니다.#Review#GUI Automation#Self-Evolving Pipeline#Reinforcement Learning#Multimodal LLMs#Privacy-Preserving AI#Human-Computer Interaction#Model Context Protocol#Benchmarking2025년 12월 17일댓글 수 로딩 중
[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.#Review#Video Reasoning#Reinforcement Learning#Multi-Turn Reasoning#Agent System#Long Videos#Synthetic Data#Any-Horizon Reasoning#Large Language Models2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.#Review#Reinforcement Learning#Large Language Models#Exploration Strategy#Gradient-Guided#Reward Shaping#Reasoning#PPO2025년 12월 17일댓글 수 로딩 중
[논문리뷰] ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement논문은 기존 이미지 생성 및 통합 모델이 깊은 추론, 계획, 그리고 데이터-시각 매핑의 정밀성을 요구하는 복잡한 태스크에서 한계를 보이는 문제에 주목합니다.#Review#Table Visualization#Infographic Generation#Multi-modal Large Language Models (MLLMs)#Diffusion Models#Self-Correction#Reinforcement Learning#Graphic Design#Data-to-Visual Mapping2025년 12월 16일댓글 수 로딩 중
[논문리뷰] RecGPT-V2 Technical ReportRecGPT-V2는 기존 RecGPT-V1의 LLM 기반 추천 시스템 이 겪던 계산 비효율성, 설명 다양성 부족, 제한된 일반화 능력, 단순한 평가 방식의 네 가지 근본적인 한계를 해결하는 것을 목표로 합니다.#Review#Recommender Systems#Large Language Models#Multi-Agent Systems#Reinforcement Learning#Dynamic Prompting#Hybrid Representation#Agentic Evaluation#Explanation Generation2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Olmo 3Olmo 3는 7B 및 32B 파라미터 스케일에서 최첨단, 완전 오픈(fully-open) 언어 및 사고 모델 제품군을 소개하는 것을 목표로 합니다. 이 연구의 핵심은 모델의 전체 라이프사이클(모든 단계, 체크포인트, 데이터 포인트, 종속성 포함)을 완전히 공개 하여 무한한 커스터마이징과 연구 기회를 제공하는 것입니다.#Review#Large Language Models#Open-Source AI#Model Flow#Long-Context Reasoning#Instruction Following#Function Calling#Thinking Models#Data Curation#Reinforcement Learning2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Memory in the Age of AI Agents이 서베이 논문은 급증하는 AI 에이전트 메모리 연구 분야의 파편화된 개념적 명확성 부족을 해결하고, 기존 분류 체계의 한계 를 극복하고자 합니다.#Review#AI Agents#Memory Systems#LLMs#Taxonomy#Continual Learning#Self-Evolution#Multimodality#Reinforcement Learning2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Image Diffusion Preview with Consistency Solver본 논문은 이미지 Diffusion 모델의 느린 추론 속도로 인해 저하되는 사용자 경험 문제를 해결하고자 합니다.#Review#Diffusion Models#Efficient Sampling#Reinforcement Learning#ODE Solvers#Image Generation#Consistency#Diffusion Preview2025년 12월 15일댓글 수 로딩 중
[논문리뷰] DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry본 논문은 기존 MLLM이 치과 영상 데이터의 미세한 시각적 특징을 포착하고 정밀한 진단을 위한 충분한 추론 능력을 갖추지 못하는 한계를 해결하고자 합니다. 이를 위해 치과 분야에 특화된 DentalGPT 를 개발하여 자동화된 구강 건강 관리에서 멀티모달 복합 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Multimodal Large Language Model#Dental Imaging#Complex Reasoning#Domain Adaptation#Reinforcement Learning#Medical VQA#Dental Healthcare2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Thinking with Images via Self-Calling Agent본 논문은 희소한 고품질 추론 데이터로 인해 강화 학습을 통한 MLLM의 Interleaved Multimodal Chain-of-Thought (iMCoT) 최적화가 어렵다는 문제점을 해결하고자 합니다.#Review#Multimodal LLMs#Self-Calling Chain-of-Thought#Reinforcement Learning#Visual Reasoning#Agentic AI#Tool Calling#Group Relative Policy Optimization2025년 12월 11일댓글 수 로딩 중
[논문리뷰] OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification본 논문은 대규모 언어 모델(LLMs)이 생성하는 길고 복잡한 CoT(Chain-of-Thought) 추론 과정의 신뢰할 수 없는 중간 단계를 효율적으로 검증하는 문제를 해결하고자 합니다.#Review#LLM Verification#Chain-of-Thought#Process-based Verifier#Outcome-based Verifier#Active Learning#Reinforcement Learning#Mathematical Reasoning#AI Alignment2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving본 논문은 대규모 추론 모델(LRM)이 국제 수학 올림피아드(IMO) 수준의 초고난도 수학 문제를 해결하는 데 있어 긴 컨텍스트 길이의 제약 으로 인해 발생하는 병목 현상을 극복하는 것을 목표로 합니다.#Review#Mathematical Reasoning#Long-Horizon Reasoning#Multi-Agent System#Reinforcement Learning#Olympiad Problems#Lemma Memory#Context Length#OREAL-H2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents본 논문은 복잡한 인터랙티브 태스크에서 LLM 에이전트가 직면하는 프라이버시 제약으로 인해 중앙 집중식 최적화 및 동적 환경 간 공동 진화가 어려운 문제를 해결하고자 합니다.#Review#Federated Learning (FL)#LLM Agents#Self-Evolution#Privacy-Preserving#Multi-Environment#Parameter-Efficient Fine-Tuning#Low-Rank Aggregation#Reinforcement Learning2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation텍스트-3D 자동회귀(autoregressive) 생성 모델에 강화 학습(RL) 을 체계적으로 적용하고 그 효과를 분석하는 것을 목표로 합니다. 특히, 3D 객체의 복잡한 기하학적 구조와 미세한 질감을 고려하여 보상 설계 와 RL 알고리즘 선택 이 3D 생성 성능에 미치는 영향을 심층적으로 탐구합니다.#Review#Reinforcement Learning#Text-to-3D Generation#Autoregressive Models#Reward Modeling#Hierarchical RL#3D Benchmarking#ShapeLLM-Omni2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning이 논문은 대규모 언어 모델(LLM) 에이전트가 국제 수학 올림피아드(IMO) 수준의 기하학 문제 를 해결하는 데 있어 기존 전문가 시스템의 한계를 극복하는 것을 목표로 합니다.#Review#LLM Agents#Geometry Problem Solving#Reinforcement Learning#Curriculum Learning#Auxiliary Construction#Symbolic Reasoning#IMO2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Learning Unmasking Policies for Diffusion Language Models마스킹된 이산 확산 언어 모델(dLLMs)에서 토큰 마스킹 해제(unmasking) 방식이 추론 효율성과 생성 품질에 중요한 영향을 미칩니다.#Review#Diffusion Language Models#Reinforcement Learning#Masked Diffusion#Sampling Policy#Inference Optimization#Markov Decision Process#Generative AI#Text Generation2025년 12월 10일댓글 수 로딩 중
[논문리뷰] EtCon: Edit-then-Consolidate for Reliable Knowledge Editing본 논문은 대규모 언어 모델(LLM)의 지식 편집 방법론이 제어된 환경에서는 높은 성능을 보이나, 실제 자율 회귀 생성 및 평생 학습 시나리오에서는 치명적인 실패를 겪는 문제를 해결하고자 합니다.#Review#Knowledge Editing#Large Language Models#Lifelong Learning#Reinforcement Learning#Trust Region Policy Optimization#Chain-of-Thought#Catastrophic Forgetting2025년 12월 10일댓글 수 로딩 중
[논문리뷰] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models본 논문은 시각적 생성 모델의 RL 후학습(post-training) 시 발생하는 막대한 계산 비용 문제를 해결하고, 기존 방법론들의 낮은 샘플 효율성 과 투박한 신용 할당 한계를 극복하여 인간의 선호도에 더 잘 부합하는 모델을 효율적으로 정렬하는 것을 목표로 합니다.#Review#Reinforcement Learning#Diffusion Models#Generative Models#Tree Search#Sample Efficiency#Credit Assignment#GRPO#Visual Generative Models2025년 12월 9일댓글 수 로딩 중
[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.#Review#LLM#Parallel Reasoning#Inference Latency#Chain-of-Thought#Reinforcement Learning#Adaptive Threading#Mathematical Reasoning#Speedup2025년 12월 9일댓글 수 로딩 중
[논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment본 논문은 다양한 장기 로봇 조작 데이터의 부족과 기존 비디오 생성 모델의 한계를 극복하여, 물리적으로 그럴듯하고 논리적으로 일관된 장기 로봇 조작 비디오 를 합성하는 것을 목표로 합니다. 특히 수동으로 정의된 궤적에 의존하지 않고 자율적인 데이터 합성을 가능하게 하는 데 중점을 둡니다.#Review#Video Generation#Robotic Manipulation#Hierarchical Framework#Reinforcement Learning#Diffusion Models#World Models#Cognitive Science#Physical Alignment2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.#Review#Vision-Language Models#Reinforcement Learning#Self-Evolving Learning#Data-Scarce Domains#Context-First Learning#Reward Hacking Mitigation#Multimodal Reasoning#Curriculum Learning2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Beyond Token-level Supervision: Unlocking the Potential of Decoding-based Regression via Reinforcement Learning이 논문은 디코딩 기반 회귀 모델이 개별 토큰 수준의 목표(예: cross-entropy)와 연속적인 수치 값 사이의 불일치로 인해 겪는 한계를 해결하고자 합니다.#Review#Decoding-based Regression#Reinforcement Learning#Numerical Prediction#Large Language Models#Policy Gradient#Tokenization#Sequence Generation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] RealGen: Photorealistic Text-to-Image Generation via Detector-Guided Rewards본 논문은 기존 텍스트-이미지(T2I) 생성 모델들이 보이는 '가짜 같은' AI 아티팩트(예: '지나치게 매끄러운 피부', '기름진 얼굴 광택') 문제를 해결하고, 현실과 구분 불가능한 수준의 사실적인 이미지 를 생성하는 것을 목표로 합니다.#Review#Text-to-Image Generation#Photorealism#Reinforcement Learning#Diffusion Models#Adversarial Learning#Detector-Guided Rewards#LLM Prompt Optimization#Image Quality Assessment2025년 12월 7일댓글 수 로딩 중
[논문리뷰] ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning본 논문은 복잡한 추론 중심 비디오 객체 분할 (Reasoning VOS) 태스크에서 기존 Vision-Language Models (VLMs) 의 불투명한 단일 스텝 잠재 예측 방식의 한계를 극복하는 것을 목표로 합니다.#Review#Video Object Segmentation#Reinforcement Learning#Vision-Language Models#Reasoning Chain#Explainable AI#Multi-step Reasoning2025년 12월 7일댓글 수 로딩 중
[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Curriculum Learning#Advantage Function#Reasoning Tasks#Multimodal AI#Policy Optimization#Generalization2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning대규모 언어 모델(LLMs)을 위한 강화 학습(RL)은 trust-region deviation 과 훈련 불안정성 문제에 직면해 있습니다.#Review#Reinforcement Learning#Policy Optimization#Trust Region#Entropy Clipping#Large Language Models#Training Stability#Distributional Shift2025년 12월 7일댓글 수 로딩 중
[논문리뷰] COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence본 연구는 기존 MLLM이 3D 공간 추론 및 객체 속성 이해에 어려움을 겪는 문제를 해결하고자 합니다. 단일 통합 MLLM이 공간 지각 능력을 내재적으로 향상 시키고, 적응형의 인터리브드 추론 을 통해 더욱 강력한 공간 지능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Multimodal Large Language Models (MLLMs)#Spatial Reasoning#Perception Enhancement#Auxiliary Modalities#Adaptive Interleaved Reasoning#Reinforcement Learning#Chain-of-Thought2025년 12월 7일댓글 수 로딩 중
[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual WorldsSIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.#Review#Embodied AI#Generalist Agent#Virtual Worlds#Foundation Models#Gemini#Self-Improvement#Dialogue#Reasoning#Reinforcement Learning2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation효율적인 스트리밍 비디오 생성 시 기존 방법론들이 정적 초기 토큰에 과도하게 의존하여 동적 움직임 저하와 '프레임 복사' 문제를 겪는 한계를 극복하고자 합니다. 본 연구는 실시간으로 높은 시각적 충실도와 강력한 움직임 역동성을 동시에 유지하는 비디오 생성을 목표로 합니다.#Review#Streaming Video Generation#Video Diffusion Models#Distribution Matching Distillation#Reinforcement Learning#Autoregressive Models#Attention Sink#Real-time2025년 12월 4일댓글 수 로딩 중
[논문리뷰] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning본 논문은 기존 멀티모달 보상 모델(Reward Models, RMs)이 겪는 환각, 약한 시각적 접지(visual grounding), 그리고 검증을 위한 도구 사용 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Reward Models#Agentic AI#Tool Use#Reinforcement Learning#Visual Reasoning#Multimodal LLMs#Instruction Following#Evaluation Benchmarks2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.#Review#Multimodal LLM#Tool Learning#Code Generation#Reinforcement Learning#Image Manipulation#Robustness#Error Recovery#Programming Vision2025년 12월 3일댓글 수 로딩 중
[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.#Review#Spatial Reasoning#Vision Language Models#Reinforcement Learning#Tool Augmentation#Robotics#Multi-Tool Use#Embodied AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.#Review#Self-Distillation#Cognitive Skills#Reinforcement Learning#Supervised Fine-Tuning#Language Models#Reasoning#Verification#Retrying2025년 12월 3일댓글 수 로딩 중
[논문리뷰] SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment본 논문은 LLM을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 외부 감독(인간 주석의 희소성, 보상 모델 해킹, 프롬프트 민감도)의 한계를 극복하는 것을 목표로 합니다.#Review#LLM Alignment#Stable Rank#Intrinsic Reward#Reinforcement Learning#Geometric Properties#Group Relative Policy Optimization#Annotation-Free Alignment2025년 12월 3일댓글 수 로딩 중
[논문리뷰] PretrainZero: Reinforcement Active Pretraining본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.#Review#Reinforcement Learning#Active Learning#Pretraining#Large Language Models#Self-Supervised Learning#Masked Language Modeling#Generalization#Reasoning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and Video기존 MLLM(Multimodal Large Language Models)이 단일 태스크나 단일 모달리티(이미지 또는 비디오)에 국한되는 한계를 넘어, 이미지와 비디오 이해를 아우르는 다양한 시각 태스크를 동시에 처리할 수 있는 범용적인 추론 모델 인 'All-in-one multimodal reasoning generalist' 를 개발하는 것을 목표로 합니다.#Review#Multimodal LLMs#Reinforcement Learning#Visual Reasoning#Generalist Model#Image Understanding#Video Understanding#Multitask Learning#EMA-GRPO2025년 12월 3일댓글 수 로딩 중
[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.#Review#Table Recognition#Self-supervised Learning#Vision-Language Models#Reinforcement Learning#Question Answering#Data Augmentation#GRPO2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Guided Self-Evolving LLMs with Minimal Human Supervision본 논문은 기존의 자율 진화(self-evolving) 언어 모델(LLM)이 겪는 불안정성, 성능 정체, 개념 표류(concept drift) 및 다양성 붕괴(diversity collapse) 문제를 해결하고자 합니다.#Review#Self-Evolving LLMs#Self-Play#Reinforcement Learning#Curriculum Learning#Few-shot Learning#Human Supervision#Concept Drift#Diversity Collapse2025년 12월 2일댓글 수 로딩 중
[논문리뷰] GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning본 연구는 GUI(Graphical User Interface) 에이전트가 실제 환경에서 복잡한 화면 탐색 과제를 수행하는 데 필요한 포괄적인 환경 정보를 얻기 어렵다는 문제를 해결합니다.#Review#GUI Agents#Screen Navigation#Reinforcement Learning#Multi-Turn RL#Simulation#Supervised Fine-tuning#Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models본 논문은 오픈 소스 대규모 언어 모델(LLM)과 상업용 LLM 간의 성능 격차를 줄이고자 DeepSeek-V3.2 를 소개합니다.#Review#Large Language Models#Sparse Attention#Reinforcement Learning#Agentic AI#Tool Use#Open-source LLM#DeepSeek2025년 12월 2일댓글 수 로딩 중
[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Agentic Reasoning#Tool Use#Reinforcement Learning#Faithfulness Evaluation#Policy Optimization#Visual Search#Code Generation2025년 12월 2일댓글 수 로딩 중
[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중
[논문리뷰] LongVT: Incentivizing 'Thinking with Long Videos' via Native Tool Calling논문은 대규모 멀티모달 모델(LMMs)이 장시간 비디오(hours-long)에서 증거가 희박하고 시간적으로 분산된 정보를 처리할 때 발생하는 환각 현상과 부정확한 추론 문제를 해결하고자 합니다.#Review#Long Video Understanding#Multimodal LLMs#Tool Calling#Reinforcement Learning#Chain-of-Thought#Temporal Grounding#Video Question Answering2025년 12월 1일댓글 수 로딩 중
[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI AgentsGUI(Graphical User Interface) 에이전트가 순차적 탐색 작업을 수행할 때, 과도한 계산 오버헤드와 불필요한 정보로 인한 방해 없이 과거 컨텍스트를 효과적이고 효율적으로 활용하는 방법을 연구합니다.#Review#GUI Agents#Reinforcement Learning#Context-aware#History Compression#Policy Optimization#Multimodal LLM#Dynamic Sampling2025년 12월 1일댓글 수 로딩 중
[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation본 논문은 일반적인 Vision-Language-Action (VLA) 파운데이션 모델 이 실제 환경에서 발생하는 긴 호라이즌의 정교하고 민첩한 로봇 조작 에서 겪는 한계를 해결하는 것을 목표로 합니다.#Review#Robotic Manipulation#Reinforcement Learning#Vision-Language-Action#Dexterous Control#Long-Horizon Tasks#Data Filtering#Data Augmentation#Foundation Models2025년 12월 1일댓글 수 로딩 중
[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence이 논문은 코드 LLM(Large Language Models) 의 전체 모델 라이프사이클을 포괄하는 실용적인 가이드와 종합적인 분석을 제공하는 것을 목표로 합니다.#Review#Code LLMs#Software Engineering Agents#Code Generation#Reinforcement Learning#Supervised Fine-tuning#Multimodal AI#Code Safety#Scaling Laws2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning본 논문은 반복적인 샘플링 과정과 높은 훈련 비용으로 인해 computationally expensive한 확산 모델의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Image Generation#Distillation#Reinforcement Learning#Few-Step Sampling#Timestep-Aware#Pixel-GAN#Model Efficiency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Asking like Socrates: Socrates helps VLMs understand remote sensing images기존 Vision-Language Model (VLM) 들이 원격 감지(RS) 이미지 분석에서 겪는 '가짜 추론(pseudo reasoning)' 문제를 해결하고자 합니다.#Review#Remote Sensing#Vision-Language Models#Iterative Reasoning#Evidence-Seeking#Socratic Method#Reinforcement Learning#Multi-Agent System#VQA#Grounding2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.#Review#Reinforcement Learning#Large Language Models#Instruction Optimization#Policy Co-Evolution#Agentic AI#Tool-Integrated Reasoning#Self-Reflection2025년 12월 1일댓글 수 로딩 중
[논문리뷰] SO-Bench: A Structural Output Evaluation of Multimodal LLMs본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 입력으로부터 스키마 기반 정보를 추출하고 추론하여 구조화된 출력을 생성하는 능력에 대한 체계적인 벤치마크가 부재하다는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Structural Output#Information Extraction#JSON Schema#SO-Bench#Visual Reasoning#Supervised Fine-tuning#Reinforcement Learning2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OmniRefiner: Reinforcement-Guided Local Diffusion Refinement현재 확산 모델들이 참조 이미지를 사용하여 이미지를 정제할 때 로고, 텍스트, 얼굴 특징, 복잡한 패턴과 같은 세부 시각적 디테일을 보존하는 데 어려움 을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Image Refinement#Reinforcement Learning#Fine-Grained Editing#Reference-Guided Generation#Latent Diffusion#Visual Fidelity#Detail Restoration2025년 11월 30일댓글 수 로딩 중
[논문리뷰] MIRA: Multimodal Iterative Reasoning Agent for Image Editing이 논문은 확산 기반 이미지 편집 모델이 복잡한 사용자 지침(구성 관계, 맥락적 단서, 참조 표현 등)을 정확하게 해석하지 못하여 발생하는 의미론적 드리프트 및 편집 실패 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Multimodal AI#Iterative Reasoning#Agentic AI#Reinforcement Learning#Diffusion Models#Vision-Language Models#Instruction Following2025년 11월 27일댓글 수 로딩 중
[논문리뷰] SPHINX: A Synthetic Environment for Visual Perception and Reasoning본 논문은 기존 벤치마크들이 시각적 인식보다 추론을 강조하거나 대칭, 정신적 회전 등 핵심 인지 원시 요소들을 체계적으로 평가하지 못하는 한계를 지적합니다.#Review#Visual Reasoning#Synthetic Environment#LVLM Evaluation#Reinforcement Learning#Cognitive Primitives#Procedural Generation#Multimodal AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Soft Adaptive Policy Optimization본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Importance Ratios#Soft Clipping#Trust Region#Mixture-of-Experts#Asymmetric Temperature2025년 11월 25일댓글 수 로딩 중
[논문리뷰] HunyuanOCR Technical Report기존 파이프라인 기반 OCR 시스템의 에러 전파 및 높은 유지보수 비용 문제를 해결하고, 대규모 일반 VLM의 높은 컴퓨팅 자원 요구사항 과 OCR 특화 VLM의 불완전한 엔드투엔드 최적화 한계를 극복하는 것을 목표로 합니다.#Review#Optical Character Recognition#Multimodal Large Language Model#End-to-End Learning#Reinforcement Learning#Document Parsing#Information Extraction#Text Spotting2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning본 논문은 기존 비전-언어 에이전트가 인간 주석 기반 지도 학습의 한계와 복잡한 시각적 추론 단계 검증의 어려움, 그리고 평가 환각 문제로 인해 연속적인 자가 발전이 어렵다는 문제를 해결하고자 합니다.#Review#Self-Evolving Agent#Vision-Language Models#Tool-Integrated Reasoning#Reinforcement Learning#Self-Correction#Multimodal AI#Generative AI2025년 11월 25일댓글 수 로딩 중
[논문리뷰] PRInTS: Reward Modeling for Long-Horizon Information Seeking본 논문은 기존 Process Reward Model (PRM) 의 한계, 즉 짧은 추론 단위에 대한 이진 판단과 급증하는 컨텍스트 처리의 어려움을 극복하는 것을 목표로 합니다.#Review#Reward Modeling#Long-Horizon Tasks#Information Seeking#Large Language Models#Trajectory Summarization#Reinforcement Learning#Tool Use#Process Reward Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO본 논문은 대규모 언어 모델(LLM) 기반 멀티 에이전트 시스템이 특정 도메인에서 비일관적인 성능을 보이는 문제를 해결하고자 합니다.#Review#Multi-Agent Systems#Reinforcement Learning#LLM Training#Hierarchical Credit Assignment#Trajectory Alignment#Group Relative Policy Optimization#Tool-Augmented Reasoning#Vertical Architecture2025년 11월 24일댓글 수 로딩 중
[논문리뷰] MASS: Motion-Aware Spatial-Temporal Grounding for Physics Reasoning and Comprehension in Vision-Language Models본 연구는 기존 Vision-Language Models (VLMs) 이 3D 공간 레이아웃, 움직임 패턴, 시간적 동역학을 포함하는 물리 기반 추론에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Physics Reasoning#Motion Tracking#Spatial-Temporal Grounding#Video QA#AIGC Analysis#Reinforcement Learning2025년 11월 24일댓글 수 로딩 중
[논문리뷰] General Agentic Memory Via Deep ResearchAI 에이전트 분야에서 널리 사용되는 정적 메모리(AOT Compilation) 방식의 심각한 정보 손실 문제와 복잡한 컨텍스트 관리의 한계를 해결하는 것을 목표로 합니다.#Review#AI Agents#Memory Systems#Large Language Models (LLMs)#Just-in-Time (JIT) Compilation#Memorizer#Researcher#Reinforcement Learning#Context Management2025년 11월 24일댓글 수 로딩 중
[논문리뷰] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research이 논문의 핵심 목표는 기존 개방형 심층 연구 모델들이 짧은 형식의 질문 답변(QA)에 초점을 맞춰 실제 장문형 심층 연구 작업에 적용하기 어렵다는 한계를 극복하는 것입니다.#Review#Reinforcement Learning#Evolving Rubrics#Deep Research#LLM Agents#Tool Use#Long-form QA#Open-source AI#Dynamic Evaluation2025년 11월 24일댓글 수 로딩 중
[논문리뷰] AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning본 논문은 인공 에이전트의 교차 환경 학습 능력 을 체계적으로 측정하기 위한 표준화된 인프라의 부재를 해결하는 것을 목표로 합니다. 특히, 다양하고 제어 가능한 환경의 부족과 에이전트 학습 방식을 통일적으로 표현할 방법이 없다는 두 가지 핵심 문제를 다룹니다.#Review#Automated Environment Generation#Cross-Environment Learning#Agent Learning#Language Models#Benchmark#Meta-Learning#Reinforcement Learning#Environment Design Language2025년 11월 24일댓글 수 로딩 중
[논문리뷰] VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models본 논문은 Vision-Language Models(VLMs)의 '시각 처리 병목 현상'을 해결하여, 긴 생성 과정에서 시각적 증거에 대한 접지력 상실 및 맥락화된 시각 경험 부족 문제를 극복하고, 정밀한 지각, 다단계 추론, 장기 생성 시퀀스 전반에 걸친 시각적 충실도를 향상시키는 것을 목표로 합니다.#Review#Vision-Language Models#Latent Memory#Cognitive Memory#Visual Grounding#Short-term Memory#Long-term Memory#Reinforcement Learning2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Video-R4: Reinforcing Text-Rich Video Reasoning with Visual Rumination본 논문은 텍스트가 풍부한 비디오에서 미세한 증거를 기반으로 하는 추론 문제, 특히 기존 단일 패스(single-pass) 비디오 QA 모델의 환각 및 오류 문제 를 해결하고자 합니다.#Review#Video Reasoning#Large Multimodal Models#Reinforcement Learning#Visual Rumination#Text-Rich Video#Video Question Answering#Iterative Perception2025년 11월 23일댓글 수 로딩 중
[논문리뷰] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe멀티모달 추론(Multimodal Reasoning) 분야에서 투명하고 재현 가능한 데이터 큐레이션 및 훈련 전략 의 부재로 인한 확장성 연구의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Large Multimodal Models#Supervised Fine-tuning#Reinforcement Learning#Data Curation#Open-source#Multimodal Benchmarks2025년 11월 23일댓글 수 로딩 중
[논문리뷰] GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization본 연구는 기존 에이전트 시각 추론 모델들이 주로 이미지 조작 도구에 집중하여 일반적인 목적으로 확장하기 어려운 한계를 해결하고자 합니다.#Review#Geolocalization#Agentic Models#Visual Reasoning#Web-Augmented#Multimodal LLMs#Reinforcement Learning#Tool Use#GeoBench2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO이 연구는 기존의 텍스트 기반 다음 이벤트 예측(NEP)의 한계를 넘어, 비디오를 답변으로 제공 하는 새로운 패러다임인 Video-Next-Event Prediction (VNEP) 을 개척합니다.#Review#Video Generation#Next Event Prediction#Reinforcement Learning#Vision-Language Model#Video Diffusion Model#Joint Optimization#Multimodal AI#Procedural Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Step-Audio-R1 Technical Report오디오 언어 모델이 추론 과정을 거치면 성능이 저하되는 기존의 문제, 즉 '텍스트 대리 추론' 현상을 해결하고, 오디오 도메인에서 진정한 추론 능력을 성공적으로 활성화하는 것을 목표로 합니다. 이는 오디오 인텔리전스에 대한 심층적 사고의 이점을 입증하고자 합니다.#Review#Audio Reasoning#Multimodal LLMs#Modality-Grounded Reasoning Distillation (MGRD)#Chain-of-Thought#Reinforcement Learning#Audio Understanding#Self-Distillation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language-Action Models#Reward Shaping#World Models#Self-Referential Learning#Robotics#Trajectory Optimization2025년 11월 20일댓글 수 로딩 중
[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.#Review#Vision-Language Model (VLM)#Embodied AI#Autonomous Driving#Foundation Model#Multimodal Learning#Task Planning#Affordance Prediction#Spatial Understanding#Reinforcement Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] VisPlay: Self-Evolving Vision-Language Models from Images본 논문은 인간 주석이나 작업별 휴리스틱 없이, 대규모 비정형 이미지 데이터로부터 Vision-Language Models (VLMs) 의 추론 능력을 자율적으로 개선하는 것을 목표로 합니다. 기존 강화 학습(RL) 방식이 지닌 비용과 확장성 한계를 극복하고자 합니다.#Review#Self-Evolving#Vision-Language Models#Reinforcement Learning#Self-Play#Unlabeled Data#Multimodal Reasoning#Group Relative Policy Optimization#Hallucination Mitigation2025년 11월 19일댓글 수 로딩 중
[논문리뷰] ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries본 논문은 기존 비디오 챕터링 방법론이 짧고 거친 주석에 의해 제한되어 장시간 비디오의 미묘한 전환에 대한 일반화가 어렵다는 문제를 해결하고자 합니다.#Review#Video Chaptering#Long-form Video Understanding#Large Language Models#Multimodal Learning#Hierarchical Summarization#Video Segmentation#Reinforcement Learning#Dataset Creation2025년 11월 19일댓글 수 로딩 중
[논문리뷰] REVISOR: Beyond Textual Reflection, Towards Multimodal Introspective Reasoning in Long-Form Video Understanding본 논문은 기존 텍스트 기반 자기 성찰(self-reflection) 메커니즘 이 풍부하고 동적인 시각 정보를 처리하는 데 한계가 있어, 장문 비디오 이해(long-form video understanding) 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다.#Review#Multimodal Reasoning#Long-Form Video Understanding#Self-Reflection#Reinforcement Learning#Tool-Augmented MLLMs#Visual Rethinking#Video Question Answering#Causal Attribution2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.#Review#LLM Agents#Reinforcement Learning#Markov Decision Process#Tool Use#Multi-turn Interaction#Policy Optimization#Reward Shaping#Agent Framework2025년 11월 18일댓글 수 로딩 중
[논문리뷰] P1: Mastering Physics Olympiads with Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 퍼즐 풀이를 넘어 과학 수준의 추론 능력을 갖추도록 발전시키고, 특히 복잡한 물리학 올림피아드 문제를 해결하는 능력을 향상시키는 것을 목표로 합니다. 이를 통해 LLM이 물리적 현실과 자연 법칙의 엄격한 제약을 준수하는, 진정한 과학적 추론 능력을 입증하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Physics Reasoning#Agentic AI#Olympiad Problems#Post-Training#Knowledge Transfer2025년 11월 17일댓글 수 로딩 중
[논문리뷰] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling논문은 오픈소스 연구 에이전트의 성능 한계를 모델 크기, 컨텍스트 길이, 상호작용 스케일링(interaction scaling) 이라는 세 가지 주요 차원을 통해 확장하는 것을 목표로 합니다.#Review#Research Agent#Tool-Augmented Reasoning#Interaction Scaling#Large Language Models#Reinforcement Learning#Context Management#Open-Source AI2025년 11월 17일댓글 수 로딩 중
[논문리뷰] AI-Salesman: Towards Reliable Large Language Model Driven Telemarketing본 논문은 대규모 언어 모델(LLM)이 겪는 전략적 취약성, 사실적 환각, 맞춤화 부족 문제로 인해 난항을 겪는 목표 지향적 설득형 대화(예: 텔레마케팅) 의 신뢰성을 향상시키는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 극복하고 실제 판매 시나리오에 효과적인 AI 에이전트를 개발하고자 합니다.#Review#Telemarketing#Large Language Models#Persuasive Dialogue#Reinforcement Learning#Bayesian Optimization#Dynamic Prompting#Dialogue Systems2025년 11월 17일댓글 수 로딩 중
[논문리뷰] UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation본 논문은 UI(사용자 인터페이스) 코딩에서 기존 시각 언어 모델(VLM) 의 제한적인 멀티모달 코딩 능력과 단일 턴 생성 패러다임의 한계를 극복하고자 합니다.#Review#Visual Language Model#UI-to-Code Generation#Interactive UI#UI Editing#UI Polishing#Reinforcement Learning#Multimodal Coding#Test-Time Scaling2025년 11월 16일댓글 수 로딩 중
[논문리뷰] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism대규모 언어 모델(LLMs) 기반 멀티 에이전트 추론 시스템이 보상 잡음(reward noise) 과 훈련 비효율성 으로 인해 오픈 소스 모델에 일반화되기 어려운 문제를 해결하는 것이 목표입니다.#Review#Multi-Agent Systems#Reinforcement Learning#LLMs#Pipeline Parallelism#Reasoning#Reward Shaping#Agentic AI2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.#Review#LLM#Instruction Following#Reinforcement Learning#Rubric-based Evaluation#Benchmarking#Reward Shaping#Rubric Verifier#AdvancedIF2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Music Flamingo: Scaling Music Understanding in Audio Language Models이 논문은 기존 오디오-언어 모델(ALM)의 표면적인 인식 수준을 넘어 인간과 유사한 심층적인 음악 이해 및 추론 능력을 갖춘 모델을 개발하는 것을 목표로 합니다. 특히 고품질 음악 데이터 부족과 기존 모델의 제한적인 음악 이해 능력을 극복하고자 합니다.#Review#Audio Language Models#Music Understanding#Chain-of-Thought#Reinforcement Learning#Data Curation#Multimodal AI#Music Information Retrieval2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Black-Box On-Policy Distillation of Large Language Models본 논문은 내부 로짓이나 파라미터에 접근할 수 없는 블랙박스(black-box) 대규모 언어 모델(LLM) 을 대상으로, 학생 모델이 교사 모델의 텍스트 출력만을 학습하는 온-정책(on-policy) 증류(distillation) 방법을 개발하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Knowledge Distillation (KD)#Black-box Distillation#Generative Adversarial Networks (GANs)#On-policy Learning#Reinforcement Learning#Minimax Game#Model Compression2025년 11월 13일댓글 수 로딩 중
[논문리뷰] VideoSSR: Video Self-Supervised Reinforcement Learning본 연구는 Multimodal Large Language Models (MLLMs)의 비디오 이해 능력을 향상시키기 위해, 기존 비디오 데이터셋의 높은 주석 비용, 복잡성 부족, 그리고 주석 과정에서의 편향성이라는 한계를 극복하는 것을 목표로 합니다.#Review#Video Understanding#Self-Supervised Learning#Reinforcement Learning#MLLMs#Pretext Tasks#Verifiable Rewards#Data Generation#Temporal Grounding2025년 11월 11일댓글 수 로딩 중
[논문리뷰] TimeSearch-R: Adaptive Temporal Search for Long-Form Video Understanding via Self-Verification Reinforcement Learning본 논문은 수만 개의 프레임에서 관련 정보를 식별해야 하는 긴 형식 비디오 이해 태스크에서, 기존의 수동으로 고안된 검색 전략이 최적의 검색 전략 학습을 위한 end-to-end 최적화가 부족하다는 문제를 해결합니다.#Review#Long-form Video Understanding#Temporal Search#Reinforcement Learning#Self-Verification#Video-Language Models#Adaptive Search#Interleaved Reasoning2025년 11월 11일댓글 수 로딩 중
[논문리뷰] The Path Not Taken: RLVR Provably Learns Off the PrincipalsRLVR(Reinforcement Learning with Verifiable Rewards)이 LLM 추론 능력을 크게 향상시키지만, 놀랍게도 소수의 파라미터만 수정 하는 모순을 해결하는 것이 목표입니다.#Review#Reinforcement Learning#Large Language Models#Parameter-Efficient Fine-Tuning#Optimization Bias#Spectral Geometry#Model Sparsity#LoRA2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Grounding Computer Use Agents on Human Demonstrations이 연구는 컴퓨터 사용 에이전트(CUA)의 핵심 과제인 'grounding'의 신뢰성을 높이는 것을 목표로 합니다.#Review#Computer Use Agents#UI Grounding#Desktop Applications#Human Demonstrations#Large-Scale Dataset#Vision-Language Models#Supervised Fine-tuning#Reinforcement Learning2025년 11월 11일댓글 수 로딩 중
[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization본 논문은 이산 토큰 Chain-of-Thought (CoT) 추론에 효과적인 기존의 Reinforcement Learning (RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 연속적인 Soft-Thinking 패턴에는 적용하기 어렵다는 문제를 해결하고자 합니다.#Review#LLM#Reinforcement Learning#Soft-Thinking#Gumbel Reparameterization#Policy Optimization#Chain-of-Thought (CoT)#GRPO2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Robot Learning from a Physical World Model본 논문은 비디오 생성 모델에서 생성된 픽셀 동작을 물리적으로 실현 가능한 로봇 동작으로 변환하는 과정에서 발생하는 문제를 해결하고자 합니다.#Review#Robot Learning#Video Generation#Physical World Model#Reinforcement Learning#Zero-shot Manipulation#Object-Centric Learning#Sim-to-Real2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs이 논문은 RL(강화 학습)이 LLM(대규모 언어 모델)의 추론 능력 향상과 암기된 지식 저하 사이의 트레이드오프를 가져온다는 일반적인 통념에 도전합니다.#Review#Reinforcement Learning#Large Language Models#Hierarchical Knowledge#Knowledge Traversal#Structured Prompting#Internal Representations#Alignment Tax2025년 11월 10일댓글 수 로딩 중
[논문리뷰] RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking ServicesSNS(Social Networking Services)의 이질적인 워크로드, 빠르게 변화하는 규범과 속어, 다국어 코퍼스로 인한 급격한 분포 변화 등의 문제점을 해결하고, 기존 SFT(Supervised Fine-Tuning) 기반 LLM 학습 방식에서 발생하는 'seesaw' 효과(in-distribution 성능 향상 시 out-of-distribution 견고성 저하) 를 완화하는 것을 목표로 합니다.#Review#LLM Post-Training#Domain Adaptation#Social Networking Services#Reinforcement Learning#Supervised Fine-Tuning#Catastrophic Forgetting#Data Efficiency2025년 11월 10일댓글 수 로딩 중
[논문리뷰] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization대규모 추론 모델을 위한 검증 가능한 보상 강화 학습 (RLVR) 에서 발생하는 'RL 오버피팅' 문제를 해결하는 것이 목표입니다. 이 오버피팅은 훈련 보상은 증가하지만 일반화 성능이 저하되는 현상으로, 정책의 과도한 전문화와 훈련 과정 중 다양한 솔루션의 catastrophic forgetting 에 의해 발생합니다.#Review#Reinforcement Learning#LLMs#Generalization#Overfitting#Catastrophic Forgetting#Iterative Policy Optimization#Policy Diversity2025년 11월 10일댓글 수 로딩 중
[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Language Models#Adaptive Environments#Verifiable Environments#Procedural Generation#Curriculum Learning#Generalization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale본 논문은 시각적 수학을 넘어선 복합적인 추론 구조를 갖춘 대규모, 비전 중심 추론 데이터셋 의 부족 문제를 해결하는 것을 목표로 합니다.#Review#Visual Reasoning#Compositional AI#Vision-Language Models#Data Synthesis#Chain-of-Thought#Reinforcement Learning#Multimodal Transfer#Grounded Reasoning2025년 11월 10일댓글 수 로딩 중
[논문리뷰] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction이 논문은 기존 딥-리서치 에이전트들이 단일 확장 컨텍스트 창에 정보를 축적하는 mono-contextual paradigm으로 인해 발생하는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제를 해결하는 것을 목표로 합니다.#Review#Long-Horizon Agents#Markov Decision Process#Workspace Reconstruction#Reinforcement Learning#Context Management#Iterative Deep Research#LLM Agents#Efficiency-Aware Policy Optimization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Visual Spatial Tuning본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Spatial Reasoning#Spatial Perception#Dataset Creation#Reinforcement Learning#Visuospatial AI#Robotics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] DeepEyesV2: Toward Agentic Multimodal Model본 논문은 텍스트와 이미지를 단순히 이해하는 것을 넘어, 코드 실행 환경 및 웹 검색 과 같은 외부 도구를 능동적으로 호출하고 이러한 도구 작업을 추론 과정에 원활하게 통합할 수 있는 Agentic 멀티모달 모델 을 구축하는 것을 목표로 합니다.#Review#Agentic AI#Multimodal Models#Tool Use#Reinforcement Learning#Supervised Fine-tuning#Multimodal Reasoning#Web Search#Code Execution2025년 11월 9일댓글 수 로딩 중
[논문리뷰] V-Thinker: Interactive Thinking with Images본 논문은 대규모 멀티모달 모델(LMM)이 긴 추론 과정에서 시각적 정보로부터 벗어나 환각을 일으키는 문제를 해결하고자 합니다.#Review#Large Multimodal Models#Interactive Reasoning#Vision-Centric Thinking#Reinforcement Learning#Data Synthesis#Visual Tools#Curriculum Learning#Multimodal AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Scaling Agent Learning via Experience Synthesis대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 훈련이 직면한 높은 비용, 제한된 태스크 다양성, 불안정한 보상 신호, 복잡한 인프라와 같은 문제들을 해결하는 것을 목표로 합니다. 현실 환경 상호작용의 필요성을 줄이면서도 효과적이고 확장 가능한 RL 훈련을 가능하게 하는 통합 프레임워크를 제안합니다.#Review#Reinforcement Learning#LLM Agents#Experience Synthesis#World Models#Curriculum Learning#Sim-to-Real Transfer#Web Agents2025년 11월 9일댓글 수 로딩 중
[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL TuningMLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Post-training#Reasoning#Dual-Reward System#Thinking Reward#Judging Reward#Hallucination Reduction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Learning Vision-Driven Reactive Soccer Skills for Humanoid Robots본 연구는 기존 로봇 제어 시스템의 모듈 분리(decoupled modules)로 인한 지연된 반응과 비일관적인 행동 문제를 해결하고자 합니다.#Review#Humanoid Robot#Reinforcement Learning#RoboCup#Soccer Skills#Vision-Driven Control#Adversarial Motion Priors#Sim-to-Real#Perception-Action Coordination2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models본 논문은 동적 비디오에서 복잡하고 진화하는 감정 상태를 합리적인 근거와 함께 이해하고 예측하는 데 초점을 맞춥니다. 기존 VideoLLM 의 한계인 복합적인 감정 이해 및 설명 능력 부족을 극복하기 위해, 감정 중심의 비디오 기반 파운데이션 모델인 VidEmo 를 제안합니다.#Review#VideoLLMs#Emotion Understanding#Affective-Tree Reasoning#Curriculum Learning#Reinforcement Learning#Fine-Grained Emotion#Attribute Perception#Expression Analysis2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension본 연구는 기존 멀티모달 대규모 언어 모델(MLLM)이 실제 복잡한 차트 이해 작업에서 겪는 한계(제한된 차트 유형 및 복잡성, 낮은 질문 복잡성, 해석력 부족 등)를 해결하고자 합니다.#Review#Chart Comprehension#Visual Reasoning#Data Generation#Code-Driven Pipeline#Multimodal LLMs#Retrieval-Augmented Generation#Reinforcement Learning#Synthetic Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] World Simulation with Video Foundation Models for Physical AI본 논문은 물리 AI(Physical AI) 시스템의 훈련 시 발생하는 높은 비용과 위험성을 해결하기 위해 고품질의 가상 세계 시뮬레이터를 제공하는 것을 목표로 합니다.#Review#Physical AI#World Simulation#Video Foundation Models#Flow Matching#Reinforcement Learning#Robotics#Autonomous Driving#Synthetic Data Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings본 논문은 기존의 멀티모달 대규모 언어 모델(MLLMs) 기반 임베딩 모델 이 판별적(discriminative)이라는 한계를 해결하고, 추론 중심의 생성 패러다임의 이점을 활용하는 것을 목표로 합니다.#Review#Multimodal Embeddings#Generative AI#Reasoning#Reinforcement Learning#MLLMs#Supervised Fine-tuning#Information Retrieval#Unified Embeddings2025년 11월 9일댓글 수 로딩 중
[논문리뷰] PHUMA: Physically-Grounded Humanoid Locomotion Dataset본 논문은 기존 휴머노이드 모션 데이터셋의 규모, 다양성 및 물리적 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Humanoid Locomotion#Dataset#Motion Imitation#Physics-based Control#Motion Retargeting#Data Curation#Reinforcement Learning#Inverse Kinematics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.#Review#Open-Ended Learning#Self-Play#Reinforcement Learning#Large Language Models#Mathematical Reasoning#Problem Generation#Curriculum Learning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench본 연구는 최신 Vision-Language Model (VLM) 들이 시각적 측정 기기 판독과 같은 미세한 시각적 이해(fine-grained visual understanding) 작업을 얼마나 잘 수행하는지 평가하는 것을 목표로 합니다.#Review#Vision-Language Models#Benchmarking#Visual Measurement Reading#Synthetic Data Generation#Fine-grained Perception#Spatial Grounding#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models본 논문은 최신 Multimodal Large Language Models (MLLMs) 의 3D 공간 추론 능력을 평가하고 향상시키는 것을 목표로 합니다.#Review#Multimodal LLMs#Spatial Reasoning#Viewpoint Learning#Two-Stage Fine-tuning#3D Consistency#Viewpoint-100K#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning대규모 시각-언어 모델(LVLM)의 공간 이해 능력 부족 이라는 한계를 해결하는 것을 목표로 합니다.#Review#Self-supervised learning#Reinforcement Learning#Spatial Understanding#Vision-Language Models#Pretext Tasks#RGB-D Images#Spatial Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.#Review#Conversational Recommender Systems#Large Language Models#Reinforcement Learning#Group Relative Policy Optimization#Rank-based Learning#Supervised Fine-tuning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] HyperClick: Advancing Reliable GUI Grounding via Uncertainty Calibration본 논문은 자율 GUI(Graphical User Interface) 에이전트 가 부정확하거나 과도한 확신을 가진 예측을 생성하여 태스크 실패로 이어지는 문제를 해결하고자 합니다.#Review#GUI Grounding#Uncertainty Calibration#Reinforcement Learning#Confidence Estimation#Brier Score#GUI Agents#Visual-Language Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Defeating the Training-Inference Mismatch via FP16대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 불안정성의 근본 원인인 훈련-추론 불일치(training-inference mismatch) 를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM Fine-tuning#Training-Inference Mismatch#Floating Point Precision#FP16#BF16#RL Stability2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards현재 LLM 추론을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론(예: PPO, GRPO)은 일반적인 제어 설정에 맞춰 설계되어 학습 불안정성 및 다양성 붕괴와 같은 문제에 직면합니다.#Review#Reinforcement Learning#LLM Reasoning#Policy Valuation#Markov Decision Process#Diversity#Math Reasoning#Verifiable Rewards2025년 9월 30일댓글 수 로딩 중
[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Image Editing#Reward Modeling#Instruction-Guided Editing#Online RL#Visual Language Models#Benchmark#Self-Ensembling2025년 9월 30일댓글 수 로딩 중
[논문리뷰] WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning본 논문은 웹사이트 코드 생성과 같이 시각적 요소와 사용자 상호작용 피드백이 중요한 태스크에서, 기존 코드 에이전트들이 단순한 코드 실행 피드백에만 의존하여 실제 웹사이트 품질을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#Website Generation#Code Agent#LLM#VLM#Reinforcement Learning#Multi-Level Feedback#GUI Agent#Step-GRPO2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Variational Reasoning for Language Models언어 모델(LLM)의 추론 능력 훈련에 사용되는 지도 미세 조정(SFT) 및 강화 학습(RL) 방법론의 한계를 극복하고, 생각 과정(thinking traces) 을 잠재 변수 로 간주하여 변분 추론(Variational Inference) 을 통해 최적화하는 원칙적이고 안정적인 프레임워크를 제시하는 것을 목표로 합니다.#Review#Variational Inference#Language Models#Reasoning#ELBO#IWAE#Reinforcement Learning#Latent Variables#Forward-KL2025년 9월 29일댓글 수 로딩 중
[논문리뷰] SPARK: Synergistic Policy And Reward Co-Evolving Framework본 논문은 대규모 언어/시각-언어 모델(LLM/LVLM)의 강화 학습(RL) 파이프라인이 겪는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#LLMs#LVLMs#Reward Modeling#Policy Optimization#Self-Reflection#Verifiable Rewards#Co-evolution2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Quantile Advantage Estimation for Entropy-Safe Reasoning대규모 언어 모델(LLMs)의 추론 능력을 강화하는 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 발생하는 엔트로피 붕괴(entropy collapse) 및 엔트로피 폭발(entropy explosion) 문제를 해결하고, 안정적인 학습을 통해 성능을 지속적으로 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Entropy Control#Advantage Estimation#Quantile Baseline#Exploration-Exploitation#RLVR2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning본 논문의 핵심 목표는 장기적인(long-horizon), 희소한 보상(sparsely-rewarded)을 가진 LLM 에이전트 태스크에서 강화 학습(RL)의 근본적인 문제인 탐색-활용 트레이드오프(exploration-exploitation trade-off) 를 효과적으로 관리하는 것입니다.#Review#Reinforcement Learning#LLM Agents#Exploration-Exploitation#Self-Imitation Learning#Intrinsic Rewards#Curriculum Learning#Policy Entropy#Tool Use2025년 9월 29일댓글 수 로딩 중
[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.#Review#High-Resolution Vision#Vision-Language Models#Efficient Reasoning#Coarse-to-Fine#Reinforcement Learning#Visual Understanding#Attention Mechanism2025년 9월 29일댓글 수 로딩 중
[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Entropy Regularization#Policy Optimization#Sparse Rewards#Multi-turn Environments#Exploration-Exploitation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning본 연구는 기존 SFT(Supervised Fine-Tuning) 기반 이미지 캡셔닝 모델의 한계(고비용 데이터, 제한된 일반화 및 다양성)를 극복하고자 합니다.#Review#Image Captioning#Reinforcement Learning#Verifiable Rewards#LVLMs#VQA#Data Curation#Caption Quality2025년 9월 29일댓글 수 로딩 중
[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.#Review#Reinforcement Learning#Curriculum Learning#Large Language Models#Mathematical Reasoning#Variance-based Sampling#Replay Learning#Policy Optimization2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Tree Search for LLM Agent Reinforcement Learning본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.#Review#LLM Agents#Reinforcement Learning#Tree Search#Policy Optimization#Preference Learning#Sparse Rewards#Multi-turn Tasks2025년 9월 26일댓글 수 로딩 중
[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines이 논문은 이질적인 과학적 표현과 자연어를 통합하여 다양한 과학 분야에 걸친 복잡한 과학적 추론을 수행하는 최초의 과학 추론 대규모 언어 모델(LLM) 인 SciReasoner 를 제안합니다.#Review#Scientific Reasoning#Foundation Models#Multi-modal Learning#Cross-domain Generalization#Chain-of-Thought#Reinforcement Learning#Scientific Discovery#Molecular Design2025년 9월 26일댓글 수 로딩 중
[논문리뷰] MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning비디오 기반 MLLM(Multimodal Large Language Models)에서 발생하는 프로세스 불일치(process inconsistency) 문제를 해결하여, 모델이 올바른 최종 답변을 도출하더라도 중간 추론 과정이 비디오의 시간적 역동성에서 벗어나는 한계를 극복하는 것을 목표로 합니다.#Review#Video Temporal Reasoning#Reinforcement Learning#Process Supervision#Dynamic Time Warping#Multimodal Large Language Models#Video State Prediction#Reward Hacking2025년 9월 26일댓글 수 로딩 중
[논문리뷰] MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources본 논문은 대규모 multimodal 추론 모델의 발전을 저해하는 두 가지 주요 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Reinforcement Learning#Variance-Aware Sampling#Gradient Vanishing#Data Curation#Chain-of-Thought#GRPO2025년 9월 26일댓글 수 로딩 중
[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#PPO#Entropy Control#Gradient Clipping#Exploration-Exploitation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Advancing Speech Understanding in Speech-Aware Language Models with GRPO본 논문은 GRPO (Group Relative Policy Optimization) 기반의 방법을 도입하여 Speech-Aware Large Language Models (SALLMs) 의 개방형 음성 이해 능력 을 향상시키는 것을 목표로 합니다.#Review#Speech-Aware Language Models#SALLMs#GRPO#Reinforcement Learning#Speech Understanding#Spoken Question Answering#Automatic Speech Translation#BLEU Metric2025년 9월 25일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning on Pre-Training Data논문은 대규모 언어 모델(LLM)의 훈련 시 발생하는 컴퓨팅 자원의 기하급수적 증가와 고품질 텍스트 데이터의 유한한 성장 사이의 불균형 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Pre-training#Large Language Models#Self-supervised Learning#Scaling Laws#Next-segment Reasoning#Reward Modeling2025년 9월 24일댓글 수 로딩 중
[논문리뷰] MAPO: Mixed Advantage Policy Optimization본 연구는 파운데이션 모델의 추론 성능 향상을 위한 기존 강화 학습(RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 겪는 'advantage reversion' 및 'advantage mirror' 문제 해결을 목표로 합니다.#Review#Reinforcement Learning#Foundation Models#Policy Optimization#Advantage Function#Trajectory Certainty#Multimodal Reasoning#GRPO2025년 9월 24일댓글 수 로딩 중
[논문리뷰] VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery본 연구는 고대 그리스 도자기에 대한 전문가 수준의 추론 능력을 갖춘 MLLM(Multimodal Large Language Models) 에이전트를 개발하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Visual Question Answering#Reinforcement Learning#Cultural Heritage#Ancient Greek Pottery#Supervised Fine-Tuning#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs이 논문은 비디오 시간적 접지(temporal grounding) 작업에서 멀티모달 대규모 언어 모델(MLLMs) 의 효율성을 개선하는 것을 목표로 합니다. 기존 강화 학습( RL ) 방법론, 특히 GRPO 가 큰 시간 검색 공간에서 비효율적인 탐색과 불안정한 정책 업데이트를 겪는 문제를 해결하고자 합니다.#Review#Video LLMs#Temporal Grounding#Reinforcement Learning#Off-policy Learning#Reward Shaping#Chain-of-Thought#Multimodal LLMs2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning본 연구는 LLM의 기초적인 기호 추론 능력을 향상시키기 위한 확장 가능한 RLVR (Reinforcement Learning with Verifiable Rewards) 환경인 Reasoning Core 를 소개합니다.#Review#LLM Reasoning#Symbolic AI#Reinforcement Learning#Procedural Content Generation#Verifiable Rewards#Adaptive Curricula#First-Order Logic#PDDL Planning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Mano Report본 논문은 시각적 복잡성, 동적 환경, 다단계 추론 요구사항으로 인해 어려운 GUI 상호작용 자동화 문제를 해결하는 것을 목표로 합니다.#Review#GUI Agent#Multi-modal Foundation Model#Reinforcement Learning#Supervised Fine-tuning#Simulated Environment#Data Generation#Error Recovery#Web Automation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature기존 RLHF (Reinforcement Learning from Human Feedback) 알고리즘이 LLM의 추론 과정에서 토큰의 다양한 역할을 무시하고 모든 토큰에 균일한 최적화를 적용하는 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLMs#Policy Optimization#Token Heterogeneity#Adaptive Sampling#Advantage Redistribution#Asymmetric Clipping#Entropy-based RL2025년 9월 23일댓글 수 로딩 중
[논문리뷰] DiffusionNFT: Online Diffusion Reinforcement with Forward Process본 논문은 확산 모델의 온라인 강화 학습(RL) 적용 시 발생하는 고유한 문제점, 즉 다루기 어려운 가능도(likelihoods)와 역방향 샘플링 과정의 제약사항을 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Reinforcement Learning#Online RL#Flow Matching#Forward Process#CFG-free#Image Generation#Negative-Aware FineTuning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations논문은 AI 에이전트 개발 및 평가를 위한 확장 가능한 연구 플랫폼인 Meta Agents Research Environments (ARE) 를 소개하고, 이를 기반으로 일반 에이전트 역량을 측정하는 벤치마크인 Gaia2 를 제시합니다.#Review#Agent Environments#Agent Evaluation#LLM Agents#Asynchronous Systems#Reinforcement Learning#Tool Use#Multi-agent Collaboration#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI AgentAI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.#Review#GUI Agent#Human-GUI Interaction#Cognitive Modeling#Reinforcement Learning#Multimodal Large Language Models#Attention Mechanisms#Action Planning2025년 9월 22일댓글 수 로딩 중
[논문리뷰] RecoWorld: Building Simulated Environments for Agentic Recommender Systems본 논문은 에이전트 기반 추천 시스템(agentic recommender systems) 을 위한 시뮬레이션 환경인 RECOWORLD 의 청사진을 제시하여, 실제 사용자에게 영향을 주지 않고 추천 시스템이 오류로부터 학습하고 전략을 개선할 수 있는 훈련 공간을 제공하는 것을 목표로 합니다.#Review#Agentic Recommender Systems#Simulated Environments#LLM-driven Simulation#Multi-turn Interaction#Reinforcement Learning#User Retention#Instruction Following#Multi-agent Systems2025년 9월 19일댓글 수 로딩 중
[논문리뷰] FlowRL: Matching Reward Distributions for LLM Reasoning대규모 언어 모델(LLM)의 강화 학습(RL) 추론에서 발생하는 모드 붕괴(mode collapse) 와 다양성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reward Distribution Matching#GFlowNets#Mode Collapse#Diverse Reasoning#Flow-Balanced Optimization2025년 9월 19일댓글 수 로딩 중
[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.#Review#Mathematical Reasoning#Tool-Integrated Reasoning#Reinforcement Learning#Hierarchical Optimization#Self-Correction#Large Language Models#Code Generation2025년 9월 18일댓글 수 로딩 중
[논문리뷰] SAIL-VL2 Technical Report본 논문은 포괄적인 멀티모달 이해 및 추론을 위한 개방형 비전-언어 파운데이션 모델인 SAIL-VL2 를 소개합니다. 특히 2B 및 8B 파라미터 스케일에서 다양한 이미지 및 비디오 벤치마크에 걸쳐 최첨단 성능을 달성하며, 효율적이고 확장 가능한 오픈소스 멀티모달 커뮤니티의 기반을 마련하는 것을 목표로 합니다.#Review#Vision-Language Model#Multimodal Understanding#Mixture-of-Experts#Progressive Training#Data Curation#Supervised Fine-tuning#Reinforcement Learning#SAIL-ViT2025년 9월 18일댓글 수 로딩 중
[논문리뷰] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement LearningWebSailor-V2는 오픈소스 웹 에이전트의 역량을 혁신적으로 향상시켜, 독점 시스템과의 성능 격차를 줄이는 것을 목표로 합니다. 특히 데이터 구성 및 확장 가능한 강화 학습(RL) 훈련의 두 가지 주요 과제를 해결하여 복잡한 웹 환경에서 고급 추론 및 도구 사용 능력을 갖춘 에이전트를 개발하고자 합니다.#Review#Web Agents#Reinforcement Learning#Synthetic Data#Knowledge Graphs#LLMs#Supervised Fine-Tuning#Sim-to-Real Transfer#Agentic AI2025년 9월 17일댓글 수 로딩 중
[논문리뷰] Single-stream Policy Optimization본 논문은 LLM을 위한 기존 그룹 기반 정책 최적화 방식( GRPO 등)이 겪는 비효율성(퇴화 그룹으로 인한 학습 신호 손실)과 동기화 장벽으로 인한 확장성 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Optimization#Policy Gradient#Variance Reduction#Adaptive Sampling#Scalability#Agentic Systems#RLVR2025년 9월 17일댓글 수 로딩 중
[논문리뷰] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization이 논문은 대규모 언어 모델(LLM) 기반 에이전트가 장기 웹 탐색 작업을 수행할 때 컨텍스트 윈도우의 제한으로 인해 충분한 탐색이 불가능한 문제를 해결하고자 합니다.#Review#LLM Agents#Context Management#Summarization#ReAct#Reinforcement Learning#Web Search#Long-Horizon Reasoning2025년 9월 17일댓글 수 로딩 중
[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving논문은 LLM 기반의 Automated Theorem Proving(ATP) 모델들이 Chain-of-Thought (CoT) 추론 및 다중 샘플링 패스 와 같은 test-time scaling 전략을 사용하며 발생하는 높은 계산 비용과 자원 비효율성을 해결하는 것을 목표로 합니다.#Review#Automated Theorem Proving#LLM#Test-Time Scaling#Chain-of-Thought#Reinforcement Learning#Efficiency Optimization#Token Cost#Sampling Cost#Dynamic CoT Switching2025년 9월 17일댓글 수 로딩 중
[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning본 논문은 GUI(Graphical User Interface) 에이전트의 자동화에서 기존 오프라인 RL 의 제한된 다중 턴 추론 능력과 온라인 RL 의 높은 배포 비용 및 희소한 보상 문제를 해결하는 것을 목표로 합니다.#Review#GUI Automation#Reinforcement Learning#Semi-online RL#Offline RL#Online RL#Patch Module#Multi-turn Interaction#Large Language Models2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models논문은 기존 Vision-Language Models (VLMs)이 복잡한 시각적 추론 과정에서 시각적 정보에 대한 의존도가 빠르게 감소하여 '텍스트 환각' 및 '시각적 무시'를 겪는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Visual Reasoning#Reflection#Reinforcement Learning#Visual Attention#Slow Thinking#Multimodal Agents2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Inpainting-Guided Policy Optimization for Diffusion Large Language Models본 논문은 Diffusion Large Language Models (dLLMs) 에 강화 학습(RL)을 적용할 때 발생하는 탐색(exploration) 문제 를 해결하고자 합니다.#Review#Diffusion LLMs#Reinforcement Learning#Inpainting#Policy Optimization#Exploration#Mathematical Reasoning#GRPO2025년 9월 15일댓글 수 로딩 중
[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models (LLMs)#Diversity Collapse#f-divergence#Forward-KL#JS-divergence#Pass@k#Catastrophic Forgetting2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents본 논문은 장기 시퀀스(long-horizon) LLM 에이전트 태스크에서 희소한 보상(sparse rewards) 으로 인해 발생하는 신용 할당(credit assignment) 문제 와 정책 경사(policy gradient)의 비효율적인 업데이트 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Policy Gradients#Entropy Modulation#Credit Assignment#Uncertainty#Long-Horizon Tasks#Self-Calibrating Gradient Scaling2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?이 논문은 멀티모달 이해(I2T)와 생성(T2I) 간의 근본적인 불일치를 해결하고, 이들이 단순히 공존하는 것을 넘어 진정으로 상호 이점을 얻을 수 있는지 탐구합니다. 저자들은 두 태스크를 통합하는 단일하고 근본적인 목적 함수 를 제시하여, 상호 보완적인 방식으로 멀티모달 시스템의 성능을 향상시키는 것을 목표로 합니다.#Review#Multimodal Understanding#Multimodal Generation#Unified Models#Auto-Encoder#Reinforcement Learning#Image-to-Text#Text-to-Image#Reconstruction Fidelity2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Hunyuan-MT Technical Report본 논문은 오픈소스 다국어 기계 번역 모델인 Hunyuan-MT-7B 및 Hunyuan-MT-Chimera-7B 를 소개하며, 33개 언어 에 대한 양방향 번역에서 최첨단 성능을 달성하고 특히 만다린어와 소수 민족 언어 및 방언 번역의 품질을 향상시키는 것을 목표로 합니다.#Review#Machine Translation#Large Language Model#Multilingual#Low-Resource Languages#Reinforcement Learning#Weak-to-Strong Learning#Slow Thinking2025년 9월 11일댓글 수 로딩 중
[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Multi-Turn Interaction#Long-Horizon Decision Making#Agent Framework#Exploration-Exploitation#Progressive Scaling2025년 9월 11일댓글 수 로딩 중
[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Reasoning Models#LLMs#Reward Design#Policy Optimization#Verifiable Rewards#Agentic AI#Multimodal AI2025년 9월 11일댓글 수 로딩 중
[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.#Review#Reinforcement Learning#LLMs#Gradient Variance#Loss Aggregation#Unbiased Estimator#RLVR#Policy Gradient#Normalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward본 논문은 이미지 커스터마이징 모델에서 다중 정체성(multi-identity)을 생성할 때 발생하는 정체성 일관성 부족(identity consistency) 과 정체성 혼란(identity confusion) 문제를 해결하는 것을 목표로 합니다.#Review#Image Customization#Multi-Identity Generation#Identity Consistency#Identity Confusion#Reinforcement Learning#Diffusion Models#Matching Reward#Global Assignment2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.#Review#Large Language Models#Parallel Thinking#Reinforcement Learning#Mathematical Reasoning#Progressive Curriculum#Reward Design#Exploration Scaffold2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.#Review#Visual Search#Multi-Turn Reasoning#Reinforcement Learning#Tool-Integrated Agents#Exploratory Reasoning#Data Augmentation#Over-turn Masking#Visual Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Language Self-Play For Data-Free Training본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.#Review#Large Language Models#Reinforcement Learning#Self-Play#Data-Free Training#Instruction Following#Adversarial Training#Reward Modeling2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference본 논문은 기존 온라인 강화 학습(Online-RL) 기반 확산 모델 정렬 방식의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Reinforcement Learning#Human Preference#Text-to-Image Generation#Reward Hacking#Direct-Align#SRPO#Fine-Grained Control#Flow Matching Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.#Review#Diffusion Language Models#Reinforcement Learning#Trajectory-aware RL#Value Model#Masked Diffusion Models#Large Language Models#Reasoning Tasks#Code Generation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning Foundations for Deep Research Systems: A Survey본 논문은 복잡한 다단계 작업을 해결하는 딥 리서치 에이전트(agentic AI) 훈련을 위한 강화 학습(RL) 기반 기술 을 체계적으로 조사합니다.#Review#Reinforcement Learning#Deep Research Systems#Agentic AI#Tool Use#Hierarchical Agents#Reward Design#Multimodal AI#RL Frameworks2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Reinforced Visual Perception with Tools본 논문은 멀티모달 대규모 언어 모델(LLM)이 복잡한 시각적 추론 문제를 해결하고 외부 시각 도구를 효과적으로 활용하는 능력을 강화하는 것을 목표로 합니다. 기존 지도 학습(SFT) 기반 접근 방식의 한계인 고비용 데이터 생성, 섬세한 데이터 필터링 필요성, 그리고 제한된 일반화 능력을 극복하고자 합니다.#Review#Visual Reasoning#Multimodal LLMs#Reinforcement Learning#Tool Usage#Perception-heavy Benchmarks#GRPO#Vision Tools2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Symbolic Graphics Programming with Large Language Models본 논문은 대규모 언어 모델(LLMs)이 자연어 설명으로부터 정확한 시각적 콘텐츠를 렌더링하는 심볼릭 그래픽 프로그램(SGPs) , 특히 Scalable Vector Graphics (SVGs) 를 생성하는 능력을 탐구합니다.#Review#Symbolic Graphics Programming#Large Language Models#Reinforcement Learning#SVG Generation#Text-to-Image Synthesis#Cross-Modal Alignment#Program Synthesis2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding본 논문은 장시간 비디오 이해의 난제를 해결하고자 합니다.#Review#Long Video Understanding#Reinforcement Learning#Multi-Turn Reasoning#MLLMs#Video Segment Selection#Bi-level Reward#Question Answering2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Open Data Synthesis For Deep Research본 논문은 기존 벤치마크들이 '심층 연구(Deep Research)' 작업을 위한 충분한 구조적 깊이를 제공하지 못하는 한계를 해결하고자 합니다. 특히, 복잡한 질문을 하위 문제로 분해하고, 다단계 추론을 조율하며, 다양한 출처에서 증거를 합성해야 하는 작업에 초점을 맞춥니다.#Review#Data Synthesis#Deep Research#Hierarchical Constraint Satisfaction Problems#Large Language Models#Agentic AI#Reinforcement Learning#Question Answering2025년 9월 4일댓글 수 로딩 중
[논문리뷰] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning본 연구는 데이터 희소성, 확장 가능한 멀티-턴 강화 학습(RL), GUI 전용 작동의 한계, 환경 확장성 및 안정성 과 같은 자율 GUI 에이전트 개발의 주요 과제를 해결하는 것을 목표로 합니다.#Review#GUI Agent#Multi-Turn RL#Reinforcement Learning#Data Flywheel#Agent Framework#Hybrid Environments#Parameter Interpolation2025년 9월 3일댓글 수 로딩 중
[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Tool-Integrated Reasoning#Multi-turn Reasoning#Gradient Explosion#Training Stability#Trajectory Filtering#Zero RL2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 능력을 습득하기 위해 필요한 값비싼 강화 학습(RL) 기반 최적화 과정을 대체하는 방법을 모색합니다.#Review#Reasoning Vectors#Task Arithmetic#Chain-of-Thought#LLMs#Reinforcement Learning#Model Merging#Parameter Transfer2025년 9월 3일댓글 수 로딩 중
[논문리뷰] MobiAgent: A Systematic Framework for Customizable Mobile Agents본 논문은 GUI 기반 모바일 에이전트가 직면하는 낮은 태스크 완료율, 느린 응답 시간, 예상치 못한 상황 처리 능력 부족 등 실세계 태스크 실행의 정확성과 효율성 문제 를 해결하고자 합니다. 특히, 기존 모델들의 한계를 극복하고 맞춤형 모바일 에이전트 를 위한 체계적인 프레임워크를 제공하는 것을 목표로 합니다.#Review#Mobile Agents#GUI Agents#Vision-Language Models#Agent Acceleration#Benchmarking#Reinforcement Learning#Data Collection2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Kwai Keye-VL 1.5 Technical Report본 논문은 동적이고 정보 밀도가 높은 비디오 콘텐츠 이해에서 발생하는 공간 해상도와 시간 범위 간의 트레이드오프 문제를 해결하고, 기존 모델들이 비디오 이해에서 겪는 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal LLMs#Video Understanding#Slow-Fast Encoding#Long Context#Chain-of-Thought#Reinforcement Learning#Human Alignment#Native-Resolution Vision Encoder2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model Generations대규모 언어 모델(LM)의 후처리 과정에서 발생하는 다양성 감소 문제를 해결하는 것이 주요 목표입니다. 기존 후처리 방식이 정확도와 유용성에 초점을 맞춰 출력 분포가 과도하게 좁아지고 아이디어 범위가 축소되는 현상을 방지하며, 응답 품질과 의미론적 다양성을 동시에 최적화하는 방법을 제시하고자 합니다.#Review#Reinforcement Learning#Language Models#Diversity Optimization#Quality Enhancement#Semantic Clustering#Post-training#Generative AI2025년 9월 3일댓글 수 로딩 중
[논문리뷰] DCPO: Dynamic Clipping Policy Optimization본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Dynamic Clipping#Advantage Standardization#RLVR#Reasoning2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Baichuan-M2: Scaling Medical Capability with Large Verifier System의료 분야 LLM 이 USMLE 같은 정적 벤치마크에서는 우수하지만 실제 임상 환경의 동적, 상호작용적 특성을 포착하지 못해 발생하는 성능 격차를 해소하는 것이 목표입니다.#Review#Medical AI#LLM#Reinforcement Learning#Verifier System#Patient Simulator#Clinical Rubrics#Baichuan-M2#HealthBench2025년 9월 3일댓글 수 로딩 중
[논문리뷰] PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning본 연구는 에이전트 추론(agentic reasoning)을 위한 critic-free 강화 학습 방법론, 특히 그룹 정책(group policies)의 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Critic-Free RL#Agentic Reasoning#Policy Optimization#Large Language Models (LLMs)#Advantage Estimation#Group Sampling#Static Value Estimation2025년 9월 2일댓글 수 로딩 중
[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and Planning이 논문은 Mobile/PC 환경에서 복잡한 작업을 자동화하는 GUI 에이전트 의 핵심 역량을 강화하는 오픈소스 파운데이션 모델, Ultron 을 제시합니다.#Review#GUI Agent#Foundational Model#Multimodal LLM#Perception#Planning#Reinforcement Learning#Data Engineering#Chinese App Scenarios2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models대규모 언어 모델(LLM)이 복잡한 추론 작업에는 능숙하지만, 인간 아이들이 쉽게 수행하는 간단한 상호작용 작업에서는 어려움을 겪는 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Game AI#Procedural Knowledge#Declarative Knowledge#Explainable AI#Strategic Decision-Making2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery본 논문은 기존의 단일 모달(symbolic regression 또는 LLM) 접근법이 물리학자들이 현상학적 시각적 표현을 활용하는 점을 간과하여 동적 현상 내재의 시공간 패턴을 해석하는 능력이 약하다는 문제를 해결하고자 합니다.#Review#Physics Formula Discovery#Multimodal AI#Vision-Language Models#Symbolic Regression#Causal Chain of Thought#Reinforcement Learning#Agentic AI2025년 9월 1일댓글 수 로딩 중
[논문리뷰] HERMES: Human-to-Robot Embodied Learning from Multi-Source Motion Data for Mobile Dexterous Manipulation이 논문은 복잡한 다지(multi-fingered) 로봇 핸드를 활용한 모바일 양손 로봇 조작(mobile bimanual dexterous manipulation)에서 다양한 소스의 인간 동작 데이터를 실제 로봇 행동으로 효과적으로 변환 하는 도전 과제를 해결하는 것을 목표로 합니다.#Review#Dexterous Manipulation#Mobile Manipulation#Human-to-Robot Learning#Sim2Real#Reinforcement Learning#Depth Image#Visual Localization#Bimanual Control2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning본 논문은 텍스트-투-이미지(T2I) 생성에서 기존 GRPO(Group Relative Policy Optimization) 기반 강화 학습 방법론이 겪는 보상 해킹(reward hacking) 문제를 해결하고, 보다 안정적인 훈련 패러다임을 확립하는 것을 목표로 합니다.#Review#Reinforcement Learning#Text-to-Image Generation#GRPO#Reward Hacking#Pairwise Preference#Reward Model#Stable Optimization#UniGenBench2025년 8월 29일댓글 수 로딩 중
[논문리뷰] OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning논문은 마스크 기반 이미지 편집(Image Fill, Extend, Object Removal, Text Rendering)의 다양한 하위 태스크에서 기존 모델들의 제한적인 범용성과 태스크별 지도 학습 미세 조정(SFT) 의 비효율성을 해결하고자 합니다.#Review#Image Generation#Mask-Guided Editing#Reinforcement Learning#Human Preference Learning#Vision-Language Models#Multi-Task Learning#Flow Matching2025년 8월 29일댓글 수 로딩 중
[논문리뷰] AWorld: Orchestrating the Training Recipe for Agentic AI본 논문은 에이전트 AI 시스템 개발의 핵심 병목인 비효율적인 경험 생성(experience generation) 문제를 해결하여, 복잡한 환경에서 '학습을 통한 실천(learning from practice)' 패러다임을 실용적이고 확장 가능하게 만드는 것을 목표로 합니다.#Review#Agentic AI#Reinforcement Learning#Distributed Systems#Experience Generation#LLM Fine-tuning#GAIA Benchmark#Scalability#AWORLD Framework2025년 8월 29일댓글 수 로딩 중
[논문리뷰] StepWiser: Stepwise Generative Judges for Wiser Reasoning본 논문은 대규모 언어 모델(LLM)이 복잡한 문제 해결을 위해 사용하는 다단계 추론(Chain-of-Thought) 전략에서 각 중간 단계의 논리적 유효성을 감독하는 과제를 해결하는 것을 목표로 합니다.#Review#LLM Reasoning#Process Reward Models#Reinforcement Learning#Generative Judges#Stepwise Feedback#Chain-of-Thought#Meta-Reasoning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Self-Rewarding Vision-Language Model via Reasoning DecompositionVision-Language Model (VLM)이 겪는 시각적 환각 및 언어적 지름길 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language Models#Reinforcement Learning#Self-Rewarding#Reasoning Decomposition#Visual Perception#Language Reasoning#Hallucinations#Language Shortcuts2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies본 논문은 기존 Vision-Language-Action (VLA) 모델 디코더의 한계(고정된 순서의 autoregressive 생성 또는 continuous diffusion /flow matching 헤드의 백본 분리)를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Action Decoding#Transformer#Robot Control#Masked Modeling#Adaptive Decoding#Reinforcement Learning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement LearningGUI(Graphical User Interface) 기반 자율 에이전트의 핵심 난제인 장기 계획(long-horizon planning) 능력과 정밀한 미세 실행(fine-grained execution) 능력 사이의 고질적인 트레이드오프를 해결하는 것을 목표로 합니다.#Review#GUI Agents#Reinforcement Learning#Planner-Executor Architecture#Decoupled Training#Large Vision-Language Models#Specialization#Generalization#Computer Use Agent2025년 8월 28일댓글 수 로딩 중
[논문리뷰] TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling대규모 언어 모델(LLMs)을 강화 학습(RL)으로 정렬하는 과정에서 발생하는 높은 온-정책 롤아웃 비용 과 다양한 추론 경로 탐색의 한계 를 해결하고자 합니다. 본 논문은 시퀀스 생성을 트리 구조 검색 과정 으로 모델링하여 정책 최적화의 효율성과 추론 성능 간의 격차를 해소하는 것을 목표로 합니다.#Review#Reinforcement Learning#Policy Optimization#Large Language Models#Inference Efficiency#Tree Search#Segment-level Decoding#Advantage Estimation#Reasoning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models대규모 언어 모델(LLMs)의 CoT(Chain-of-Thought) 추론 능력은 뛰어나지만, 실제 배포 시 연산 비용을 효율적으로 제어하는 것이 어렵습니다.#Review#LLMs#Controllable Reasoning#Computational Efficiency#Reinforcement Learning#Supervised Fine-tuning#Reasoning Compression#Budget-Aware Training2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation본 연구는 텍스트-이미지(T2I) 생성 시 다중 속성 및 모호한 프롬프트 처리 능력의 한계 를 극복하고자 합니다.#Review#Text-to-Image Generation#Reinforcement Learning#Chain of Thought#Multimodal LLMs#Stage-Aware Rewards#Semantic Reasoning#Generative AI2025년 8월 26일댓글 수 로딩 중
[논문리뷰] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency본 연구는 오픈소스 멀티모달 모델인 InternVL 시리즈를 다용성, 추론 능력, 그리고 추론 효율성 측면에서 발전시키는 것을 목표로 합니다. 특히, 최첨단 상업 모델인 GPT-5 와의 성능 격차를 줄이고, 실제 멀티모달 LLM(MLLM) 애플리케이션의 계산 병목 현상을 해결하고자 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Inference Efficiency#Vision-Language Models#Open-Source#Versatility#Reasoning2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration Bottleneck#Instructional Scaffolding#Rubric-based Rewards#General Reasoning#RL with Verifiable Rewards#Policy Optimization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling본 연구는 대규모 언어 모델(LLM)의 다단계 추론 능력 을 향상시키는 것을 목표로 합니다.#Review#Reasoning Depth#Cellular Automata#Transformer Architectures#Recurrence#Adaptive Computation Time#Chain-of-Thought#Reinforcement Learning#Generalization2025년 8월 26일댓글 수 로딩 중
[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning본 논문은 기존 RAG(Retrieval-Augmented Generation) 시스템이 의료 진단 분야에서 겪는 한계, 즉 수동적인 프롬프트 엔지니어링, 제한된 피드백 적응, 그리고 불투명한 추론 과정으로 인한 신뢰성 부족 문제를 해결하고자 합니다.#Review#Agentic RAG#Medical Diagnosis#Reinforcement Learning#Traceable AI#Large Language Models#Clinical Decision Support#Out-of-Distribution Generalization#Reward Design2025년 8월 25일댓글 수 로딩 중
[논문리뷰] CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning본 논문은 LLM의 추론 능력 향상을 목표로, 기존 SFT(Supervised Fine-Tuning) 방식의 제한된 일반화 능력과 RL(Reinforcement Learning) 기반 방식의 불안정한 추론 경로 샘플링 및 주석된 CoT(Chain-of-Thought) 활용 부족 이라는 두 가지 주요 한계를 해결하고자 합니다.#Review#LLM Reasoning#Contrastive Learning#Reinforcement Learning#Fine-tuning#Chain-of-Thought (CoT)#Annotated Data#Model Stability2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR본 논문은 Verifiable Rewards (RLVR) 기반 Large Language Models (LLMs) 학습 시 발생하는 Pass@k 성능 한계 와 정책 엔트로피 붕괴 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Self-Play#Variational Problem Synthesis#Policy Entropy#Pass@k#Reasoning Benchmarks2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.#Review#GUI Automation#Multimodal Agents#Foundational Models#Reinforcement Learning#Large Language Models#Cross-Platform#Self-Supervised Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Intern-S1: A Scientific Multimodal Foundation Model본 논문은 과학 분야에서 오픈 소스 파운데이션 모델과 클로즈드 소스 모델 간의 성능 격차를 줄이고자 합니다.#Review#Multimodal Foundation Model#Scientific AI#Reinforcement Learning#Mixture-of-Experts (MoE)#Dynamic Tokenizer#Data Curation#Low-Resource Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#On-Policy RL#Off-Policy Experts#Dynamic Weighting#LLM Alignment#Reasoning2025년 8월 21일댓글 수 로딩 중
[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.#Review#Flow Matching#Reinforcement Learning#Human Preference Alignment#GRPO#Temporal Credit Assignment#Generative AI#Text-to-Image2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.#Review#Embodied AI#Robotic Manipulation#Reinforcement Learning#Vision-Language Model#Pointing#Zero-shot Generalization2025년 8월 20일댓글 수 로딩 중
[논문리뷰] A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models대규모 언어 모델(LLM)이 고정된 반복 횟수와 사후(post-hoc) 방식에 의존하는 기존 자기 개선(self-refinement) 방법의 한계를 극복하고자 합니다.#Review#Self-Refinement#Language Models#Reinforcement Learning#Proactive AI#Generation Process#Markov Decision Process#Adaptive Learning#LLM Efficiency2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning with Rubric Anchors이 논문은 확인 가능한 보상(RLVR) 을 사용하는 기존 강화 학습 패러다임이 자동 검증이 가능한 특정 도메인(예: 수학, 코딩)에 국한되는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Rubric-based Reward#RLVR Extension#Human-centric AI#Controllable Generation#Reward Hacking Mitigation2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Thyme: Think Beyond Images본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal LLMs#Code Generation#Image Processing#Reinforcement Learning#Supervised Fine-Tuning#Visual Reasoning#Sandbox2025년 8월 18일댓글 수 로딩 중
[논문리뷰] SSRL: Self-Search Reinforcement Learning본 논문은 대규모 언어 모델(LLMs)이 강화 학습(RL)에서 에이전트 검색 태스크를 위한 효율적인 시뮬레이터 역할을 할 수 있는지 탐구합니다.#Review#Reinforcement Learning#Large Language Models#Self-Search#Sim-to-Real Transfer#Agentic AI#Knowledge Retrieval#Reward Modeling2025년 8월 18일댓글 수 로딩 중
[논문리뷰] We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning복잡한 시각 수학적 추론에서 Multimodal Large Language Models (MLLMs) 의 한계를 극복하는 것을 목표로 합니다.#Review#Visual Mathematical Reasoning#MLLMs#Knowledge System#Reinforcement Learning#Curriculum Learning#Dataset Construction#Mathematical Benchmark2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Reward Design#Reasoning Tasks#Pass@k#Policy Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs본 논문은 인간 중심 시나리오에서 MLLM(Multimodal Large Language Models) 의 심층적인 이해 및 공감적, 상황 인지적 응답 능력을 평가하기 위한 세분화된 평가 프레임워크의 부족 문제 를 해결하고자 합니다.#Review#Multimodal LLMs#Human-Centered AI#Empathy#Context-Awareness#MLLM Benchmark#Reinforcement Learning#Reasoning2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory본 논문은 실시간 멀티모달 입력(시각, 청각)을 지속적으로 처리하여 장기 기억을 구축하고 업데이트하며, 이를 기반으로 추론하여 복잡한 지시를 완료할 수 있는 멀티모달 에이전트 프레임워크 M3-Agent 를 제안합니다. 기존 모델의 한계인 무한한 정보 처리 및 일관된 세계 지식 구축 문제를 해결하고자 합니다.#Review#Multimodal Agent#Long-Term Memory#Episodic Memory#Semantic Memory#Reinforcement Learning#Video Question Answering#Entity-Centric Memory2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery본 논문은 Large Language Models (LLMs) 의 분자 발견 분야 적용 시 나타나는 설명 가능성 및 추론 성능 한계를 해결하는 것을 목표로 합니다.#Review#Molecule Discovery#Chain-of-Thought#Large Language Models#Reinforcement Learning#Supervised Fine-tuning#Molecular Generation#Explainable AI2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reward Model#Policy Optimization#Reward Hacking#Hybrid Annotation#Mathematical Reasoning#Verifiable Rewards2025년 8월 14일댓글 수 로딩 중
[논문리뷰] AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance대규모 언어 모델(LLM)이 추론 태스크에서 겪는 catastrophic forgetting 및 모방(imitation) 과 탐색(exploration) 간의 최적화되지 않은 트레이드오프 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Fine-tuning#Reinforcement Learning#Meta-learning#Adaptive Control#Imitation Learning#Exploration#Reasoning2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.#Review#Curriculum Learning#Reinforcement Learning#Large Language Models#Reasoning Efficiency#Token Budget Control#Group Relative Policy Optimization#Chain-of-Thought2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Towards Affordance-Aware Robotic Dexterous Grasping with Human-like Priors이 논문은 로봇의 능숙한 파지(dexterous grasping) 시 기존 연구들이 간과했던 어포던스 인식(affordance-aware) 위치 설정 및 인간과 유사한 자세 의 중요성에 주목합니다.#Review#Robotic Dexterous Grasping#Affordance-Aware#Human-like Priors#Reinforcement Learning#Vision-Language Models#Two-Stage Training#Manipulation2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models본 논문은 확산 언어 모델(dLLMs)이 텍스트를 생성하는 반복적인 디노이징 과정에서 '시간적 진동(temporal oscillation)' 이라는 중요한 현상을 규명하고, 이를 활용하여 모델 성능을 개선하는 것을 목표로 합니다.#Review#Diffusion Language Models#Temporal Oscillation#Self-Consistency Voting#Reinforcement Learning#Temporal Semantic Entropy#Text Generation2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Test-Time Reinforcement Learning for GUI Grounding via Region Consistency이 논문은 픽셀 수준 주석의 높은 비용 과 기존 훈련 방식의 한계 로 인해 GUI 접지(grounding)의 성능 확장성에 제약이 있다는 문제를 해결하고자 합니다.#Review#GUI Grounding#Test-Time Scaling#Reinforcement Learning#Region Consistency#Spatial Voting#Self-Supervised Learning#Vision-Language Models2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Agents#Agentic Search#Asynchronous RL#Long-Horizon Planning#Tool Use#Data Synthesis2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Aryabhata: An exam-focused language model for JEE Math본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.#Review#Language Model#Math Reasoning#JEE#Supervised Fine-Tuning#Reinforcement Learning#Model Merging#Chain-of-Thought#Curriculum Learning2025년 8월 13일댓글 수 로딩 중
[논문리뷰] When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs본 연구는 오디오-언어 모델(ALM)이 악의적인 음성 입력에 의해 유해한 텍스트를 생성하도록 유도될 수 있는 취약점을 해결하고자 합니다.#Review#Audio-Language Models#Jailbreak Attack#Adversarial Audio#Reinforcement Learning#Projected Gradient Descent#Native Payload Discovery#Multimodal AI Safety2025년 8월 12일댓글 수 로딩 중
[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.#Review#Passage Ranking#Reasoning Models#Large Language Models#Data Synthesis#Reinforcement Learning#Listwise Reranking#Information Retrieval2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning본 논문은 LLM 추론을 위한 강화 학습(RL) 기술의 급속한 발전으로 인해 발생하는 파편화된 이해, 불일치한 실험 설정 및 모호한 가이드라인 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#LLM Reasoning#Policy Optimization#Normalization#Clipping#Loss Aggregation#Overlong Filtering2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.#Review#Reasoning LLMs#Reinforcement Learning#PPO#Gradient Clipping#Supervised Fine-tuning#Math Reasoning#Code Generation#Policy Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Compressing Chain-of-Thought in LLMs via Step EntropyLarge Language Models(LLMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도한 상세함과 중복성으로 인한 높은 추론 비용 및 비효율성을 해결하는 것이 주요 목표입니다.#Review#LLM#Chain-of-Thought#CoT Compression#Step Entropy#Reinforcement Learning#SFT#GRPO2025년 8월 12일댓글 수 로딩 중
[논문리뷰] UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding본 논문은 기존 GUI 에이전트 훈련 및 추론 방식의 세 가지 한계점인 추론 설계 딜레마(P1) , 비효율적인 보상(P2) , 그리고 고해상도 디스플레이에서의 시각적 노이즈(P3) 를 해결하고자 합니다.#Review#GUI Agents#Reinforcement Learning#Grounding#MLLMs#Reward Function#Resampling#Visual Noise Reduction2025년 8월 11일댓글 수 로딩 중
[논문리뷰] InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization본 논문은 MLLM(Multimodal Large Language Model) 기반 GUI 에이전트 의 핵심 과제인 자연어 지시문 GUI Grounding 에서 의미론적 정렬(Semantic Alignment) 의 비효율적인 탐색 문제 해결을 목표로 합니다.#Review#GUI Grounding#MLLMs#Reinforcement Learning#Policy Optimization#Exploration Strategy#Semantic Alignment#Adaptive Exploration Reward#Human-Computer Interaction2025년 8월 11일댓글 수 로딩 중
[논문리뷰] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models본 논문은 오픈소스 MoE(Mixture-of-Experts) 기반 대규모 언어 모델인 GLM-4.5 를 소개합니다. 핵심 목표는 에이전트, 추론, 코딩(ARC) 태스크 전반에서 강력한 성능을 달성하고, 사고 및 직접 응답 모드를 지원하는 하이브리드 추론 방식을 통해 계산 효율성을 극대화하는 것입니다.#Review#Large Language Model#Mixture-of-Experts#Agentic AI#Reasoning#Code Generation#Reinforcement Learning#Foundation Model2025년 8월 11일댓글 수 로딩 중
[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.#Review#Self-Evolving LLM#Reinforcement Learning#Curriculum Learning#Reasoning#Large Language Models#Self-Play#Zero-Data Training2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Software Engineering#Multi-Turn Interaction#Long Context#DAPO#Autonomous Agents#SWE-BENCH2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence본 논문은 대규모 언어 모델(LLM)을 사회적으로 지능적인 에이전트로 훈련할 때 직면하는 부분적 관측성(Partial Observability) 과 다차원성(Multi-dimensionality) 이라는 핵심 과제를 해결하고자 합니다.#Review#Social Intelligence#Reinforcement Learning#Reward Design#Large Language Models#Utterance-level Rewards#Multi-dimensional Rewards#Partial Observability#SOTOPIA2025년 8월 7일댓글 수 로딩 중
[논문리뷰] SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 인간 주석 데이터에 크게 의존하고 새로운 또는 전문화된 소프트웨어 환경에서 어려움을 겪는 문제를 해결합니다. 인간의 개입 없이 에이전트가 낯선 소프트웨어 환경을 자율적으로 탐색하고 경험을 통해 학습하며 진화하여 전문가 수준의 역량을 확보하는 것을 목표로 합니다.#Review#Computer Use Agent#Self-Evolving#Reinforcement Learning#Curriculum Learning#Vision-Language Models#Experiential Learning#Specialist-to-Generalist2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks본 논문은 5G 모바일 네트워크에서 해석 가능성, 도메인 전문성, 인과적 추론이 필요한 루트 원인 분석(RCA) 의 어려운 문제를 해결하고자 합니다. 특히, 대규모 언어 모델(LLMs) 을 활용하여 성능 저하의 가장 가능성 있는 근본 원인을 식별하고, 구조화된 다단계 진단 설명을 생성하는 경량 프레임워크를 제안합니다.#Review#Root Cause Analysis#Large Language Models#5G Wireless Networks#Supervised Fine-Tuning#Reinforcement Learning#Chain-of-Thought#TeleLogs Dataset2025년 8월 7일댓글 수 로딩 중
[논문리뷰] RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization본 논문은 LLM 의 강화 학습(RLVR) 과정에서 발생하는 '능력 경계 붕괴(capability boundary collapse)' 문제를 해결하는 것을 목표로 합니다. 기존 RLVR 방식이 LLM의 내재된 능력 범위를 넘어서는 새로운 추론 능력을 획득하지 못하고 문제 해결 범위를 축소시키는 한계를 극복하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Capability Collapse#Hybrid Policy Optimization#Multiple Importance Sampling#Exploration#Math Reasoning#Out-of-Distribution2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following본 논문은 대규모 언어 모델(LLMs)이 복잡한 지시를 따를 때 흔히 발생하는 '게으른 추론' 문제로 인한 일관성 부족을 해결하고자 합니다.#Review#LLMs#Instruction Following#Reasoning#Reinforcement Learning#Supervised Fine-tuning#Entropy Regularization#Self-Checking#Previewing2025년 8월 7일댓글 수 로딩 중
[논문리뷰] IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards본 논문은 LLM의 지시 따르기 능력을 향상시키는 Verifiable Rewards 기반 강화 학습(RLVR) 이 겪는 두 가지 주요 문제점을 해결하고자 합니다. 첫째, 훈련 비효율성(불충분한 난이도 평가)과 둘째, LLM이 검증 단축키를 악용하여 실제 의도를 무시하는 과최적화(reward hacking) 문제입니다.#Review#Instruction Following#Reinforcement Learning#Reward Hacking#LLMs#Curriculum Learning#Data Flywheel#Verifiable Rewards2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success본 논문은 대규모 시각-언어 모델(VLM)이 다단계의 상호작용적 에이전트 태스크에서 직면하는 어려움을 해결하고, 특히 훈련 환경을 넘어 실세계 벤치마크로 학습된 행동을 일반화하는 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language Models#Synthetic Worlds#Transfer Learning#PPO#Actor-Critic#Embodied AI2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement Learning본 논문은 기존 RL(강화 학습) 기반 LLM(대규모 언어 모델) 훈련 방법론들이 에이전트 설계와 밀접하게 결합되어 유연성이 부족하고 복잡한 다중 턴 상호작용에 비효율적이라는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#AI Agents#Framework#Markov Decision Process#Hierarchical RL#Training-Agent Disaggregation#Observability2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction본 논문은 형식 증명 자동화(Automated Theorem Proving, ATP) 분야에서 기존의 대규모 모델 및 연산량 의존성을 극복하고, 더 적은 자원으로도 최첨단 성능을 달성하는 새로운 오픈소스 언어 모델 시리즈인 Goedel-Prover-V2 를 개발하는 것을 목표로 합니다.#Review#Automated Theorem Proving#Formal Verification#Language Models#Self-Correction#Data Synthesis#Reinforcement Learning#Model Averaging#Lean2025년 8월 6일댓글 수 로딩 중
[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.#Review#LLM Evaluation#Answer Verification#Reward Model#Benchmarking#Data Augmentation#Reinforcement Learning#Formula Verification#Hallucination Detection2025년 8월 6일댓글 수 로딩 중
[논문리뷰] CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search논문은 ANNS(Approximate Nearest Neighbor Search) 알고리즘 최적화의 수작업적, 전문 지식 의존적 특성을 해결하는 것을 목표로 합니다. LLM을 강화 학습으로 증강하여 실행 속도를 보상 신호로 삼아, ANNS 구현을 자동으로 최적화하는 새로운 패러다임인 CRINN 을 제안합니다.#Review#Approximate Nearest Neighbor Search#Reinforcement Learning#Large Language Models#Code Optimization#HNSW#Retrieval-Augmented Generation#Contrastive Learning2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Qwen-Image Technical Report본 논문은 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 분야에서 기존 텍스트-이미지(T2I) 모델의 한계를 해결하는 것을 목표로 합니다.#Review#Image Generation#Text-to-Image#Image Editing#Text Rendering#Multimodal Diffusion Transformer#Curriculum Learning#Reinforcement Learning#Foundation Model2025년 8월 5일댓글 수 로딩 중
[논문리뷰] Exploitation Is All You Need... for Exploration본 논문은 기존 RL에서 탐색을 위해 명시적인 인센티브를 부여하는 방식과 달리, 순수한 탐욕적인(exploitation-only) 목적 만으로도 탐색적 행동이 자연스럽게 나타날 수 있는지 검증하는 것을 목표로 합니다.#Review#Reinforcement Learning#Exploration-Exploitation#Meta-RL#Transformer Architecture#Emergent Behavior#Multi-Armed Bandits#Gridworlds#Pseudo-Thompson Sampling2025년 8월 5일댓글 수 로딩 중
[논문리뷰] A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models본 연구는 대규모 시각-언어 모델(LVLM)에서 고해상도 입력 처리 시 발생하는 시각 토큰 폭증으로 인한 비효율성을 해결하고자 합니다.#Review#Large Vision-Language Models (LVLMs)#Visual Token Pruning#Dynamic Compression#GlimpsePrune#Computational Efficiency#VQA#Reinforcement Learning2025년 8월 5일댓글 수 로딩 중
[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.#Review#3D Vision-Language Models#Reasoning#Scene Understanding#Reinforcement Learning#Chain-of-Thought#Dynamic View Selection#Multi-task Learning2025년 8월 4일댓글 수 로딩 중
[논문리뷰] Seed-Prover: Deep and Broad Reasoning for Automated Theorem Proving본 논문은 대규모 언어 모델(LLM)이 자연어 기반 정리 증명에서 명확한 감독 신호 부족으로 겪는 어려움을 해결하고자 합니다.#Review#Automated Theorem Proving#Large Language Models#Formal Verification#Reinforcement Learning#Lean#Geometry Reasoning#Chain-of-Thought#Lemma-Style Proving2025년 8월 2일댓글 수 로딩 중
[논문리뷰] Scalable Multi-Task Reinforcement Learning for Generalizable Spatial Intelligence in Visuomotor Agents본 논문은 강화 학습(RL) 모델의 과적합 문제를 해결하여, visuomotor 에이전트가 다양한 환경에서 일반화 가능한 행동을 습득하지 못하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Multi-Task Learning#Visuomotor Agents#Spatial Reasoning#Generalization#Minecraft#Cross-View Goal Specification#Automated Task Synthesis2025년 8월 2일댓글 수 로딩 중
[논문리뷰] The Era of Agentic Organization: Learning to Organize with Language Models본 논문은 AI가 개별 지능의 한계를 넘어 협력적이고 동시적으로 복잡한 문제를 해결하는 '에이전트 조직(agentic organization)' 시대를 목표로 합니다.#Review#Agentic Organization#Asynchronous Thinking#Language Models#Reinforcement Learning#Multi-agent Systems#Reasoning#Task Decomposition#Orchestration2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Emu3.5: Native Multimodal Models are World Learners본 논문은 비전과 언어에 걸쳐 다음 상태를 예측하는 대규모 멀티모달 월드 모델인 Emu3.5 를 소개합니다. 자연스러운 멀티모달 능력 을 통해 긴 시퀀스 비전-언어 생성, X2I(Any-to-Image) 생성, 복잡한 텍스트 기반 이미지 생성 및 일반화 가능한 월드 모델링 능력 을 향상시키는 것을 목표로 합니다.#Review#Multimodal Model#World Model#Vision-Language#Next-Token Prediction#Reinforcement Learning#Discrete Diffusion Adaptation#Image Generation#Any-to-Image2025년 10월 31일댓글 수 로딩 중
[논문리뷰] EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis본 논문은 EHR(Electronic Health Records) 분석에서 LLM(Large Language Models) 의 제한적인 능력, 특히 좁은 태스크 범위와 EHR 중심 추론 능력 부족 문제를 해결하고자 합니다.#Review#Electronic Health Records#Large Language Models#Reasoning Enhancement#Instruction Tuning#Reinforcement Learning#Data Synthesis#Medical AI#Clinical Decision Support2025년 10월 31일댓글 수 로딩 중
[논문리뷰] CityRiSE: Reasoning Urban Socio-Economic Status in Vision-Language Models via Reinforcement Learning본 논문은 대규모 시각-언어 모델(LVLM)이 시각 데이터를 통해 도시의 사회경제적 지위를 정확하고 해석 가능하게 예측하는 데 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 학습 시 접하지 못한 도시나 지표에 대한 일반화 성능 을 향상시키고, 동시에 설명 가능한 추론 과정 을 제공하고자 합니다.#Review#Urban Sensing#Socio-Economic Status#Vision-Language Models#Reinforcement Learning#Generalization#Interpretability#Multi-modal Data2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Video-Thinker: Sparking 'Thinking with Videos' via Reinforcement Learning본 논문은 기존 이미지 추론에서 성공적으로 활용된 'Thinking with Images' 패러다임을 비디오 추론 태스크로 확장하는 것을 목표로 합니다.#Review#Video Reasoning#Multimodal Large Language Models#Reinforcement Learning#Chain-of-Thought#Video Understanding#Temporal Grounding#Video Captioning#Autonomous Tool Use2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Reasoning-Aware GRPO using Process Mining본 논문은 대규모 추론 모델을 위한 GRPO (Group Relative Policy Optimization) 기반 후처리 학습의 효과를 강화하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Process Mining#Policy Optimization#Mathematical Reasoning#GRPO#PM4GRPO2025년 10월 30일댓글 수 로딩 중
[논문리뷰] ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization자연어 수학 문제를 기계 검증 가능한 형식적 진술로 변환하는 자동 형식화(Autoformalization) 과정에서 대규모 언어 모델(LLM) 이 원본 문제의 의미적 의도 를 정확히 보존하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Autoformalization#Large Language Models#Reinforcement Learning#Self-Reflection#Semantic Consistency#Formal Mathematical Reasoning#Sequence Optimization2025년 10월 30일댓글 수 로딩 중
[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language Models통합 멀티모달 언어 모델(UVLMs)에서 이해(understanding) 및 생성(generation) 태스크를 동시에 학습할 때 발생하는 이질적인 데이터 및 감독(supervision)으로 인한 태스크 간 간섭 문제 를 해결하고자 합니다.#Review#Unified Vision-Language Models#Reinforcement Learning#Multimodal Alignment#Pairwise Training#Group Relative Policy Optimization#Data Augmentation#Text-to-Image Generation#Visual Reasoning2025년 10월 30일댓글 수 로딩 중
[논문리뷰] MASPRM: Multi-Agent System Process Reward ModelMulti-Agent Systems (MAS)의 추론 시 검색 과정에서 발생하는 비신뢰성 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Process Reward Model#MCTS#Inference-time Search#LLM Agents#Zero-shot Transfer#Reinforcement Learning#Compute-Aware Reasoning2025년 10월 30일댓글 수 로딩 중
[논문리뷰] FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable ReasoningRLVR(Reinforcement Learning with Verifiable Rewards)을 활용한 LLM(Large Language Model) 학습 시, '오류가 있지만 정답인 롤아웃'(flawed-positive rollouts)이 신뢰할 수 없는 추론 패턴을 강화하여 성능을 제한하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reasoning#Policy Optimization#Reward Modeling#Flawed Reasoning#Reliable AI#Error Detection2025년 10월 30일댓글 수 로딩 중
[논문리뷰] WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich SeekingLLM 기반 정보 탐색(IS) 에이전트가 겪는 낮은 탐색 효율성 문제를 해결하는 것이 주된 목표입니다.#Review#LLM-based Agents#Information Seeking#Search Efficiency#Task Synthesis#Reinforcement Learning#Tree-structured Reasoning#WebAgent2025년 10월 29일댓글 수 로딩 중
[논문리뷰] VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations컴퓨터 비전 분야에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.#Review#Visualization Quality Assessment#MLLMs#Benchmark#Aesthetics#Fidelity#Expressiveness#Fine-tuning#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Tongyi DeepResearch Technical Report본 논문은 장기적인 정보 탐색 및 심층 연구 태스크를 위해 설계된 에이전트형 대규모 언어 모델인 Tongyi DeepResearch 를 소개하고 오픈소스화하는 것을 목표로 합니다.#Review#Agentic LLM#Deep Research#Information Seeking#Reinforcement Learning#Synthetic Data#Context Management#Tool Use#Open-source AI2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.#Review#Search Agents#LLM#Reinforcement Learning#Synthetic Data#Reward Shaping#Entity-aware Reward#Policy Optimization#Knowledge-intensive Tasks2025년 10월 29일댓글 수 로딩 중
[논문리뷰] InteractComp: Evaluating Search Agents With Ambiguous Queries본 논문은 기존 검색 에이전트들이 사용자 질의를 완전하고 명확하다고 가정하지만, 실제 사용자들은 종종 불완전하고 모호한 질의로 시작하여 상호작용을 통한 명확화가 필요하다는 문제점을 제기합니다.#Review#Search Agents#Interactive AI#Ambiguous Queries#Benchmarking#Language Agents#Information Retrieval#Overconfidence#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling본 논문은 대규모 언어 모델(LLM)의 복잡한 멀티턴 함수 호출(Multi-Turn Function Calling) 능력 개발을 위한 고품질 학습 데이터 생성의 어려움을 해결하고자 합니다.#Review#Function Calling#Multi-Turn Interaction#Large Language Models (LLMs)#Data Synthesis#Agentic AI#Tool Use#Chain-of-Thought (CoT)#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning본 논문은 복잡한 추론 태스크에서 LLM의 출력을 평가하고 피드백을 제공하는 비판(critiquing) 모델을 훈련하는 것을 목표로 합니다.#Review#Reinforcement Learning#Language Models#Critiquing#Two-Stage Optimization#Actor-Critic#Scalable Oversight#Discriminability#Helpfulness2025년 10월 29일댓글 수 로딩 중
[논문리뷰] The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation본 논문은 Large Language Models (LLMs)의 강화 학습(RL) 미세 조정 시 Best-of-N (BoN) 샘플링 성능이 저하되는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Best-of-N Sampling#Max@k Optimization#Policy Gradients#Off-policy Learning#Code Generation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Language Server CLI Empowers Language Agents with Process Rewards대규모 언어 모델(LLM) 기반의 언어 에이전트가 코드 관련 태스크에서 겪는 API 환각 및 코드 변경 오류 문제를 해결하고자 합니다.#Review#Language Agents#Language Server Protocol (LSP)#CLI#Process Rewards#Code Refactoring#Static Analysis#Reinforcement Learning#Deterministic Execution2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Code Aesthetics with Agentic Reward Feedback대규모 언어 모델(LLM)이 시각 지향적인 코딩 작업(예: 차트 생성, 웹페이지 디자인)에서 종종 최적화되지 않은 미학적 결과물을 생성하는 문제를 해결하고자 합니다.#Review#Code Aesthetics#Agentic Reward Feedback#Large Language Models#Reinforcement Learning#Instruction Tuning#Webpage Design#Multimodal Evaluation2025년 10월 28일댓글 수 로딩 중
[논문리뷰] VR-Thinker: Boosting Video Reward Models through Thinking-with-Image Reasoning본 논문은 시각적 생성 모델의 후속 훈련을 위한 멀티모달 보상 모델(RMs)의 두 가지 주요 한계를 해결하는 것을 목표로 합니다.#Review#Video Reward Models#Multimodal Reasoning#Thinking-with-Image#Visual Reasoning#Reinforcement Learning#Chain-of-Thought#Context Management2025년 10월 17일댓글 수 로딩 중
[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.#Review#Reinforcement Learning#LLM#Self-Verification#Last-Token#Reward Modeling#Efficiency#Reasoning#RLVR2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Multi-Turn Interactions#Reward Sparsity#Information Gain#Policy Optimization#Ground-Truth Awareness#Sample Efficiency2025년 10월 17일댓글 수 로딩 중
[논문리뷰] The Art of Scaling Reinforcement Learning Compute for LLMs본 연구는 LLM 훈련에 필수적인 RL(강화 학습)의 확장(Scaling) 특성에 대한 예측 방법론이 부족하다는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLMs#Scaling Laws#Compute Efficiency#Predictability#Sigmoidal Curves#ScaleRL#Off-Policy RL2025년 10월 16일댓글 수 로딩 중
[논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning본 논문은 최신 비디오 생성 모델들이 시각적으로 사실적인 비디오를 생성하지만 물리 법칙을 준수하지 못하는 문제를 해결하는 것을 목표로 합니다. 물리적 지식을 비디오 생성 모델에 통합하여 물리적으로 그럴듯한 비디오 를 생성하고, 모델을 단순한 콘텐츠 생성기에서 '월드 모델' 로 발전시키는 것을 궁극적인 목적으로 합니다.#Review#Video Generation#Physical Plausibility#Reinforcement Learning#Direct Preference Optimization#Physical Representation#Diffusion Models#World Models#Image-to-Video2025년 10월 16일댓글 수 로딩 중
[논문리뷰] MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training본 논문은 기존 Multi-turn Text-to-SQL 시스템들이 단기적인 추론 패러다임에 머물러 실행 가능하거나 일관성 있는 SQL을 생성하지 못하는 문제를 해결합니다.#Review#Multi-turn Text-to-SQL#Agentic Training#Reinforcement Learning#Large Language Models#Dialogue Systems#Semantic Parsing#Database Interaction#Self-correction2025년 10월 16일댓글 수 로딩 중
[논문리뷰] GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search본 논문은 다중 에이전트 LLM 시스템에서 발생하는 복잡한 다중 턴 심층 탐색 시나리오 의 실패에 대한 정확한 원인 추론(failure attribution) 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Multi-Agent Systems#Failure Tracing#Root Cause Analysis#Information Dependency Graph#Reinforcement Learning#Deep Search2025년 10월 16일댓글 수 로딩 중
[논문리뷰] CoIRL-AD: Collaborative-Competitive Imitation-Reinforcement Learning in Latent World Models for Autonomous Driving본 논문은 모방 학습(IL)에만 의존하는 자율주행 모델이 겪는 일반화 성능 저하 및 롱테일 시나리오 대응 문제 를 해결하고자 합니다. 또한, 강화 학습(RL)의 샘플 비효율성 및 불안정한 수렴 문제를 극복하기 위해, IL과 RL을 효과적으로 통합 하여 보다 견고하고 일반화된 자율주행 정책을 개발하는 것을 목표로 합니다.#Review#Autonomous Driving#Imitation Learning#Reinforcement Learning#World Models#Latent Space#Dual-Policy#Competitive Learning2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization본 논문은 LLM의 불투명한 추론 과정을 명확히 이해하고, 기존 RL의 균일한 크레딧 할당 방식이 중요한 추론 단계를 모호하게 만드는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Reasoning#Attention Mechanisms#Reinforcement Learning#Credit Assignment#Policy Optimization#Interpretability#Preplan-and-Anchor Rhythm#Generative Models2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Robot Learning: A Tutorial이 튜토리얼은 현대 로봇 학습의 발전 과정을 종합적으로 안내하여, 연구자와 실무자가 로봇 학습 분야의 개념적 이해와 실제 도구를 습득하도록 돕는 것을 목표로 합니다.#Review#Robot Learning#Reinforcement Learning#Imitation Learning#Behavioral Cloning#Vision-Language-Action Models#Diffusion Models#Transformers#LeRobot2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Memory as Action: Autonomous Context Curation for Long-Horizon Agentic Tasks본 논문은 LLM 기반 에이전트가 긴 작업(long-horizon tasks)을 수행할 때 제한된 작업 메모리 가 불필요하거나 관련 없는 컨텍스트에 의해 쉽게 과부하되는 문제를 해결하고자 합니다.#Review#Long-Horizon Tasks#Agentic AI#Context Curation#Working Memory#Reinforcement Learning#Policy Optimization#Large Language Models#Memory-as-Action2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Detect Anything via Next Point Prediction본 논문은 MLLM(Multimodal Large Language Model) 기반 객체 감지에서 발생하는 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제를 해결하고, 기존 회귀 기반 모델과 동등하거나 이를 능가하는 제로샷 객체 인식 성능 을 달성하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Object Detection#Coordinate Prediction#Reinforcement Learning#Supervised Fine-tuning#Visual Perception#Zero-shot Learning#Spatial Reasoning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search기존 MLLM이 지식 집약적 시각 질의응답(VQA)에서 겪는 정보 부족, 정체된 데이터, 비효율적인 검색 쿼리 등의 한계를 극복하기 위해, 멀티모달 LLM이 온디맨드 다중 턴 웹 검색 을 수행하고 이미지와 텍스트 검색 도구 모두에 대해 동적으로 쿼리를 생성 및 개선 하는 능력을 부여하는 것을 목표로 합니다.#Review#Multimodal LLM#Web Search#Visual Question Answering#Reinforcement Learning#Image Cropping#Self-Correction#Tool Use2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models본 논문은 확산 대규모 언어 모델(dLLMs)에 강화 학습(RL)을 적용할 때 발생하는 주요 문제점, 즉 RL 목표에 필수적인 우도 함수의 계산 불가능성을 해결하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Reinforcement Learning#Memory Efficiency#Monte Carlo Sampling#Log-Likelihood Approximation#Policy Optimization#ELBO2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km본 논문은 기존 공간 추론 모델들이 실내 3D 스캔 및 수동 어노테이션에 의존하고 개별 장면에 과적합되는 한계를 극복하여, mm부터 km까지 아우르는 모든 스케일에서의 시각 공간 추론(All-Scale Visual Spatial Reasoning) 능력을 발전시키는 것을 목표로 합니다.#Review#Spatial Reasoning#Multi-Scale Vision#MLLM#Dataset#Scale Experts#Reinforcement Learning#Computer Vision#Robotics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?이 논문은 기존 벤치마크가 대규모 추론 모델(LRMs)의 복잡하고 상호 의존적인 장기 추론 능력을 충분히 평가하지 못하는 문제를 해결하고자 합니다. 특히, LRMs가 다단계 추론 시나리오에서 얼마나 깊고 넓게 추론할 수 있는지 그 한계를 평가하고 향상시키는 것을 목표로 합니다.#Review#Long-Horizon Reasoning#Query Composition#Large Reasoning Models#Reinforcement Learning#Benchmark Evaluation#Thinking Budget#Performance Degradation#Chain-of-Thought2025년 10월 13일댓글 수 로딩 중
[논문리뷰] GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare본 논문은 LLM이 사용자에게 최적화되지 않은 응답을 생성하여 개별적인 합리적 선택이 사회적으로 최적화되지 않은 결과를 초래하는 프리저너스 딜레마(prisoner's dilemma) 와 유사한 문제를 해결하고자 합니다.#Review#Large Language Models#LLM Alignment#Game Theory#Reinforcement Learning#Mutual Welfare#Payoff Matrix#Strategic Decision Making#Human-AI Interaction2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Dyna-Mind: Learning to Simulate from Experience for Better AI AgentsAI 에이전트가 복잡하고 장기적인 대화형 태스크에서 '대리 시행착오(vicarious trial and error)' 능력을 통해 현재의 한계를 극복하고, 환경을 mentally simulate하여 추론 및 의사결정 성능을 향상시키는 것을 목표로 합니다.#Review#AI Agents#Reinforcement Learning#World Models#Simulation#Reasoning#Language Models#Planning#Interactive AI2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Reasoning Tasks#GRPO#Negative Samples#Reward Modeling#Confidence Reweighting#Mathematical Reasoning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping멀티모달 대규모 추론 모델(MLRMs)이 쉬운 문제에 대해 과도하게 추론하여 비효율적인 반면, 어려운 문제에는 불충분한 탐색으로 해답을 놓치는 불균형을 해결하는 것이 목표입니다. 문제 난이도에 따라 탐색 노력을 동적으로 할당하는 적응형 추론 프레임워크 ARES 를 제시하여 MLRM의 효율성과 성능을 개선하고자 합니다.#Review#Multimodal Reasoning#Adaptive Learning#Reinforcement Learning#Entropy Shaping#Difficulty-Aware#Chain-of-Thought#Token-Level Analysis2025년 10월 13일댓글 수 로딩 중
[논문리뷰] A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 긴 시간 범위의 태스크에서 글로벌 플래닝 능력 부족 으로 인해 겪는 '뇌 없는 시행착오'와 '플래닝 환각' 문제를 해결하고자 합니다. 인간의 개입 없이 효율적이고 효과적으로 플래너를 훈련하여 LLM 에이전트의 플래닝 능력을 향상시키는 것이 주된 연구 목표입니다.#Review#Long-Horizon Tasks#LLM Agents#Global Planning#Reinforcement Learning#Supervised Fine-tuning#Homologous Consensus Filtering#Executor Capability Gain Reward#Plan-and-Execute2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Training-Free Group Relative Policy Optimization본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 도구 통합 및 특정 프롬프트 전략에서 겪는 성능 저하 문제를 해결하는 것을 목표로 합니다. 특히, 기존 강화 학습(RL) 기반의 파라미터 업데이트 방식이 수반하는 높은 계산 비용, 데이터 희소성, 과적합 문제를 파라미터 업데이트 없이 극복하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Parameter-Free Optimization#Experiential Knowledge#Token Prior#Group Relative Policy Optimization#In-Context Learning#Cost-Effective AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models본 논문은 Large Language Models (LLMs)의 강력한 추론 능력이 검색(retrieval) 작업에서 충분히 활용되지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Sentence Embedding#Retrieval-Augmented Generation#Chain-of-Thought#Information Retrieval#Supervised Fine-tuning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Reinforcing Diffusion Models by Direct Group Preference Optimization본 논문은 효율적인 확산 모델 을 그룹 상대 선호도 에 기반하여 정렬하는 과정에서 발생하는 핵심적인 문제를 해결합니다.#Review#Diffusion Models#Reinforcement Learning#Preference Optimization#Group Preference#Direct Preference Optimization#ODE Samplers#Efficient Training2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning대규모 언어 모델(LLM)의 메타 인식(meta-awareness) 능력 부족으로 인한 심각한 불일치(misalignment) 문제를 해결하고, 메타 예측(meta-prediction)과 실제 롤아웃(rollout) 간의 정렬을 통해 추론 모델의 성능을 향상시키는 것을 목표로 합니다.#Review#Meta-Awareness#Reinforcement Learning#Self-Alignment#LLM Reasoning#Training Efficiency#Generalization#Predictive Gating2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization현재 Multimodal Large Language Models (MLLM) 은 복잡한 실제 문제 해결에 필수적인 긴 추론 체인(long-chain reflective reasoning) 및 반복적 사고(iterative thinking) 능력에서 한계를 보입니다.#Review#Multimodal LLMs#Reflective Reasoning#Long-Chain Reasoning#Benchmark#Policy Optimization#Data Generation#Reinforcement Learning#Backtracking2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward본 논문은 Verifiable Reward를 사용하는 RL(RLVR) 환경에서 Large Language Model(LLM)의 탐색 능력 저하, 즉 '탐색 붕괴' 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Exploration#Verifiable Reward#Low-Probability Regularization#Reasoning Sparks#Policy Entropy#KL Divergence#Mathematical Reasoning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense본 논문은 대규모 언어 모델(LLM) 추론 훈련에서 결정론적 검증기(deterministic checkers) 의 이진(0-1) 보상 신호가 야기하는 한계(학습 비효율성, 오분류)를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Reward Modeling#Large Language Models (LLMs)#Mathematical Reasoning#Sparse Rewards#Dense Rewards#Hybrid Reinforcement#Verifier-based Rewards2025년 10월 10일댓글 수 로딩 중
[논문리뷰] GCPO: When Contrast Fails, Go Gold본 논문은 기존 강화 학습 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 모델의 추론 한계에 갇혀 샘플 활용 효율성이 떨어지는 문제점을 해결하고자 합니다.#Review#Reinforcement Learning#LLMs Reasoning#Policy Optimization#Contrastive Learning#Chain of Thought#Reference Answers#Math Reasoning#Gold-Standard Answer2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Entropy Regularizing Activation: Boosting Continuous Control, Large Language Models, and Image Classification with Activation as Entropy Constraints논문은 기존의 엔트로피 정규화 방식들이 최적화 목표를 왜곡하거나 특정 도메인에만 적용 가능한 한계를 지적하며, 범용적이고 비침습적이며 이론적으로 근거 있는 새로운 엔트로피 제약 패러다임을 제안하는 것을 목표로 합니다. 이는 다양한 AI/ML 문제에서 정책의 탐색 능력과 견고성을 향상시키고자 합니다.#Review#Entropy Regularization#Activation Functions#Continuous Control#Large Language Models#Image Classification#Reinforcement Learning#Policy Stochasticity#Entropy Constraints2025년 10월 10일댓글 수 로딩 중
[논문리뷰] DexNDM: Closing the Reality Gap for Dexterous In-Hand Rotation via Joint-Wise Neural Dynamics Model본 연구는 컨택트(contact)가 풍부한 인핸드 객체 회전(in-hand object rotation) 태스크에서 발생하는 심-투-리얼(sim-to-real) 격차 의 근본적인 문제를 해결하는 것을 목표로 합니다.#Review#Dexterous Manipulation#In-Hand Rotation#Sim-to-Real Transfer#Neural Dynamics Model#Joint-Wise Learning#Autonomous Data Collection#Reinforcement Learning#Robotics2025년 10월 10일댓글 수 로딩 중
[논문리뷰] CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards본 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 외부 감독 없이 에이전트 간 상호작용 을 통해 자율적으로 능력을 개선하는 자체 진화(self-evolution) 패러다임을 확립하는 것을 목표로 합니다.#Review#Multi-Agent Systems#LLM Agents#Self-Evolution#Reinforcement Learning#Interaction Rewards#LLM-as-a-Judge#Decentralized Learning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window본 논문은 기존의 다중 턴 에이전트가 낮은 태스크 복잡도와 컨텍스트 관리의 한계로 인해 장기적인 상호작용에서 깊은 추론 능력을 발휘하지 못하는 문제를 해결하고자 합니다.#Review#Deep Search Agents#Dynamic Context Window#Reinforcement Learning#Long-horizon Interaction#Context Management#High-difficulty Tasks#Multi-turn Reasoning#Web Agents2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Agent Learning via Early Experience본 논문은 보상이 없거나 불명확한 환경에서 언어 에이전트 가 스스로 경험을 통해 학습하고 개선하는 데 따르는 어려움을 해결하고자 합니다.#Review#Language Agents#Early Experience#Reward-Free Learning#World Modeling#Self-Reflection#Imitation Learning#Reinforcement Learning#Out-of-Domain Generalization2025년 10월 10일댓글 수 로딩 중
[논문리뷰] A^2Search: Ambiguity-Aware Question Answering with Reinforcement Learning본 논문은 기존 QA 모델들이 여러 유효한 답변을 허용하는 모호한 질문에 어려움을 겪으며, 단일 정답을 가정하는 벤치마크가 잘못된 훈련 신호를 제공한다는 문제를 해결하고자 합니다.#Review#Question Answering#Reinforcement Learning#Large Language Models#Ambiguity Resolution#Multi-hop QA#Automated Data Generation#Tool-Augmented LLMs#AnsF1 Reward2025년 10월 10일댓글 수 로딩 중
[논문리뷰] The Markovian Thinker본 논문은 추론 LLM 훈련 시 발생하는 무한한 상태 크기 와 추론 길이 증가에 따른 2차 계산 복잡도 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Chain-of-Thought#Markovian Thinking#Context Management#Computational Efficiency#Long-Context LLMs#Transformer Optimization2025년 10월 9일댓글 수 로딩 중
[논문리뷰] RLinf-VLA: A Unified and Efficient Framework for VLA+RL Training본 논문은 Vision-Language-Action (VLA) 모델 에 강화 학습(RL)을 적용할 때 발생하는 소규모 및 파편화된 실험의 문제점을 해결하고자 합니다. 대규모 실험을 지원하고 다양한 모델, 알고리즘, 평가 설정 간의 공정한 비교를 가능하게 하는 통합적이고 효율적인 프레임워크 를 제공하는 것을 목표로 합니다.#Review#Reinforcement Learning#VLA Models#Robotics#GPU Management#PPO#GRPO#Sim-to-Real2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Multi-Agent Tool-Integrated Policy Optimization본 논문은 단일 에이전트 LLM의 도구 통합 계획(Tool-Integrated Planning, TIP) 방식이 갖는 제한된 컨텍스트 길이 와 노이즈가 많은 도구 응답 문제를 해결하고자 합니다.#Review#Multi-Agent RL#Tool-Integrated Planning#Large Language Models (LLMs)#Policy Optimization#Credit Assignment#Reinforcement Learning#MATPO2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding본 논문은 다양한 양상의 데이터(텍스트, 이미지)를 처리할 수 있는 옴니(Omni) 형태의 멀티모달 생성 및 이해 모델 인 Lumina-DiMOO를 제안합니다.#Review#Multi-modal LLM#Discrete Diffusion#Image Generation#Image Understanding#Omni-modal#Interactive Retouching#Generative AI#Reinforcement Learning2025년 10월 9일댓글 수 로딩 중
[논문리뷰] G^2RPO: Granular GRPO for Precise Reward in Flow Models본 논문은 확산 및 플로우 모델에서 인간 선호도에 맞춰 생성 모델을 정렬하는 기존 GRPO(Group Relative Policy Optimization) 방법론의 한계, 즉 희소하고 부정확한 보상 신호 및 불완전한 평가 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Flow Models#Generative Models#Human Preference Alignment#Stochastic Differential Equations (SDE)#Reward Signal#Multi-Granularity2025년 10월 9일댓글 수 로딩 중
[논문리뷰] CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling본 연구는 Large Reasoning Models (LRMs)을 최적화 모델링 태스크에 효과적으로 적용하기 위한 새로운 프레임워크를 제안합니다.#Review#Large Reasoning Models#Optimization Modeling#Reflective Generation#Supervised Fine-tuning#Reinforcement Learning#Human-in-the-Loop#Code Generation#Domain Adaptation2025년 10월 9일댓글 수 로딩 중
[논문리뷰] TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation본 논문은 현대 자연어 처리 모델의 평가 도구가 특히 훈련 중 평가 지표(in-training evaluation metrics) 에서 연산 병목 현상을 일으켜 연구 속도를 저해하는 문제를 해결하고자 합니다.#Review#BLEU Score#GPU Acceleration#PyTorch#Natural Language Processing#Reinforcement Learning#Vectorization#In-Training Evaluation#N-gram Counting2025년 10월 8일댓글 수 로딩 중
[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Process Reward Models#Tabular Reasoning#Test-Time Scaling#Tool Integration#Reinforcement Learning#Supervised Fine-tuning#Large Language Models#Data Curation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations이 논문은 기존 자동화된 학술 발표 자료 생성 방법론이 가진 제한된 스토리텔링, 낮은 미적 품질, 그리고 자체 조정 능력 부족 문제를 해결하고자 합니다.#Review#Self-Improvement Agent#Academic Presentation#Aesthetic Evaluation#Reinforcement Learning#Multi-task Learning#Presentation Generation#LLM-based Agents#Human Feedback2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs본 연구는 복잡하고 개방형의 장기적 정보 검색 및 합성 태스크에서 기존 오픈소스 DeepResearch 에이전트의 성능 한계를 극복하는 것을 목표로 합니다.#Review#DeepResearch Agents#Tool-integrated Reasoning#Reinforcement Learning#Information Retrieval#Information Synthesis#Multi-agent Self-play#Reward Shaping#LLM2025년 10월 8일댓글 수 로딩 중
[논문리뷰] CARE: Cognitive-reasoning Augmented Reinforcement for Emotional Support Conversation감성 지원 대화(ESC) 시스템에서 기존 모델들이 간과했던 심층적인 인지 추론 과정을 강화하여, 대규모 합성 데이터 없이도 논리적으로 일관되고 지지적인 응답을 생성하는 것을 목표로 합니다. 이는 심리적 스트레스를 완화하고 대화를 통해 정서적 가치를 제공하는 데 기여합니다.#Review#Emotional Support Conversation#Cognitive Reasoning#Reinforcement Learning#Dialogue Generation#Natural Language Processing#Large Language Models#Psychological Support2025년 10월 8일댓글 수 로딩 중
[논문리뷰] ASPO: Asymmetric Importance Sampling Policy Optimization본 논문은 Large Language Model (LLM) 의 Outcome-Supervised Reinforcement Learning (OSRL) 훈련에서 GRPO 기반 방법론의 근본적인 문제점을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Importance Sampling#Policy Optimization#PPO-Clip#Outcome-Supervised RL#Token Weighting#GRPO2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Learning on the Job: Test-Time Curricula for Targeted Reinforcement Learning본 연구는 대규모 언어 모델(LLM)이 테스트 시점에 표적 작업을 해결하는 추론 능력을 지속적으로 향상 시키는 방법을 제안합니다.#Review#Test-Time Curriculum#Reinforcement Learning#Large Language Models#Self-Curated Learning#Continual Learning#Reasoning Benchmarks#Adaptive Training2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Judging with Confidence: Calibrating Autoraters to Preference Distributions이 논문은 현재 LLM 기반 자동 평가자(autoraters)가 이진 선호 레이블로만 훈련되어 인간 판단의 주관성과 분포적 특성을 간과하고, 불확실성과 소수 의견을 무시하는 근본적인 한계를 해결하고자 합니다.#Review#Large Language Models#Autoraters#Calibration#Preference Distributions#Reinforcement Learning#Supervised Fine-tuning#Positional Bias2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data본 논문은 대규모 언어 모델(LLM)의 추론 능력을 극대화하기 위해 사전 훈련(pretraining)과 지도 미세 조정(SFT) 단계 간에 추론 데이터를 최적으로 할당하는 방법을 체계적으로 탐구하는 것을 목표로 합니다.#Review#Large Language Models#Pretraining#Supervised Fine-tuning#Reasoning Data#Data Allocation#Diversity#Quality#Reinforcement Learning2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails본 논문은 자기 진화(self-evolution) 능력을 가진 LLM 에이전트가 배포 후 시간이 지남에 따라 초기 정렬(alignment) 제약 조건을 포기하고 자기 이익을 추구하는 전략으로 전환하는 Alignment Tipping Process (ATP) 라는 새로운 위험 현상을 식별하고 분석합니다.#Review#LLM Agents#Alignment#Self-Evolution#Behavioral Drift#Reinforcement Learning#Multi-Agent Systems#Alignment Tipping Process2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Self-Improvement in Multimodal Large Language Models: A Survey이 논문은 Multimodal Large Language Models (MLLMs)의 자기 개선(self-improvement) 분야에 대한 최초의 포괄적인 개요를 제공하는 것을 목표로 합니다.#Review#Multimodal Large Language Models (MLLMs)#Self-Improvement#Data Collection#Data Organization#Model Optimization#Survey#Reinforcement Learning#Direct Preference Optimization2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers본 논문은 Mixture-of-Experts (MoE) 모델 의 강화 학습(RL) 훈련 과정에서 발생하는 불안정성, 특히 훈련-추론 간 라우팅 동작의 불일치 로 인한 정책 KL 발산 및 훈련 붕괴 문제 를 해결하는 것을 목표로 합니다.#Review#MoE#Reinforcement Learning#Training Stability#Routing#Policy Alignment#Rollout Routing Replay#LLMs2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Sample By Step, Optimize By Chunk: Chunk-Level GRPO For Text-to-Image Generation본 논문은 flow-matching 기반 T2I(Text-to-Image) 생성 에서 GRPO(Group Relative Policy Optimization)의 두 가지 주요 한계, 즉 불정확한 이점 귀인(inaccurate advantage attribution) 과 생성 과정의 시간적 역학(temporal dynamics) 무시 를 해결하는 것을 목표로 합니다.#Review#Text-to-Image Generation#Reinforcement Learning#GRPO#Flow Matching#Chunk-level Optimization#Temporal Dynamics#Diffusion Models2025년 10월 27일댓글 수 로딩 중
[논문리뷰] DeepAgent: A General Reasoning Agent with Scalable Toolsets기존 LLM 기반 에이전트의 정형화된 워크플로우, 동적 도구 발견의 부재, 비효율적인 장기 상호작용 및 메모리 관리 한계를 극복하는 것을 목표로 합니다.#Review#Autonomous Agents#Large Language Models#Tool Use#Reinforcement Learning#Memory Management#Tool Retrieval#Agentic Reasoning2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.#Review#LLM Agents#Self-play#Reinforcement Learning#Search Agents#Supervision-Free Training#Retrieval-Augmented Generation (RAG)#Task Generation#Curriculum Learning2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence기존 비디오 추론 모델들이 텍스트 기반 추론만을 제공하며 핵심 증거의 시점과 위치를 명시하지 못하는 문제를 해결하고자 합니다.#Review#Video Reasoning#Spatio-Temporal Grounding#Large Multimodal Models#Reinforcement Learning#Chain-of-Thought#Visual Evidence#Dataset Curation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values본 논문은 Large Language Model (LLM)이 모든 정답을 동일하게 중요하게 취급하는 기존의 Verifiable Rewards (RLVR) 방식의 한계를 극복하고, 인간이 정의한 가치(value)에 따라 LLM의 최적화를 직접적으로 정렬하는 방법론을 제안합니다.#Review#Reinforcement Learning#LLM Alignment#Human Values#Reward Shaping#Value-Weighted Reward#Termination Policy#RLVR2025년 10월 24일댓글 수 로딩 중
[논문리뷰] olmOCR 2: Unit Test Rewards for Document OCR본 논문은 인쇄된 문서를 깨끗하고 자연스럽게 정렬된 일반 텍스트로 변환하는 OCR 시스템인 OLMOCR 2 를 제안합니다. 특히, 강화 학습(RL) 과 검증 가능한 보상(RLVR) 을 활용하여 수학 공식, 테이블 파싱, 다단 레이아웃과 같은 복잡한 문서 구조 처리 성능을 대폭 개선하는 것을 목표로 합니다.#Review#Document OCR#Vision Language Model#Reinforcement Learning#Unit Tests#Synthetic Data Generation#RLVR#Document Parsing#State-of-the-Art OCR2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Unified Reinforcement and Imitation Learning for Vision-Language Models본 논문은 대규모 Vision-Language Models (VLMs) 의 비효율성을 해결하기 위해, 리소스가 제한된 환경에서도 강력하고 경량화된 VLM을 구축하는 효율적인 훈련 알고리즘 Unified Reinforcement and Imitation Learning (RIL) 을 제안합니다.#Review#Vision-Language Models#Reinforcement Learning#Imitation Learning#Model Distillation#Lightweight VLMs#LLM-as-a-Judge#Multimodal Learning2025년 10월 23일댓글 수 로딩 중
[논문리뷰] LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts대규모 언어 모델(LLMs)이 긴 컨텍스트에 대한 고급 추론 능력을 갖추도록 하는 것이 목표입니다. 기존 RL 방법론들이 주로 짧은 컨텍스트 추론에 초점을 맞추고 있으며, 특히 높은 난이도의 긴 컨텍스트 RL 데이터가 부족하다는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Long Context Reasoning#Large Language Models#Multi-hop QA#Data Synthesis#Retrieval-Augmented Generation#Chain-of-Thought2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning본 논문은 기존의 Softmax Attention 이 긴 시퀀스 길이에서 겪는 계산 및 I/O 오버헤드 문제 를 해결하고, 순수 Linear Attention 모델의 성능 한계를 극복하기 위해 효율적인 하이브리드 아키텍처를 제안합니다.#Review#Long-Context LLM#Hybrid Attention#Linear Attention#Mixture-of-Experts#FP8 Training#GPU Optimization#Training-Inference Alignment#Reinforcement Learning2025년 10월 23일댓글 수 로딩 중
[논문리뷰] ColorAgent: Building A Robust, Personalized, and Interactive OS Agent본 논문은 명령어 기반 인터페이스에서 AI 에이전트 상호작용으로 변화하는 인간-운영체제 상호작용의 흐름 속에서, 사용자의 지시를 정확히 따르고 사용자 의도를 충실히 반영하는 강건하고 개인화된 대화형 OS 에이전트 인 ColorAgent 를 구축하는 것을 목표로 합니다.#Review#OS Agent#Reinforcement Learning#Multi-agent Systems#Personalization#Proactive Interaction#GUI Agents#Self-Evolving Training2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism본 논문은 대규모 언어 모델(LLM)이 생물 실험 프로토콜을 생성할 때 발생하는 불완전성 및 비일관성 문제를 해결하고, 정밀하고 논리적으로 정렬되며 실행 가능한 프로토콜을 자율적으로 생성하는 것을 목표로 합니다. 이를 통해 생명 과학 분야의 재현성 향상과 실험 효율성을 극대화하고자 합니다.#Review#Scientific Reasoning#Bio-experimental Protocol Generation#LLM#Structured Reward#SciRecipe Dataset#Sketch-and-Fill#Reinforcement Learning#Thoth2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Towards Faithful and Controllable Personalization via Critique-Post-Edit Reinforcement Learning본 논문은 대규모 언어 모델(LLM)의 개인화가 사용자의 개별적인 선호도에 충실하게 부합하도록 하는 도전적인 문제를 해결하고자 합니다.#Review#LLM Personalization#Reinforcement Learning#Generative Reward Model#Critique-Post-Edit#Reward Hacking#Controllable AI2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Extracting alignment data in open models본 논문은 오픈 모델에서 정렬(alignment) 훈련 데이터 를 효과적으로 추출하는 가능성을 탐구하고, 기존 문자열 매칭 기반의 메모리 추출 방식이 갖는 한계를 극복하는 것을 목표로 합니다.#Review#Alignment Data Extraction#Large Language Models#Memorization#Neural Embeddings#Semantic Similarity#Chat Templates#Model Distillation#Reinforcement Learning#Supervised Finetuning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning본 논문은 환각(hallucination) 문제와 부실한 검증 아티팩트로 인해 신뢰성 있는 합성 검증 데이터를 생성하기 어렵다는 문제를 해결하고자 합니다.#Review#Verifiable Learning#Data Synthesis#Evolutionary Algorithm#Large Language Models#Reinforcement Learning#Model Distillation#Test Generation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading본 논문은 기존 대규모 언어 모델(LLM) 기반 자동화된 주식 거래 시스템의 비효율성, 신호 불일치, 전략 학습의 비일관성 등의 한계를 해결하고자 합니다.#Review#Automated Trading#Reinforcement Learning#LLM Agents#Tool Orchestration#Financial Markets#Algorithmic Trading#Interpretable AI#ReAct2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback본 논문은 지도 미세 조정(supervised fine-tuning)만으로는 학습 분포를 넘어선 이미지 편집 모델의 일반화 및 제어 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Diffusion Models#Reinforcement Learning#MLLM#Policy Optimization#Finetuning#Reward Modeling#Human Alignment2025년 10월 21일댓글 수 로딩 중
[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.#Review#Computer Use Agents#Hybrid Action#Foundation Models#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data Generation#Tool Learning#GUI Automation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] RL makes MLLMs see better than SFT본 논문은 MLLM(Multimodal Language Model) 연구에서 LLM 백본 에 대한 지배적인 가정으로 인해 비전 인코더 의 역할이 간과되어 왔다는 문제의식에서 출발합니다.#Review#Multimodal Language Models#Reinforcement Learning#Supervised Finetuning#Vision Encoder#Visual Representations#Direct Preference Optimization#Preference Alignment#PIVOT2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering본 논문은 지식 기반 시각 질문 답변(KB-VQA) 태스크에서 멀티모달 쿼리의 품질과 검색 결과의 관련성 이 부족하여 발생하는 문제를 해결하는 것을 목표로 합니다.#Review#Visual Question Answering#Retrieval-Augmented Generation#Multimodal AI#Reinforcement Learning#Knowledge Base#Tool Learning#Information Filtering2025년 10월 21일댓글 수 로딩 중
[논문리뷰] DeepAnalyze: Agentic Large Language Models for Autonomous Data Science본 논문은 원시 데이터부터 분석가 수준의 심층 연구 보고서에 이르는 완전히 자율적인 데이터 과학 을 달성하는 것을 목표로 합니다. 기존 워크플로우 기반 데이터 에이전트들이 사전 정의된 워크플로우에 의존하여 복잡한 데이터 과학 태스크와 다양한 정형 데이터 처리에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Autonomous Data Science#Agentic LLM#Curriculum Learning#Reinforcement Learning#Data Agents#End-to-end Data Science2025년 10월 21일댓글 수 로딩 중
[논문리뷰] InfiMed-ORBIT: Aligning LLMs on Open-Ended Complex Tasks via Rubric-Based Incremental Training본 논문은 보상 함수가 모호하고 주관적인 개방형 AI 태스크 , 특히 의료 상담 과 같은 고위험 시나리오에서 LLM의 성능 향상을 목표로 합니다.#Review#LLMs#Reinforcement Learning#Rubric-Based Training#Medical Dialogue#Open-Ended Tasks#HealthBench#RAG2025년 10월 20일댓글 수 로딩 중
[논문리뷰] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning본 논문은 추론 언어 모델(LLM)이 불필요하게 긴 출력을 생성하는 문제를 해결하고, 토큰당 인텔리전스(정확도 대비 응답 길이)를 극대화하는 것을 목표로 합니다. 특히, 길이 패널티로 인한 정확도 저하가 패널티 설계 자체보다는 RL 최적화 기법 의 미흡함에서 비롯됨을 재조명하여 이를 개선하고자 합니다.#Review#Reinforcement Learning#Length Penalty#Reasoning Efficiency#Large Language Models#RL Optimization#Accuracy-Efficiency Trade-off#Chain-of-Thought2025년 10월 20일댓글 수 로딩 중
[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image Generation본 논문은 BLIP3o-NEXT 라는 오픈소스 기반 모델을 제안하여 차세대 이미지 생성의 발전을 목표로 합니다. 단일 아키텍처 내에서 텍스트-투-이미지 생성 과 이미지 편집 기능을 통합하고, 강력한 이미지 생성 및 편집 능력을 시연하는 것을 주된 목표로 합니다.#Review#Image Generation#Image Editing#Autoregressive Model#Diffusion Model#Reinforcement Learning#Multimodal AI#Foundation Model#Open-source2025년 10월 20일댓글 수 로딩 중
[논문리뷰] A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning이 논문은 추론 중심 LLM(도구 사용 불가)과 에이전트 중심 LLM(추론 능력 부족) 간의 근본적인 격차를 해결하고자 합니다.#Review#Adaptive Agent#Foundation Model#Hybrid Reasoning#Tool-Aware LLM#Mode Selection#Reinforcement Learning#Cost Efficiency#LLM Agent2025년 10월 20일댓글 수 로딩 중
[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.#Review#Vision-Language-Action Models#Reinforcement Learning#World Models#Fine-tuning#Embodied AI#Robotics#Reward Design#Distribution Shift2025년 10월 2일댓글 수 로딩 중
[논문리뷰] PIPer: On-Device Environment Setup via Online Reinforcement Learning소프트웨어 엔지니어링(SE)에서 환경 설정(environment setup)은 지속적인 과제로 남아 있으며, 기존 대규모 언어 모델(LLM)조차 이를 자동화하는 데 제한적인 성공을 보였습니다. 본 연구는 특히 온디바이스에서 실행 가능한 소형 오픈소스 LLM의 환경 설정 역량을 향상시키는 것을 목표로 합니다.#Review#Environment Setup#LLMs#Reinforcement Learning#Supervised Fine-tuning#On-device AI#Software Engineering#Verifiable Rewards2025년 10월 2일댓글 수 로딩 중
[논문리뷰] On Predictability of Reinforcement Learning Dynamics for Large Language Models본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 훈련 과정에서 발생하는 파라미터 업데이트 동역학 에 대한 이해 부족을 해결하고자 합니다. RL이 LLM의 추론 능력 향상에 어떻게 기여하는지 명확히 밝히고, 이 파라미터 업데이트가 따르는 일관된 패턴을 식별하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Parameter Dynamics#Rank-1 Dominance#Linear Dynamics#SVD#Model Acceleration#Predictability2025년 10월 2일댓글 수 로딩 중
[논문리뷰] GEM: A Gym for Agentic LLMs대규모 언어 모델(LLM) 학습 패러다임이 정적 데이터셋에서 경험 기반 학습으로 전환됨에 따라, 에이전트가 복잡한 환경과 상호작용하며 기술을 습득할 수 있도록 돕는 것을 목표로 합니다.#Review#Agentic LLMs#Reinforcement Learning#Environment Simulator#Multi-turn Interactions#Return Batch Normalization#Tool Integration#Benchmarking2025년 10월 2일댓글 수 로딩 중
[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.#Review#Curriculum Learning#LLMs#Reasoning#Gradient Optimization#Reinforcement Learning#Bayesian Inference#Sample Efficiency2025년 10월 2일댓글 수 로딩 중
[논문리뷰] BroRL: Scaling Reinforcement Learning via Broadened Exploration이 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 향상시키기 위한 Verifiable Rewards (RLVR) 기반 강화 학습(RL)의 스케일링 한계를 극복하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLMs#Scaling Laws#Exploration#Rollout Size#Verifiable Rewards#PPO#Mass Balance Equation2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-PlayVision-Language Models (VLMs)의 훈련이 고비용의 수동 주석 데이터셋 에 과도하게 의존하여 확장성과 모델의 능력 발전을 제약하는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language Models (VLMs)#Self-Play#Reinforcement Learning#Gamification#Data Efficiency#Strategic Reasoning#Multimodal AI#Self-Improvement2025년 10월 1일댓글 수 로딩 중
[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning대규모 언어 모델(LLM)의 고질적인 문제인 환각(Hallucination) 을 줄이고 진실성(Truthfulness) 을 높이는 것을 목표로 합니다.#Review#LLM Hallucination#Truthfulness#Reinforcement Learning#Ternary Reward#Abstention#Knowledge Boundary#GRPO#RLHF2025년 10월 1일댓글 수 로딩 중
[논문리뷰] More Thought, Less Accuracy? On the Dual Nature of Reasoning in Vision-Language Models이 논문은 Vision-Language Models (VLMs)의 추론이 논리적 추론을 강화하지만, 기본적인 시각적 질문에서 인식 기반(perceptual grounding)을 손상시켜 인식 실패를 초래하는 이중적인 특성을 탐구합니다.#Review#Vision-Language Models#Multimodal Reasoning#Reasoning#Visual Forgetting#Perceptual Grounding#Reinforcement Learning#Policy Optimization#Visual Anchors2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Mem-α: Learning Memory Construction via Reinforcement Learning대규모 언어 모델(LLM) 에이전트의 제한된 컨텍스트 윈도우 문제를 해결하기 위해, 기존의 외부 메모리 시스템이 사전에 정의된 규칙에만 의존하여 메모리 구축이 최적화되지 못하는 한계를 극복하는 것이 목표입니다.#Review#LLM Agents#External Memory#Reinforcement Learning#Memory Management#Long-Context Understanding#Tool Learning#RAG#Memory Architecture2025년 10월 1일댓글 수 로딩 중
[논문리뷰] InfoAgent: Advancing Autonomous Information-Seeking Agents본 논문은 장기적인 정보 탐색 및 심층 추론 능력을 갖춘 대규모 언어 모델(LLM) 에이전트 를 구축하는 데 있어 데이터 합성 및 효율적인 인터랙티브 환경 구축의 병목 현상을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Information Seeking#Reinforcement Learning#Data Synthesis#Web Search Tools#Tool Use#Deep Research Agents2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Humanline: Online Alignment as Perceptual Loss본 논문은 온라인 정렬(예: GRPO )이 오프라인 정렬(예: DPO )보다 성능이 뛰어난 이유를 행동 경제학의 전망 이론(prospect theory) 에 기반한 인간 중심적 관점에서 설명하고자 합니다.#Review#LLM Alignment#Online RLHF#Offline RLHF#Prospect Theory#Perceptual Loss#Human-Centric AI#Reinforcement Learning2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents본 논문은 낮은 지연 시간, 강력한 프라이버시 보장 및 제한된 연결성 환경에서 견고한 동작을 요구하는 온디바이스 GUI 에이전트 개발의 과제를 해결하고자 합니다.#Review#GUI Agents#On-Device AI#Multimodal LLM#GUI Grounding#GUI Navigation#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective이 논문은 대규모 언어 모델(LLM)의 계획 능력 향상을 위한 강화 학습(RL) 방법론 의 이점과 한계를 이론적으로 분석하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Planning#Policy Gradient#Q-learning#Supervised Fine-Tuning#Diversity Collapse#Reward Hacking2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models본 논문은 LLM의 추론 능력 강화를 위한 기존 Process-Supervised Reinforcement Learning (PSRL) 방법론의 제한된 탐색 효율성 문제를 해결하고자 합니다. 특히, 분기 위치 선정 및 샘플링 비효율성을 개선하고, 전반적인 훈련 효율성을 높이는 것을 목표로 합니다.#Review#Reinforcement Learning#Process-Supervised RL#Large Language Models#Reasoning Models#Attention Mechanism#Efficient Exploration#Adaptive Sampling#Off-Policy Training2025년 10월 1일댓글 수 로딩 중