#Curriculum Learning

68개의 포스트

[논문리뷰] Transferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR

본 논문은 Multi-domain RLVR에서 도메인별 학습 효율과 일반화 성능이 불균일하다는 문제에 주목합니다 [Figure 1(a)].

#Review #Multi-domain RL #RLVR #Curriculum Learning #Gradient-based Transferability #LLM Reasoning #Bandit Algorithm

2026년 7월 2일

[논문리뷰] GUICrafter: Weakly-Supervised GUI Agent Leveraging Massive Unannotated Screenshots

본 논문은 GUI agent 학습 시 발생하는 데이터 확보의 고비용 문제와 이로 인한 성능 저하를 해결하기 위해 제안되었습니다.

#Review #GUI Agent #Weakly-Supervised Learning #Reinforcement Learning #Visual Grounding #Curriculum Learning #Data Efficiency

2026년 6월 29일

[논문리뷰] Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning

본 논문은 LLM pre-training의 데이터 혼합 전략이 단일 최적화 관점에만 치중되어, 복잡하고 동적인 학습 과정을 충분히 반영하지 못하는 문제를 해결합니다.

#Review #Large Language Models #Deep Reinforcement Learning #Online Data Mixing #Reward Shaping #Multi-Objective Optimization #Curriculum Learning #Training Efficiency

2026년 6월 23일

[논문리뷰] Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching

본 논문은 MLLM이 물리적 환경에서 복잡한 공간 추론을 수행하기 위해 필수적인 Wide-Baseline Matching 능력을 체계적으로 학습하고 평가할 프레임워크가 부족하다는 점을 문제로 지적합니다.

#Review #Multimodal Large Language Models #Spatial Reasoning #Wide-Baseline Matching #Reinforcement Learning #Curriculum Learning #Vision-Language Benchmarks

2026년 6월 3일

[논문리뷰] TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL

본 연구는 시각적 추론(visual reasoning)을 위한 RL 학습 시, 정적 데이터셋(static datasets)이 가진 한계를 극복하기 위해 수행되었습니다.

#Review #Reinforcement Learning #Visual Reasoning #Online Environment #Multimodal Large Language Models #Rule-Verifiable #Curriculum Learning

2026년 6월 2일

[논문리뷰] Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders

본 논문은 LLM post-training에서 데이터 엔지니어링이 모델 성능 향상의 핵심임에도 불구하고, 기존 방식들은 주로 외부 피드백(인간 선호도, 보상 모델, rollout 결과 등)에 의존하여 비용이 높고 효율성이 제한적이라는 문제에서 출발한다.

#Review #Sparse Autoencoder #LLM Post-training #Reinforcement Learning #Data Engineering #Mechanistic Interpretability #Curriculum Learning #Data Selection

2026년 5월 27일

[논문리뷰] Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

본 논문은 multilingual ASR 모델인 Whisper를 저자원(Low-resource) 언어로 fine-tuning 할 때 발생하는 성능 불균형 문제를 해결하는 데 집중한다.

#Review #Speech Recognition #Curriculum Learning #Indic Languages #Fine-tuning #Whisper #Studio-bias #Robustness

2026년 5월 13일

[논문리뷰] LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

본 논문은 L1(수치 읽기), L2(패턴 인식), L3(의미론적 추론) 단계로 구성된 계층적 교육 과정을 통해 LLaTiSA를 학습시킨다. 제안 모델인 LLaTiSA는 시계열 시각화 그래프와 정밀한 인덱스-값 테이블을 동시에 입력받는 이중 뷰(dual-view) 프레임워크를 채택하여, 시각적 직관과 수치적 정확성을 동시에 확보한다 .

#Review #Time Series Reasoning #Large Language Models #Vision-Language Models #Chain-of-Thought #Curriculum Learning #Data Taxonomy

2026년 4월 23일

[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning

본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Tool-supervised RL #Visual Reasoning #Curriculum Learning #ToolsRL

2026년 4월 22일

[논문리뷰] AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning

본 논문은 RL 기반의 AgentGL 프레임워크를 제안하여 그래프 학습을 에이전트 의사결정 프로세스로 최적화한다. AgentGL은 그래프 기반 검색 도구들을 활용하여 다중 스케일 탐색을 수행하고, search-constrained thinking 메커니즘을 도입하여 불필요한 도구 호출을 줄이고 추론 정확도를 높인다.

#Review #Agentic Graph Learning #Reinforcement Learning #Large Language Models #Graph-Native Search #Curriculum Learning

2026년 4월 8일

[논문리뷰] PLUME: Latent Reasoning Based Universal Multimodal Embedding

본 논문은 기존의 UME 파이프라인이 가진 효율성과 추론 능력 사이의 trade-off 문제를 해결하고자 합니다. 기존의 Explicit CoT UME 기법들은 중간 추론을 위해 수백 개의 토큰을 생성해야 하므로 높은 inference latency와 비용을 유발하며, 이는 실제 서비스 환경에 적합하지 않습니다.

#Review #Universal Multimodal Embedding #Latent Reasoning #Multimodal Large Language Models #Chain-of-Thought #Semantic-Anchor-Guided #Curriculum Learning

2026년 4월 6일

[논문리뷰] Adam's Law: Textual Frequency Law on Large Language Models

본 논문은 Large Language Models(LLMs) 학습 및 추론 시 어떠한 형태의 데이터가 모델 성능에 최적화되는지에 대한 근본적인 의문을 제기하며, 데이터의 '텍스트 빈도'라는 미개척 분야를 탐구한다.

#Review #Large Language Models #Textual Frequency Law #Paraphrasing #Curriculum Learning #Frequency Distillation

2026년 4월 6일

[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.

#Review #Document OCR #Diffusion Models #Inverse Rendering #Parallel Decoding #Block-Attention #Curriculum Learning #Vision-Language Models

2026년 3월 24일

[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Large language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.

#Review #LLM Agents #Subgoals #Reinforcement Learning #Web Navigation #Long-Horizon Planning #Reward Shaping #Curriculum Learning

2026년 3월 22일

[논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models

본 논문은 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하도록 훈련할 때, 기존 SFT(Supervised Fine-Tuning) 기반 파이프라인의 높은 레이블링 데이터 비용 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Tool Use #In-Context Learning #Few-Shot Learning #SFT-free #Data Efficiency #Curriculum Learning

2026년 3월 11일

[논문리뷰] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning

논문은 LLM이 장기 작업을 수행할 때 직면하는 효율적인 장기 메모리 유지 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 검색 방법들이 비용과 정확도 사이의 상충 관계를 겪고, 대규모 LLM이 모든 메모리를 처리하는 데 계산 비용이 높고 느리다 는 한계를 극복하고자 합니다.

#Review #LLM Memory Retrieval #Proxy Model #Reinforcement Learning #Outcome-Driven Rewards #Long-Term Memory #Curriculum Learning #Model Merging #Inference-Time Scaling

2026년 3월 4일

[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

자연어 명령 기반 비디오 편집의 시각적 제어 한계를 극복하고, 레퍼런스 이미지 가이드 편집의 고품질 훈련 데이터 부족 문제 를 해결하는 것을 목표로 합니다. 복잡한 시각적 뉘앙스를 정확하게 제어하고 사용자의 편집 의도를 시각적 예시를 통해 효과적으로 반영하는 다재다능한 비디오 편집 프레임워크 를 구축하고자 합니다.

#Review #Video Editing #Instruction Guidance #Reference Guidance #Diffusion Models #MLLM #Dataset Generation #RefVIE #Curriculum Learning

2026년 3월 3일

[논문리뷰] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

본 논문은 기존의 인간 감독 및 데이터셋 구축에 의존하는 LLM 도구 학습 의 확장성 문제를 해결하고자 합니다. 사전 데이터 없이 약한 LLM이 스스로 도구 사용 능력을 학습하여 범용 도구 호출 에이전트 로 발전할 수 있는 자기 진화 프레임워크 Tool-R0 을 제안합니다.

#Review #Large Language Models (LLMs)#Self-Play Reinforcement Learning (RL)#Tool-Learning #Zero-Data Learning #LLM Agents #Curriculum Learning #Reward Shaping #Co-evolution

2026년 3월 2일

[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

본 논문은 균일 상태 이산 확산 모델(Uniform-State Discrete Diffusion Models, USDMs) 의 샘플링 품질이 스텝 수 증가 시 정체되는 문제점을 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Ψ-Samplers #Predictor-Corrector #Language Modeling #Image Generation #Curriculum Learning #Efficient Training

2026년 2월 24일

[논문리뷰] Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

본 논문은 Group Relative Policy Optimization (GRPO) 가 탐색 및 난이도 적응에서 겪는 어려움의 근본 원인을 규명하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Group Relative Policy Optimization #Advantage Estimation #Exploration-Exploitation #Curriculum Learning #Multi-modal LLMs

2026년 2월 12일

[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

RLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Prompt Engineering #Compositional Generalization #Verifiable Rewards #Curriculum Learning #Mathematical Reasoning #Multi-task Learning

2026년 2월 12일

[논문리뷰] P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

본 논문은 기존 텍스트 기반 모델의 한계를 극복하고, 시각적 정보와 과학적 추론을 통합하여 물리 올림피아드 수준의 복잡한 문제 를 해결할 수 있는 개방형 Vision-Language Model (VLM) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Curriculum Learning #Physics Olympiads #Scientific Reasoning #Agentic AI #Multimodal AI #Physics

2026년 2월 10일

[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger

이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.

#Review #Weak-Driven Learning #LLM Optimization #Post-training #Gradient Amplification #Curriculum Learning #Knowledge Distillation #Mathematical Reasoning #Code Generation

2026년 2월 9일

[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

기존 MLLM 기반 검색 시스템이 정적 시각 인코딩에 의존하고 시각적 증거를 능동적으로 검증하지 못해 시각적으로 모호한 경우 추론 오류가 발생하는 문제를 해결하고자 합니다. 시각적 검사에 기반한 증거 기반 에이전트 추론 프로세스 를 통해 범용 멀티모달 검색의 정확성과 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Retrieval #Agentic AI #Large Language Models (LLMs)#Visual Tools #Chain-of-Thought (CoT)#Reinforcement Learning #Curriculum Learning #Evidence-Driven Reasoning

2026년 2월 5일

[논문리뷰] TTCS: Test-Time Curriculum Synthesis for Self-Evolving

TTCS는 대규모 언어 모델(LLM)이 테스트 질문만 사용하여 추론 능력을 향상시키는 기존 Test-Time Training(TTT) 방법론의 한계를 극복하고자 합니다.

#Review #Test-Time Training #Self-Evolving LLMs #Curriculum Learning #Reinforcement Learning #Question Synthesis #Mathematical Reasoning #GRPO

2026년 2월 1일

[논문리뷰] Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

본 논문은 초기 성공률이 낮아 훈련 신호가 희박한 어려운 추론 문제 에 대해 대규모 언어 모델(LLM) 이 학습 정체기에서 벗어나도록 돕는 것을 목표로 합니다.

#Review #Meta-RL #Curriculum Learning #Self-Play #LLM Reasoning #Sparse Rewards #Question Generation #Bilevel Optimization

2026년 1월 26일

[논문리뷰] Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

본 논문은 터키어 법률 도메인에 특화된 언어 모델인 Mecellem 모델을 개발하여, 비영어권 및 전문 도메인(특히 터키어 법률)에서 대규모 언어 모델의 성능 저하 문제를 해결하는 것을 목표로 합니다. 이를 위해, 스크래치 학습된 인코더 모델과 지속적 사전 훈련(CPT)된 디코더 모델 두 가지 접근 방식을 제시합니다.

#Review #Turkish Legal NLP #Domain Adaptation #ModernBERT #Continual Pre-training (CPT)#Embedding Models #Legal LLMs #Retrieval-Augmented Generation (RAG)#Curriculum Learning

2026년 1월 25일

[논문리뷰] Solar Open Technical Report

Solar Open 논문은 기존 LLM 생태계에서 영어와 중국어 외의 언어들 , 특히 한국어와 같은 데이터 부족 언어 가 겪는 모델 개발의 어려움을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Mixture-of-Experts #Korean LLM #Synthetic Data Generation #Curriculum Learning #Reinforcement Learning #Tokenizer Optimization #Multilingual AI

2026년 1월 13일

[논문리뷰] SmartSearch: Process Reward-Guided Query Refinement for Search Agents

대규모 언어 모델(LLM) 기반 검색 에이전트의 중간 검색 쿼리 품질이 낮아 예기치 않은 검색 결과와 전체 성능 저하로 이어지는 문제를 해결하는 것입니다.

#Review #Search Agent #Information Retrieval #Large Language Models #Process Reward #Query Refinement #Reinforcement Learning #Curriculum Learning

2026년 1월 11일

[논문리뷰] RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes

본 논문은 저조도 야간 환경에서 자동 화이트 밸런스(AWB) 보정의 신뢰성 및 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #Auto White Balance (AWB)#Deep Reinforcement Learning (DRL)#Low-Light Imaging #Night-time Scenes #Color Constancy #Cross-Sensor Generalization #Statistical Methods #Curriculum Learning

2026년 1월 8일

[논문리뷰] SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving

본 논문은 소프트웨어 엔지니어링(SWE) 문제 해결 분야에서 SFT (Supervised Fine-tuning) 전용 경량 접근 방식 의 한계를 확장하여 최첨단 성능을 달성하는 것을 목표로 합니다. 복잡한 훈련 패러다임(예: 중간 훈련, 강화 학습) 없이도 SFT만으로 높은 성능을 낼 수 있음을 보여주고자 합니다.

#Review #Software Engineering #Issue Resolution #Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Hybrid Dataset #Error Masking #Curriculum Learning #Test-Time Scaling (TTS)#Generative Verifiers

2026년 1월 5일

[논문리뷰] Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

본 논문은 경량 LLM이 높은 계산 효율성 을 유지하면서도 내재적인 에이전트 지능을 갖출 수 있도록 하는 것을 목표로 합니다. 특히, 기존의 증류(distillation) 방식이 아닌, sub-2B 규모 의 모델이 처음부터 추론 및 계획 능력 을 체계적으로 학습하도록 하는 데 중점을 둡니다.

#Review #Lightweight LLM #Agentic AI #Pre-training #Multi-Latent Attention #Long-Context #Curriculum Learning #Agentic Mid-training #Instruction Tuning

2025년 12월 31일

[논문리뷰] GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

본 논문은 대규모 언어 모델(LLM) 에이전트 훈련의 주요 병목인 높은 비용과 실세계 상호작용 데이터의 정적인 특성을 해결하고자 합니다.

#Review #LLM Agents #Environment Simulation #Co-evolution #Curriculum Learning #Data Efficiency #Reinforcement Learning #Adaptive Simulation #Difficulty Alignment

2025년 12월 22일

[논문리뷰] Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

이 논문은 대규모 언어 모델(LLM) 에이전트가 국제 수학 올림피아드(IMO) 수준의 기하학 문제 를 해결하는 데 있어 기존 전문가 시스템의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Agents #Geometry Problem Solving #Reinforcement Learning #Curriculum Learning #Auxiliary Construction #Symbolic Reasoning #IMO

2025년 12월 11일

[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning

본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Reinforcement Learning #Self-Evolving Learning #Data-Scarce Domains #Context-First Learning #Reward Hacking Mitigation #Multimodal Reasoning #Curriculum Learning

2025년 12월 8일

[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks

본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Curriculum Learning #Advantage Function #Reasoning Tasks #Multimodal AI #Policy Optimization #Generalization

2025년 12월 7일

[논문리뷰] Guided Self-Evolving LLMs with Minimal Human Supervision

본 논문은 기존의 자율 진화(self-evolving) 언어 모델(LLM)이 겪는 불안정성, 성능 정체, 개념 표류(concept drift) 및 다양성 붕괴(diversity collapse) 문제를 해결하고자 합니다.

#Review #Self-Evolving LLMs #Self-Play #Reinforcement Learning #Curriculum Learning #Few-shot Learning #Human Supervision #Concept Drift #Diversity Collapse

2025년 12월 2일

[논문리뷰] HI-TransPA: Hearing Impairments Translation Personal Assistant

본 논문은 청각 장애인이 일상적인 의사소통에서 겪는 어려움, 특히 불분명한 발화로 인한 문제를 해결하고자 합니다.

#Review #Multimodal AI #Hearing Impairment #Audio-Visual Speech Recognition #Curriculum Learning #Omni-Models #Assistive Technology #Lip Reading #Speech Translation

2025년 11월 16일

[논문리뷰] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

본 연구는 기존의 사전 훈련된 비반복(non-recurrent) 언어 모델 을 효율적으로 깊이-반복(depth-recurrent) 모델 로 변환하여, 훈련 및 추론 시 연산 비용을 최적화하면서 수학과 같은 추론 태스크에서 성능을 향상시키는 것을 목표로 합니다.

#Review #Recurrent Language Models #Pretrained Models #Model Surgery #Curriculum Learning #Test-Time Compute Scaling #Mathematics Reasoning #Efficient Training #Depth Recurrence

2025년 11월 10일

[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments

언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Language Models #Adaptive Environments #Verifiable Environments #Procedural Generation #Curriculum Learning #Generalization

2025년 11월 10일

[논문리뷰] Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning

본 논문은 대규모 언어 모델(LLMs)이 대화에서 명시적(explicit) 및 암묵적(implicit) 감정을 효과적으로 인식할 수 있는지 탐구하고, 이 분야의 현재 한계점을 극복하는 것을 목표로 합니다. 특히, LLM의 감정 이해 능력을 향상시켜 인간-컴퓨터 상호작용의 자연성과 공감 능력을 증진하고자 합니다.

#Review #Emotion Recognition in Conversation #Large Language Models #Prompt Engineering #Demonstration Retrieval #Curriculum Learning #Fine-tuning #Affective Computing #SOTA

2025년 11월 10일

[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.

#Review #Reinforcement Learning with Verifiable Reward #Competitive Programming #Code Generation #Data Curation #Curriculum Learning #Supervised Fine-tuning #Entropy Expansion

2025년 11월 10일

[논문리뷰] V-Thinker: Interactive Thinking with Images

본 논문은 대규모 멀티모달 모델(LMM)이 긴 추론 과정에서 시각적 정보로부터 벗어나 환각을 일으키는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models #Interactive Reasoning #Vision-Centric Thinking #Reinforcement Learning #Data Synthesis #Visual Tools #Curriculum Learning #Multimodal AI

2025년 11월 9일

[논문리뷰] Scaling Agent Learning via Experience Synthesis

대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 훈련이 직면한 높은 비용, 제한된 태스크 다양성, 불안정한 보상 신호, 복잡한 인프라와 같은 문제들을 해결하는 것을 목표로 합니다. 현실 환경 상호작용의 필요성을 줄이면서도 효과적이고 확장 가능한 RL 훈련을 가능하게 하는 통합 프레임워크를 제안합니다.

#Review #Reinforcement Learning #LLM Agents #Experience Synthesis #World Models #Curriculum Learning #Sim-to-Real Transfer #Web Agents

2025년 11월 9일

[논문리뷰] VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models

본 논문은 동적 비디오에서 복잡하고 진화하는 감정 상태를 합리적인 근거와 함께 이해하고 예측하는 데 초점을 맞춥니다. 기존 VideoLLM 의 한계인 복합적인 감정 이해 및 설명 능력 부족을 극복하기 위해, 감정 중심의 비디오 기반 파운데이션 모델인 VidEmo 를 제안합니다.

#Review #VideoLLMs #Emotion Understanding #Affective-Tree Reasoning #Curriculum Learning #Reinforcement Learning #Fine-Grained Emotion #Attribute Perception #Expression Analysis

2025년 11월 9일

[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.

#Review #Video Retrieval #Multimodal Embedding #Data Synthesis #Curriculum Learning #Zero-shot Generalization #Benchmark Design #MLLM #Video-Text Retrieval

2025년 11월 9일

[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner

논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.

#Review #Open-Ended Learning #Self-Play #Reinforcement Learning #Large Language Models #Mathematical Reasoning #Problem Generation #Curriculum Learning #Reward Shaping

2025년 11월 9일

[논문리뷰] LongCat-Flash-Omni Technical Report

LongCat-Flash-Omni는 560B 파라미터 규모의 최첨단 오픈소스 옴니모달 모델로, 견고한 오프라인 멀티모달 이해와 저지연 실시간 오디오-시각 상호작용 을 통합하는 것을 목표로 합니다.

#Review #Omni-modal AI #Multimodal LLM #Real-time Interaction #Mixture-of-Experts (MoE)#Streaming Inference #Distributed Training #Curriculum Learning #Audio-Visual Perception

2025년 11월 9일

[논문리뷰] Data-Efficient RLVR via Off-Policy Influence Guidance

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 Verifiable Rewards를 사용한 강화 학습(RLVR) 에서 데이터 선택의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions #Data Selection #Off-Policy Learning #Curriculum Learning #Large Language Models (LLMs)#Sparse Random Projection #Data Efficiency

2025년 11월 9일

[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

본 논문의 핵심 목표는 장기적인(long-horizon), 희소한 보상(sparsely-rewarded)을 가진 LLM 에이전트 태스크에서 강화 학습(RL)의 근본적인 문제인 탐색-활용 트레이드오프(exploration-exploitation trade-off) 를 효과적으로 관리하는 것입니다.

#Review #Reinforcement Learning #LLM Agents #Exploration-Exploitation #Self-Imitation Learning #Intrinsic Rewards #Curriculum Learning #Policy Entropy #Tool Use

2025년 9월 29일

[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.

#Review #Reinforcement Learning #Curriculum Learning #Large Language Models #Mathematical Reasoning #Variance-based Sampling #Replay Learning #Policy Optimization

2025년 9월 26일

[논문리뷰] Improving Context Fidelity via Native Retrieval-Augmented Reasoning

논문은 대규모 언어 모델(LLMs)이 제공된 컨텍스트에 대한 충실도(context fidelity)를 유지하지 못하고, 질문에 대한 답변 생성 시 일관성 없는 결과를 내거나 환각(hallucination)을 일으키는 문제를 해결하고자 합니다.

#Review #Context Fidelity #Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Hallucination #Question Answering #In-context Retrieval #Curriculum Learning

2025년 9월 18일

[논문리뷰] We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

복잡한 시각 수학적 추론에서 Multimodal Large Language Models (MLLMs) 의 한계를 극복하는 것을 목표로 합니다.

#Review #Visual Mathematical Reasoning #MLLMs #Knowledge System #Reinforcement Learning #Curriculum Learning #Dataset Construction #Mathematical Benchmark

2025년 8월 15일

[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning

대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.

#Review #Curriculum Learning #Reinforcement Learning #Large Language Models #Reasoning Efficiency #Token Budget Control #Group Relative Policy Optimization #Chain-of-Thought

2025년 8월 13일

[논문리뷰] Aryabhata: An exam-focused language model for JEE Math

본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.

#Review #Language Model #Math Reasoning #JEE #Supervised Fine-Tuning #Reinforcement Learning #Model Merging #Chain-of-Thought #Curriculum Learning

2025년 8월 13일

[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data

본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.

#Review #Self-Evolving LLM #Reinforcement Learning #Curriculum Learning #Reasoning #Large Language Models #Self-Play #Zero-Data Training

2025년 8월 8일

[논문리뷰] SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 인간 주석 데이터에 크게 의존하고 새로운 또는 전문화된 소프트웨어 환경에서 어려움을 겪는 문제를 해결합니다. 인간의 개입 없이 에이전트가 낯선 소프트웨어 환경을 자율적으로 탐색하고 경험을 통해 학습하며 진화하여 전문가 수준의 역량을 확보하는 것을 목표로 합니다.

#Review #Computer Use Agent #Self-Evolving #Reinforcement Learning #Curriculum Learning #Vision-Language Models #Experiential Learning #Specialist-to-Generalist

2025년 8월 7일

[논문리뷰] IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

본 논문은 LLM의 지시 따르기 능력을 향상시키는 Verifiable Rewards 기반 강화 학습(RLVR) 이 겪는 두 가지 주요 문제점을 해결하고자 합니다. 첫째, 훈련 비효율성(불충분한 난이도 평가)과 둘째, LLM이 검증 단축키를 악용하여 실제 의도를 무시하는 과최적화(reward hacking) 문제입니다.

#Review #Instruction Following #Reinforcement Learning #Reward Hacking #LLMs #Curriculum Learning #Data Flywheel #Verifiable Rewards

2025년 8월 7일

[논문리뷰] Qwen-Image Technical Report

본 논문은 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 분야에서 기존 텍스트-이미지(T2I) 모델의 한계를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Text-to-Image #Image Editing #Text Rendering #Multimodal Diffusion Transformer #Curriculum Learning #Reinforcement Learning #Foundation Model

2025년 8월 5일

[논문리뷰] Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following

본 논문은 추론 모델에서 나타나는 추론 능력과 지시 따르기 능력 간의 트레이드오프 문제 를 해결하고자 합니다.

#Review #Self-Supervised RL #Instruction Following #Reasoning Models #Large Language Models #Reward Modeling #Curriculum Learning

2025년 8월 5일

[논문리뷰] CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs

본 연구는 소규모 언어 모델(BabyLMs)이 명령어 튜닝(Instruction Tuning)을 통해 성능 향상을 얻을 수 있는지 탐구합니다.

#Review #Instruction Tuning #BabyLMs #Small-scale LMs #Curriculum Learning #Conversational AI #Question Answering #Zero-shot Evaluation #SuperGLUE

2025년 10월 31일

[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision

본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.

#Review #LLM Agents #Self-play #Reinforcement Learning #Search Agents #Supervision-Free Training #Retrieval-Augmented Generation (RAG)#Task Generation #Curriculum Learning

2025년 10월 24일

[논문리뷰] AlphaFlow: Understanding and Improving MeanFlow Models

본 논문은 MeanFlow 모델의 성공 원리를 심층적으로 분석하고, MeanFlow 훈련 목표 내에 존재하는 trajectory flow matching 및 trajectory consistency 두 구성 요소 간의 음의 상관관계 로 인한 최적화 충돌 및 수렴 지연 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Models #Flow Matching #Consistency Models #MeanFlow #Curriculum Learning #Few-Step Generation #Image Generation

2025년 10월 24일

[논문리뷰] ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

기존 CLIP 텍스트 인코더의 77토큰 길이 제한 , 영어 전용 지원, 미흡한 세분화된 의미 이해 능력이라는 한계를 해결하는 것이 목표입니다.

#Review #Vision-Language Models #CLIP #LLM-based Embedder #Knowledge Distillation #Contrastive Learning #Curriculum Learning #Multimodal Alignment #Progressive Alignment

2025년 10월 22일

[논문리뷰] DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

본 논문은 원시 데이터부터 분석가 수준의 심층 연구 보고서에 이르는 완전히 자율적인 데이터 과학 을 달성하는 것을 목표로 합니다. 기존 워크플로우 기반 데이터 에이전트들이 사전 정의된 워크플로우에 의존하여 복잡한 데이터 과학 태스크와 다양한 정형 데이터 처리에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Autonomous Data Science #Agentic LLM #Curriculum Learning #Reinforcement Learning #Data Agents #End-to-end Data Science

2025년 10월 21일

[논문리뷰] Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery

본 논문은 대규모의 탐색 가능하며 기하학적으로 정확한 3D 도시 장면을 합성하는 문제를 해결하는 데 중점을 둡니다. 특히, 제한된 위성 이미지 시차로 인한 불완전한 기하학과 부정확한 텍스처, 그리고 3D/거리 수준 훈련 데이터 부족으로 인해 발생하는 기존 방법론의 한계를 극복하고자 합니다.

#Review #3D Scene Synthesis #Gaussian Splatting #Satellite Imagery #Diffusion Models #Urban Modeling #Novel View Synthesis #Curriculum Learning #Real-time Rendering

2025년 10월 20일

[논문리뷰] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset

지시 기반 비디오 편집의 발전을 저해하는 대규모 고품질 학습 데이터의 부족 문제 를 해결하는 것이 목표입니다. 기존 데이터 생성 파이프라인의 제한된 확장성, 낮은 품질, 일관성 부족 등의 한계를 극복하고, 다양한 편집 작업에 대한 정확하고 일관된 편집 능력을 갖춘 모델 훈련을 위한 데이터셋과 방법론을 제시합니다.

#Review #Video Editing #Instruction-Based Editing #Synthetic Data Generation #Dataset #Curriculum Learning #Diffusion Models #Vision-Language Models

2025년 10월 20일

[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.

#Review #Curriculum Learning #LLMs #Reasoning #Gradient Optimization #Reinforcement Learning #Bayesian Inference #Sample Efficiency

2025년 10월 2일