[논문리뷰] Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders본 논문은 LLM post-training에서 데이터 엔지니어링이 모델 성능 향상의 핵심임에도 불구하고, 기존 방식들은 주로 외부 피드백(인간 선호도, 보상 모델, rollout 결과 등)에 의존하여 비용이 높고 효율성이 제한적이라는 문제에서 출발한다.#Review#Sparse Autoencoder#LLM Post-training#Reinforcement Learning#Data Engineering#Mechanistic Interpretability#Curriculum Learning#Data Selection2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition본 논문은 multilingual ASR 모델인 Whisper를 저자원(Low-resource) 언어로 fine-tuning 할 때 발생하는 성능 불균형 문제를 해결하는 데 집중한다.#Review#Speech Recognition#Curriculum Learning#Indic Languages#Fine-tuning#Whisper#Studio-bias#Robustness2026년 5월 13일댓글 수 로딩 중
[논문리뷰] LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics본 논문은 L1(수치 읽기), L2(패턴 인식), L3(의미론적 추론) 단계로 구성된 계층적 교육 과정을 통해 LLaTiSA를 학습시킨다. 제안 모델인 LLaTiSA는 시계열 시각화 그래프와 정밀한 인덱스-값 테이블을 동시에 입력받는 이중 뷰(dual-view) 프레임워크를 채택하여, 시각적 직관과 수치적 정확성을 동시에 확보한다 .#Review#Time Series Reasoning#Large Language Models#Vision-Language Models#Chain-of-Thought#Curriculum Learning#Data Taxonomy2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Tool-supervised RL#Visual Reasoning#Curriculum Learning#ToolsRL2026년 4월 22일댓글 수 로딩 중
[논문리뷰] AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning본 논문은 RL 기반의 AgentGL 프레임워크를 제안하여 그래프 학습을 에이전트 의사결정 프로세스로 최적화한다. AgentGL은 그래프 기반 검색 도구들을 활용하여 다중 스케일 탐색을 수행하고, search-constrained thinking 메커니즘을 도입하여 불필요한 도구 호출을 줄이고 추론 정확도를 높인다.#Review#Agentic Graph Learning#Reinforcement Learning#Large Language Models#Graph-Native Search#Curriculum Learning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] PLUME: Latent Reasoning Based Universal Multimodal Embedding본 논문은 기존의 UME 파이프라인이 가진 효율성과 추론 능력 사이의 trade-off 문제를 해결하고자 합니다. 기존의 Explicit CoT UME 기법들은 중간 추론을 위해 수백 개의 토큰을 생성해야 하므로 높은 inference latency와 비용을 유발하며, 이는 실제 서비스 환경에 적합하지 않습니다.#Review#Universal Multimodal Embedding#Latent Reasoning#Multimodal Large Language Models#Chain-of-Thought#Semantic-Anchor-Guided#Curriculum Learning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Adam's Law: Textual Frequency Law on Large Language Models본 논문은 Large Language Models(LLMs) 학습 및 추론 시 어떠한 형태의 데이터가 모델 성능에 최적화되는지에 대한 근본적인 의문을 제기하며, 데이터의 '텍스트 빈도'라는 미개척 분야를 탐구한다.#Review#Large Language Models#Textual Frequency Law#Paraphrasing#Curriculum Learning#Frequency Distillation2026년 4월 6일댓글 수 로딩 중
[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.#Review#Document OCR#Diffusion Models#Inverse Rendering#Parallel Decoding#Block-Attention#Curriculum Learning#Vision-Language Models2026년 3월 24일댓글 수 로딩 중
[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM AgentsLarge language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.#Review#LLM Agents#Subgoals#Reinforcement Learning#Web Navigation#Long-Horizon Planning#Reward Shaping#Curriculum Learning2026년 3월 22일댓글 수 로딩 중
[논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models본 논문은 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하도록 훈련할 때, 기존 SFT(Supervised Fine-Tuning) 기반 파이프라인의 높은 레이블링 데이터 비용 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Tool Use#In-Context Learning#Few-Shot Learning#SFT-free#Data Efficiency#Curriculum Learning2026년 3월 11일댓글 수 로딩 중
[논문리뷰] MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning논문은 LLM이 장기 작업을 수행할 때 직면하는 효율적인 장기 메모리 유지 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 검색 방법들이 비용과 정확도 사이의 상충 관계를 겪고, 대규모 LLM이 모든 메모리를 처리하는 데 계산 비용이 높고 느리다 는 한계를 극복하고자 합니다.#Review#LLM Memory Retrieval#Proxy Model#Reinforcement Learning#Outcome-Driven Rewards#Long-Term Memory#Curriculum Learning#Model Merging#Inference-Time Scaling2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance자연어 명령 기반 비디오 편집의 시각적 제어 한계를 극복하고, 레퍼런스 이미지 가이드 편집의 고품질 훈련 데이터 부족 문제 를 해결하는 것을 목표로 합니다. 복잡한 시각적 뉘앙스를 정확하게 제어하고 사용자의 편집 의도를 시각적 예시를 통해 효과적으로 반영하는 다재다능한 비디오 편집 프레임워크 를 구축하고자 합니다.#Review#Video Editing#Instruction Guidance#Reference Guidance#Diffusion Models#MLLM#Dataset Generation#RefVIE#Curriculum Learning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data본 논문은 기존의 인간 감독 및 데이터셋 구축에 의존하는 LLM 도구 학습 의 확장성 문제를 해결하고자 합니다. 사전 데이터 없이 약한 LLM이 스스로 도구 사용 능력을 학습하여 범용 도구 호출 에이전트 로 발전할 수 있는 자기 진화 프레임워크 Tool-R0 을 제안합니다.#Review#Large Language Models (LLMs)#Self-Play Reinforcement Learning (RL)#Tool-Learning#Zero-Data Learning#LLM Agents#Curriculum Learning#Reward Shaping#Co-evolution2026년 3월 2일댓글 수 로딩 중
[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum본 논문은 균일 상태 이산 확산 모델(Uniform-State Discrete Diffusion Models, USDMs) 의 샘플링 품질이 스텝 수 증가 시 정체되는 문제점을 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion#Ψ-Samplers#Predictor-Corrector#Language Modeling#Image Generation#Curriculum Learning#Efficient Training2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation본 논문은 Group Relative Policy Optimization (GRPO) 가 탐색 및 난이도 적응에서 겪는 어려움의 근본 원인을 규명하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Group Relative Policy Optimization#Advantage Estimation#Exploration-Exploitation#Curriculum Learning#Multi-modal LLMs2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language ModelsRLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Prompt Engineering#Compositional Generalization#Verifiable Rewards#Curriculum Learning#Mathematical Reasoning#Multi-task Learning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads본 논문은 기존 텍스트 기반 모델의 한계를 극복하고, 시각적 정보와 과학적 추론을 통합하여 물리 올림피아드 수준의 복잡한 문제 를 해결할 수 있는 개방형 Vision-Language Model (VLM) 을 개발하는 것을 목표로 합니다.#Review#Vision-Language Models#Reinforcement Learning#Curriculum Learning#Physics Olympiads#Scientific Reasoning#Agentic AI#Multimodal AI#Physics2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.#Review#Weak-Driven Learning#LLM Optimization#Post-training#Gradient Amplification#Curriculum Learning#Knowledge Distillation#Mathematical Reasoning#Code Generation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval기존 MLLM 기반 검색 시스템이 정적 시각 인코딩에 의존하고 시각적 증거를 능동적으로 검증하지 못해 시각적으로 모호한 경우 추론 오류가 발생하는 문제를 해결하고자 합니다. 시각적 검사에 기반한 증거 기반 에이전트 추론 프로세스 를 통해 범용 멀티모달 검색의 정확성과 신뢰성을 향상시키는 것을 목표로 합니다.#Review#Multimodal Retrieval#Agentic AI#Large Language Models (LLMs)#Visual Tools#Chain-of-Thought (CoT)#Reinforcement Learning#Curriculum Learning#Evidence-Driven Reasoning2026년 2월 5일댓글 수 로딩 중
[논문리뷰] TTCS: Test-Time Curriculum Synthesis for Self-EvolvingTTCS는 대규모 언어 모델(LLM)이 테스트 질문만 사용하여 추론 능력을 향상시키는 기존 Test-Time Training(TTT) 방법론의 한계를 극복하고자 합니다.#Review#Test-Time Training#Self-Evolving LLMs#Curriculum Learning#Reinforcement Learning#Question Synthesis#Mathematical Reasoning#GRPO2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability본 논문은 초기 성공률이 낮아 훈련 신호가 희박한 어려운 추론 문제 에 대해 대규모 언어 모델(LLM) 이 학습 정체기에서 벗어나도록 돕는 것을 목표로 합니다.#Review#Meta-RL#Curriculum Learning#Self-Play#LLM Reasoning#Sparse Rewards#Question Generation#Bilevel Optimization2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain본 논문은 터키어 법률 도메인에 특화된 언어 모델인 Mecellem 모델을 개발하여, 비영어권 및 전문 도메인(특히 터키어 법률)에서 대규모 언어 모델의 성능 저하 문제를 해결하는 것을 목표로 합니다. 이를 위해, 스크래치 학습된 인코더 모델과 지속적 사전 훈련(CPT)된 디코더 모델 두 가지 접근 방식을 제시합니다.#Review#Turkish Legal NLP#Domain Adaptation#ModernBERT#Continual Pre-training (CPT)#Embedding Models#Legal LLMs#Retrieval-Augmented Generation (RAG)#Curriculum Learning2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Solar Open Technical ReportSolar Open 논문은 기존 LLM 생태계에서 영어와 중국어 외의 언어들 , 특히 한국어와 같은 데이터 부족 언어 가 겪는 모델 개발의 어려움을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Mixture-of-Experts#Korean LLM#Synthetic Data Generation#Curriculum Learning#Reinforcement Learning#Tokenizer Optimization#Multilingual AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] SmartSearch: Process Reward-Guided Query Refinement for Search Agents대규모 언어 모델(LLM) 기반 검색 에이전트의 중간 검색 쿼리 품질이 낮아 예기치 않은 검색 결과와 전체 성능 저하로 이어지는 문제를 해결하는 것입니다.#Review#Search Agent#Information Retrieval#Large Language Models#Process Reward#Query Refinement#Reinforcement Learning#Curriculum Learning2026년 1월 11일댓글 수 로딩 중
[논문리뷰] RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes본 논문은 저조도 야간 환경에서 자동 화이트 밸런스(AWB) 보정의 신뢰성 및 일반화 문제를 해결하는 것을 목표로 합니다.#Review#Auto White Balance (AWB)#Deep Reinforcement Learning (DRL)#Low-Light Imaging#Night-time Scenes#Color Constancy#Cross-Sensor Generalization#Statistical Methods#Curriculum Learning2026년 1월 8일댓글 수 로딩 중
[논문리뷰] SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving본 논문은 소프트웨어 엔지니어링(SWE) 문제 해결 분야에서 SFT (Supervised Fine-tuning) 전용 경량 접근 방식 의 한계를 확장하여 최첨단 성능을 달성하는 것을 목표로 합니다. 복잡한 훈련 패러다임(예: 중간 훈련, 강화 학습) 없이도 SFT만으로 높은 성능을 낼 수 있음을 보여주고자 합니다.#Review#Software Engineering#Issue Resolution#Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Hybrid Dataset#Error Masking#Curriculum Learning#Test-Time Scaling (TTS)#Generative Verifiers2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models본 논문은 경량 LLM이 높은 계산 효율성 을 유지하면서도 내재적인 에이전트 지능을 갖출 수 있도록 하는 것을 목표로 합니다. 특히, 기존의 증류(distillation) 방식이 아닌, sub-2B 규모 의 모델이 처음부터 추론 및 계획 능력 을 체계적으로 학습하도록 하는 데 중점을 둡니다.#Review#Lightweight LLM#Agentic AI#Pre-training#Multi-Latent Attention#Long-Context#Curriculum Learning#Agentic Mid-training#Instruction Tuning2025년 12월 31일댓글 수 로딩 중
[논문리뷰] GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators본 논문은 대규모 언어 모델(LLM) 에이전트 훈련의 주요 병목인 높은 비용과 실세계 상호작용 데이터의 정적인 특성을 해결하고자 합니다.#Review#LLM Agents#Environment Simulation#Co-evolution#Curriculum Learning#Data Efficiency#Reinforcement Learning#Adaptive Simulation#Difficulty Alignment2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning이 논문은 대규모 언어 모델(LLM) 에이전트가 국제 수학 올림피아드(IMO) 수준의 기하학 문제 를 해결하는 데 있어 기존 전문가 시스템의 한계를 극복하는 것을 목표로 합니다.#Review#LLM Agents#Geometry Problem Solving#Reinforcement Learning#Curriculum Learning#Auxiliary Construction#Symbolic Reasoning#IMO2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.#Review#Vision-Language Models#Reinforcement Learning#Self-Evolving Learning#Data-Scarce Domains#Context-First Learning#Reward Hacking Mitigation#Multimodal Reasoning#Curriculum Learning2025년 12월 8일댓글 수 로딩 중
[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks본 논문은 대규모 언어 모델(LLM)의 추론 능력 강화를 위한 강화 학습(RL) 과정에서, 긍정적 및 부정적 어드밴티지(advantage) 신호의 혼합이 초기 학습 단계에서 모호한 지침을 제공하고 일반화를 저해하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Curriculum Learning#Advantage Function#Reasoning Tasks#Multimodal AI#Policy Optimization#Generalization2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Guided Self-Evolving LLMs with Minimal Human Supervision본 논문은 기존의 자율 진화(self-evolving) 언어 모델(LLM)이 겪는 불안정성, 성능 정체, 개념 표류(concept drift) 및 다양성 붕괴(diversity collapse) 문제를 해결하고자 합니다.#Review#Self-Evolving LLMs#Self-Play#Reinforcement Learning#Curriculum Learning#Few-shot Learning#Human Supervision#Concept Drift#Diversity Collapse2025년 12월 2일댓글 수 로딩 중
[논문리뷰] HI-TransPA: Hearing Impairments Translation Personal Assistant본 논문은 청각 장애인이 일상적인 의사소통에서 겪는 어려움, 특히 불분명한 발화로 인한 문제를 해결하고자 합니다.#Review#Multimodal AI#Hearing Impairment#Audio-Visual Speech Recognition#Curriculum Learning#Omni-Models#Assistive Technology#Lip Reading#Speech Translation2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence본 연구는 기존의 사전 훈련된 비반복(non-recurrent) 언어 모델 을 효율적으로 깊이-반복(depth-recurrent) 모델 로 변환하여, 훈련 및 추론 시 연산 비용을 최적화하면서 수학과 같은 추론 태스크에서 성능을 향상시키는 것을 목표로 합니다.#Review#Recurrent Language Models#Pretrained Models#Model Surgery#Curriculum Learning#Test-Time Compute Scaling#Mathematics Reasoning#Efficient Training#Depth Recurrence2025년 11월 10일댓글 수 로딩 중
[논문리뷰] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments언어 모델(LM)의 강화 학습(RL) 훈련이 정적 데이터셋에서 포화되고, 검증 가능한 학습 데이터를 수집하는 높은 비용 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Language Models#Adaptive Environments#Verifiable Environments#Procedural Generation#Curriculum Learning#Generalization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning본 논문은 대규모 언어 모델(LLMs)이 대화에서 명시적(explicit) 및 암묵적(implicit) 감정을 효과적으로 인식할 수 있는지 탐구하고, 이 분야의 현재 한계점을 극복하는 것을 목표로 합니다. 특히, LLM의 감정 이해 능력을 향상시켜 인간-컴퓨터 상호작용의 자연성과 공감 능력을 증진하고자 합니다.#Review#Emotion Recognition in Conversation#Large Language Models#Prompt Engineering#Demonstration Retrieval#Curriculum Learning#Fine-tuning#Affective Computing#SOTA2025년 11월 10일댓글 수 로딩 중
[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.#Review#Reinforcement Learning with Verifiable Reward#Competitive Programming#Code Generation#Data Curation#Curriculum Learning#Supervised Fine-tuning#Entropy Expansion2025년 11월 10일댓글 수 로딩 중
[논문리뷰] V-Thinker: Interactive Thinking with Images본 논문은 대규모 멀티모달 모델(LMM)이 긴 추론 과정에서 시각적 정보로부터 벗어나 환각을 일으키는 문제를 해결하고자 합니다.#Review#Large Multimodal Models#Interactive Reasoning#Vision-Centric Thinking#Reinforcement Learning#Data Synthesis#Visual Tools#Curriculum Learning#Multimodal AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Scaling Agent Learning via Experience Synthesis대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 훈련이 직면한 높은 비용, 제한된 태스크 다양성, 불안정한 보상 신호, 복잡한 인프라와 같은 문제들을 해결하는 것을 목표로 합니다. 현실 환경 상호작용의 필요성을 줄이면서도 효과적이고 확장 가능한 RL 훈련을 가능하게 하는 통합 프레임워크를 제안합니다.#Review#Reinforcement Learning#LLM Agents#Experience Synthesis#World Models#Curriculum Learning#Sim-to-Real Transfer#Web Agents2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models본 논문은 동적 비디오에서 복잡하고 진화하는 감정 상태를 합리적인 근거와 함께 이해하고 예측하는 데 초점을 맞춥니다. 기존 VideoLLM 의 한계인 복합적인 감정 이해 및 설명 능력 부족을 극복하기 위해, 감정 중심의 비디오 기반 파운데이션 모델인 VidEmo 를 제안합니다.#Review#VideoLLMs#Emotion Understanding#Affective-Tree Reasoning#Curriculum Learning#Reinforcement Learning#Fine-Grained Emotion#Attribute Perception#Expression Analysis2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.#Review#Video Retrieval#Multimodal Embedding#Data Synthesis#Curriculum Learning#Zero-shot Generalization#Benchmark Design#MLLM#Video-Text Retrieval2025년 11월 9일댓글 수 로딩 중
[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.#Review#Open-Ended Learning#Self-Play#Reinforcement Learning#Large Language Models#Mathematical Reasoning#Problem Generation#Curriculum Learning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LongCat-Flash-Omni Technical ReportLongCat-Flash-Omni는 560B 파라미터 규모의 최첨단 오픈소스 옴니모달 모델로, 견고한 오프라인 멀티모달 이해와 저지연 실시간 오디오-시각 상호작용 을 통합하는 것을 목표로 합니다.#Review#Omni-modal AI#Multimodal LLM#Real-time Interaction#Mixture-of-Experts (MoE)#Streaming Inference#Distributed Training#Curriculum Learning#Audio-Visual Perception2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Data-Efficient RLVR via Off-Policy Influence Guidance본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 Verifiable Rewards를 사용한 강화 학습(RLVR) 에서 데이터 선택의 비효율성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions#Data Selection#Off-Policy Learning#Curriculum Learning#Large Language Models (LLMs)#Sparse Random Projection#Data Efficiency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning본 논문의 핵심 목표는 장기적인(long-horizon), 희소한 보상(sparsely-rewarded)을 가진 LLM 에이전트 태스크에서 강화 학습(RL)의 근본적인 문제인 탐색-활용 트레이드오프(exploration-exploitation trade-off) 를 효과적으로 관리하는 것입니다.#Review#Reinforcement Learning#LLM Agents#Exploration-Exploitation#Self-Imitation Learning#Intrinsic Rewards#Curriculum Learning#Policy Entropy#Tool Use2025년 9월 29일댓글 수 로딩 중
[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.#Review#Reinforcement Learning#Curriculum Learning#Large Language Models#Mathematical Reasoning#Variance-based Sampling#Replay Learning#Policy Optimization2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Improving Context Fidelity via Native Retrieval-Augmented Reasoning논문은 대규모 언어 모델(LLMs)이 제공된 컨텍스트에 대한 충실도(context fidelity)를 유지하지 못하고, 질문에 대한 답변 생성 시 일관성 없는 결과를 내거나 환각(hallucination)을 일으키는 문제를 해결하고자 합니다.#Review#Context Fidelity#Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Hallucination#Question Answering#In-context Retrieval#Curriculum Learning2025년 9월 18일댓글 수 로딩 중
[논문리뷰] We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning복잡한 시각 수학적 추론에서 Multimodal Large Language Models (MLLMs) 의 한계를 극복하는 것을 목표로 합니다.#Review#Visual Mathematical Reasoning#MLLMs#Knowledge System#Reinforcement Learning#Curriculum Learning#Dataset Construction#Mathematical Benchmark2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Train Long, Think Short: Curriculum Learning for Efficient Reasoning대규모 언어 모델(LLMs)의 추론 능력 향상 과정에서 발생하는 비효율성, 즉 고정된 토큰 예산의 한계와 과도하게 긴 추론 과정의 문제를 해결하고자 합니다.#Review#Curriculum Learning#Reinforcement Learning#Large Language Models#Reasoning Efficiency#Token Budget Control#Group Relative Policy Optimization#Chain-of-Thought2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Aryabhata: An exam-focused language model for JEE Math본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.#Review#Language Model#Math Reasoning#JEE#Supervised Fine-Tuning#Reinforcement Learning#Model Merging#Chain-of-Thought#Curriculum Learning2025년 8월 13일댓글 수 로딩 중
[논문리뷰] R-Zero: Self-Evolving Reasoning LLM from Zero Data본 연구는 기존 LLM의 자가 진화 방식이 방대한 인간 큐레이션 데이터 에 의존하는 한계를 극복하고자 합니다.#Review#Self-Evolving LLM#Reinforcement Learning#Curriculum Learning#Reasoning#Large Language Models#Self-Play#Zero-Data Training2025년 8월 8일댓글 수 로딩 중
[논문리뷰] SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 인간 주석 데이터에 크게 의존하고 새로운 또는 전문화된 소프트웨어 환경에서 어려움을 겪는 문제를 해결합니다. 인간의 개입 없이 에이전트가 낯선 소프트웨어 환경을 자율적으로 탐색하고 경험을 통해 학습하며 진화하여 전문가 수준의 역량을 확보하는 것을 목표로 합니다.#Review#Computer Use Agent#Self-Evolving#Reinforcement Learning#Curriculum Learning#Vision-Language Models#Experiential Learning#Specialist-to-Generalist2025년 8월 7일댓글 수 로딩 중
[논문리뷰] IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards본 논문은 LLM의 지시 따르기 능력을 향상시키는 Verifiable Rewards 기반 강화 학습(RLVR) 이 겪는 두 가지 주요 문제점을 해결하고자 합니다. 첫째, 훈련 비효율성(불충분한 난이도 평가)과 둘째, LLM이 검증 단축키를 악용하여 실제 의도를 무시하는 과최적화(reward hacking) 문제입니다.#Review#Instruction Following#Reinforcement Learning#Reward Hacking#LLMs#Curriculum Learning#Data Flywheel#Verifiable Rewards2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Qwen-Image Technical Report본 논문은 복잡한 텍스트 렌더링 및 정밀한 이미지 편집 분야에서 기존 텍스트-이미지(T2I) 모델의 한계를 해결하는 것을 목표로 합니다.#Review#Image Generation#Text-to-Image#Image Editing#Text Rendering#Multimodal Diffusion Transformer#Curriculum Learning#Reinforcement Learning#Foundation Model2025년 8월 5일댓글 수 로딩 중
[논문리뷰] Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following본 논문은 추론 모델에서 나타나는 추론 능력과 지시 따르기 능력 간의 트레이드오프 문제 를 해결하고자 합니다.#Review#Self-Supervised RL#Instruction Following#Reasoning Models#Large Language Models#Reward Modeling#Curriculum Learning2025년 8월 5일댓글 수 로딩 중
[논문리뷰] CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs본 연구는 소규모 언어 모델(BabyLMs)이 명령어 튜닝(Instruction Tuning)을 통해 성능 향상을 얻을 수 있는지 탐구합니다.#Review#Instruction Tuning#BabyLMs#Small-scale LMs#Curriculum Learning#Conversational AI#Question Answering#Zero-shot Evaluation#SuperGLUE2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.#Review#LLM Agents#Self-play#Reinforcement Learning#Search Agents#Supervision-Free Training#Retrieval-Augmented Generation (RAG)#Task Generation#Curriculum Learning2025년 10월 24일댓글 수 로딩 중
[논문리뷰] AlphaFlow: Understanding and Improving MeanFlow Models본 논문은 MeanFlow 모델의 성공 원리를 심층적으로 분석하고, MeanFlow 훈련 목표 내에 존재하는 trajectory flow matching 및 trajectory consistency 두 구성 요소 간의 음의 상관관계 로 인한 최적화 충돌 및 수렴 지연 문제를 해결하는 것을 목표로 합니다.#Review#Generative Models#Flow Matching#Consistency Models#MeanFlow#Curriculum Learning#Few-Step Generation#Image Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder기존 CLIP 텍스트 인코더의 77토큰 길이 제한 , 영어 전용 지원, 미흡한 세분화된 의미 이해 능력이라는 한계를 해결하는 것이 목표입니다.#Review#Vision-Language Models#CLIP#LLM-based Embedder#Knowledge Distillation#Contrastive Learning#Curriculum Learning#Multimodal Alignment#Progressive Alignment2025년 10월 22일댓글 수 로딩 중
[논문리뷰] DeepAnalyze: Agentic Large Language Models for Autonomous Data Science본 논문은 원시 데이터부터 분석가 수준의 심층 연구 보고서에 이르는 완전히 자율적인 데이터 과학 을 달성하는 것을 목표로 합니다. 기존 워크플로우 기반 데이터 에이전트들이 사전 정의된 워크플로우에 의존하여 복잡한 데이터 과학 태스크와 다양한 정형 데이터 처리에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Autonomous Data Science#Agentic LLM#Curriculum Learning#Reinforcement Learning#Data Agents#End-to-end Data Science2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery본 논문은 대규모의 탐색 가능하며 기하학적으로 정확한 3D 도시 장면을 합성하는 문제를 해결하는 데 중점을 둡니다. 특히, 제한된 위성 이미지 시차로 인한 불완전한 기하학과 부정확한 텍스처, 그리고 3D/거리 수준 훈련 데이터 부족으로 인해 발생하는 기존 방법론의 한계를 극복하고자 합니다.#Review#3D Scene Synthesis#Gaussian Splatting#Satellite Imagery#Diffusion Models#Urban Modeling#Novel View Synthesis#Curriculum Learning#Real-time Rendering2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset지시 기반 비디오 편집의 발전을 저해하는 대규모 고품질 학습 데이터의 부족 문제 를 해결하는 것이 목표입니다. 기존 데이터 생성 파이프라인의 제한된 확장성, 낮은 품질, 일관성 부족 등의 한계를 극복하고, 다양한 편집 작업에 대한 정확하고 일관된 편집 능력을 갖춘 모델 훈련을 위한 데이터셋과 방법론을 제시합니다.#Review#Video Editing#Instruction-Based Editing#Synthetic Data Generation#Dataset#Curriculum Learning#Diffusion Models#Vision-Language Models2025년 10월 20일댓글 수 로딩 중
[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.#Review#Curriculum Learning#LLMs#Reasoning#Gradient Optimization#Reinforcement Learning#Bayesian Inference#Sample Efficiency2025년 10월 2일댓글 수 로딩 중