[논문리뷰] DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization본 연구는 다중 턴 상호작용 환경에서 LLM을 효율적으로 최적화해야 하는 과제를 해결합니다. 기존 online RL 방법론은 다중 턴 역학을 효과적으로 학습할 수 있으나, 업데이트마다 전체 대화 경로를 생성해야 하는 높은 계산 비용(rollout cost)으로 인해 실용성이 낮습니다 .#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#Multi-Turn Optimization#Importance Sampling#Distribution Matching2026년 5월 31일댓글 수 로딩 중
[논문리뷰] LoMo: Local Modality Substitution for Deeper Vision-Language Fusion본 논문은 최신 VLM들이 텍스트 질문을 그에 대응하는 렌더링된 이미지로 교체했을 때 발생하는 성능 저하 문제, 즉 carrier sensitivity 문제를 해결하고자 합니다.#Review#Vision-Language Models#Modality Gap#Carrier Sensitivity#Local Modality Substitution#Supervised Fine-Tuning#Cross-modal Alignment2026년 5월 28일댓글 수 로딩 중
[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.#Review#Deep Research Agents#Edge-Scale Models#Open Data#Reinforcement Learning#Information Gain#Supervised Fine-Tuning2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Structured Distillation of Web Agent Capabilities Enables Generalization본 논문은 최신 Frontier LLM이 보유한 웹 에이전트 능력을 로컬에 배포 가능한 소형 모델로 효율적으로 이전(Distillation)하는 것을 목적으로 합니다. 기존 연구들은 다양한 데이터 생성 파이프라인을 제시했지만, 이를 체계적으로 비교할 수 있는 표준화된 프레임워크가 부족했습니다.#Review#Web Agent#Knowledge Distillation#Synthetic Data#Trajectory Synthesis#Agent-as-Annotators#Supervised Fine-Tuning#Generalization2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability본 연구는 'SFT는 Memorization에 치중하고 RL은 Generalization에 강하다'는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다.#Review#Supervised Fine-Tuning#Chain-of-Thought#Generalization#Model Capability#Optimization Dynamics#Safety Degradation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code Generation본 논문은 LLM의 코드 생성 능력을 향상하기 위해 외부의 고품질 인간 작성 데이터나 복잡한 강화 학습(RL) 파이프라인 없이 모델 스스로 개선될 수 있는지에 대한 의문을 제기합니다.#Review#Self-Distillation#Code Generation#Large Language Models#Precision-Exploration Conflict#Supervised Fine-Tuning#Temperature Scaling#Truncation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio기존의 Soft context compression 연구들은 정적인(Static) 압축 비율을 적용하여 언어 데이터의 가변적인 정보 밀도를 효과적으로 반영하지 못하는 한계가 있습니다.#Review#Soft Context Compression#Large Language Models#Density-aware#Discrete Ratio Selector#Supervised Fine-Tuning#Mean-Pooling2026년 3월 30일댓글 수 로딩 중
[논문리뷰] DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents본 논문은 기존 Autoregressive 모델(ARM) 기반 검색 에이전트의 직렬 실행 구조로 인한 높은 레이턴시 문제를 해결하고, 동시에 Diffusion Large Language Model(dLLM) 의 취약한 추론 및 도구 호출 능력을 개선하여, dLLM을 효율적인 검색 에이전트 백본으로 활용하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Search Agents#Latency Reduction#P-ReAct#Agentic Post-training#Supervised Fine-Tuning#Preference Optimization#Parallel Decoding2026년 2월 10일댓글 수 로딩 중
[논문리뷰] ProAct: Agentic Lookahead in Interactive EnvironmentsProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.#Review#Agentic AI#Large Language Models#Reinforcement Learning#Lookahead Reasoning#Monte-Carlo Tree Search#Supervised Fine-Tuning#Value Estimation#Simulation Drift2026년 2월 5일댓글 수 로딩 중
[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training이 논문은 기존 LLM 기반 소프트웨어 엔지니어링 에이전트의 불투명성과 재현성 부족, 그리고 복잡한 장기 SWE 태스크 해결 능력의 한계를 해결하고자 합니다.#Review#Software Engineering Agents#Post-Training#Supervised Fine-Tuning#Reinforcement Learning#Language Server Protocol#SWE-bench#Code Navigation#LLM2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B Technical Report사이버보안 도메인에서 복잡한 다단계 분석을 수행하는 데 특화된 최초의 오픈소스 네이티브 추론 모델 인 Foundation-Sec-8B-Reasoning 을 개발하는 것이 목표입니다.#Review#Cybersecurity LLM#Reasoning Model#Supervised Fine-Tuning#Reinforcement Learning#Verifiable Rewards#8B Parameters#Open-Source AI2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Language-based Trial and Error Falls Behind in the Era of ExperienceLarge Language Models (LLMs)가 언어 기반이 아닌 새로운 환경(예: 상징적, 공간적 태스크)에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Reinforcement Learning#Exploration Efficiency#Sub-Scale Collaboration#Out-of-Distribution Tasks#Agentic AI#Supervised Fine-Tuning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation대규모 언어 모델(LLMs)이 겪는 '지식 단절(knowledge cutoff)' 문제와, 지도 미세 조정(SFT)이 새로운 지식 통합 시 추론 능력 향상에 한계가 있으며, 강화 학습(RL)은 온라인 적응에 비실용적으로 비싼 비용 문제를 해결하는 것이 목표입니다.#Review#LLMs#Continual Adaptation#Reinforcement Learning#Supervised Fine-Tuning#Skill Transfer#Task Arithmetic#Tool Use2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning본 논문은 오픈 소스 로 제공되며, 효율적 이면서도 에이전트적 추론 능력이 뛰어난 Mixture-of-Experts (MoE) 하이브리드 Mamba-Transformer 언어 모델 인 Nemotron 3 Nano를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Mamba-Transformer#Agentic Reasoning#Long Context LLM#FP8 Quantization#Supervised Fine-Tuning#Reinforcement Learning2025년 12월 24일댓글 수 로딩 중
[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.#Review#Self-Distillation#Cognitive Skills#Reinforcement Learning#Supervised Fine-Tuning#Language Models#Reasoning#Verification#Retrying2025년 12월 3일댓글 수 로딩 중
[논문리뷰] C^2DLM: Causal Concept-Guided Diffusion Large Language Models본 논문은 Autoregressive (AR) 및 Diffusion Language Models (DLMs)의 불충분한 추론 능력 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Large Language Models#Causality#Attention Mechanism#Reasoning#Natural Language Generation#Supervised Fine-Tuning#Concept-Guided2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Revisiting Generalization Across Difficulty Levels: It's Not So Easy이 논문은 대규모 언어 모델(LLM)이 다양한 난이도 수준의 태스크에 대해 얼마나 잘 일반화하는지 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM Generalization#Task Difficulty#Item Response Theory#Cross-Difficulty#Data Curation#Model Evaluation#Supervised Fine-Tuning2025년 11월 26일댓글 수 로딩 중
[논문리뷰] WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation본 논문은 기존 Vision-Language Models (VLMs) 기반의 UI-to-Code 접근 방식이 정적인 HTML/CSS 코드만 생성하고 GUI 상호작용을 지원하지 못하는 한계를 극복하고자 합니다.#Review#UI-to-Code#Vision-Language Models#Agentic Framework#Interactive UI#Web Automation#Code Generation#UI Verification#Supervised Fine-Tuning2025년 11월 12일댓글 수 로딩 중
[논문리뷰] RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking ServicesSNS(Social Networking Services)의 이질적인 워크로드, 빠르게 변화하는 규범과 속어, 다국어 코퍼스로 인한 급격한 분포 변화 등의 문제점을 해결하고, 기존 SFT(Supervised Fine-Tuning) 기반 LLM 학습 방식에서 발생하는 'seesaw' 효과(in-distribution 성능 향상 시 out-of-distribution 견고성 저하) 를 완화하는 것을 목표로 합니다.#Review#LLM Post-Training#Domain Adaptation#Social Networking Services#Reinforcement Learning#Supervised Fine-Tuning#Catastrophic Forgetting#Data Efficiency2025년 11월 10일댓글 수 로딩 중
[논문리뷰] CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?본 연구는 대규모 언어 모델(LLM)의 자연어 기반 신뢰도 표현(verbalized confidence) 의 정확한 보정(calibration)을 개선하는 것을 목표로 합니다.#Review#LLM Calibration#Confidence Calibration#Uncertainty Estimation#Critique Learning#Supervised Fine-Tuning#Natural Language Processing#Self-Critique2025년 11월 9일댓글 수 로딩 중
[논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model ReasoningLLM 추론을 위한 고품질 훈련 문제의 부족이라는 핵심 병목 현상을 해결하고자 합니다.#Review#Prompt Synthesis#Large Language Models#Reasoning#Expectation-Maximization#Self-Play#Supervised Fine-Tuning#Task Generation#Rationale Generation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery본 연구는 고대 그리스 도자기에 대한 전문가 수준의 추론 능력을 갖춘 MLLM(Multimodal Large Language Models) 에이전트를 개발하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Visual Question Answering#Reinforcement Learning#Cultural Heritage#Ancient Greek Pottery#Supervised Fine-Tuning#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research본 논문은 AI 에이전트가 방대한 웹 스케일 정보를 통찰력 있는 보고서로 통합해야 하는 복잡한 문제인 개방형 심층 연구(Open-Ended Deep Research, OEDR) 의 한계를 해결하는 것을 목표로 합니다.#Review#Open-Ended Deep Research#LLM Agents#Dynamic Outline#Evidence Acquisition#Hierarchical Writing#Memory Bank#State-of-the-Art#Supervised Fine-Tuning2025년 9월 17일댓글 수 로딩 중
[논문리뷰] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement LearningWebSailor-V2는 오픈소스 웹 에이전트의 역량을 혁신적으로 향상시켜, 독점 시스템과의 성능 격차를 줄이는 것을 목표로 합니다. 특히 데이터 구성 및 확장 가능한 강화 학습(RL) 훈련의 두 가지 주요 과제를 해결하여 복잡한 웹 환경에서 고급 추론 및 도구 사용 능력을 갖춘 에이전트를 개발하고자 합니다.#Review#Web Agents#Reinforcement Learning#Synthetic Data#Knowledge Graphs#LLMs#Supervised Fine-Tuning#Sim-to-Real Transfer#Agentic AI2025년 9월 17일댓글 수 로딩 중
[논문리뷰] SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation이 논문은 대규모 언어 모델(LLM)의 특정 도메인 적응을 위한 고품질 SFT(Supervised Fine-Tuning) 데이터셋 생성 의 어려움을 해결하는 것을 목표로 합니다.#Review#LLM#Instruction Tuning#Domain Adaptation#Retrieval-Augmented Generation#Dataset Creation#Model Editing#Supervised Fine-Tuning2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?본 논문은 대규모 언어 모델(LLMs)이 지도 미세 조정(SFT) 과정에서 학습한 표준화된 패턴과 상충하는 지시를 따르는 데 어려움을 겪는 ' 인지적 관성 ' 문제를 해결하고자 합니다.#Review#LLMs#Instruction Following#Benchmark#Cognitive Inertia#Out-of-Distribution#Supervised Fine-Tuning#Evaluation#Robustness2025년 9월 5일댓글 수 로딩 중
[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting본 논문은 대규모 언어 모델(LLM)의 사후 튜닝에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 을 순차적으로 적용하는 기존 패러다임이 야기하는 문제점, 즉 모델의 기존 패턴 교란 및 전문가 데이터에 대한 과적합 문제를 해결하고자 합니다.#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#On-Policy RL#Off-Policy Experts#Dynamic Weighting#LLM Alignment#Reasoning2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Thyme: Think Beyond Images본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal LLMs#Code Generation#Image Processing#Reinforcement Learning#Supervised Fine-Tuning#Visual Reasoning#Sandbox2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Aryabhata: An exam-focused language model for JEE Math본 논문은 인도 입학 시험(JEE) 수학 영역에 최적화된 7B 파라미터 의 경량 언어 모델인 Aryabhata 1.0 을 제안합니다. 기존 대규모 언어 모델(LLM)이 교육적 활용에 부적합했던 문제를 해결하고, 학생 이해를 돕는 정확하고 투명하며 효율적인 단계별 추론 능력을 제공하는 것을 목표로 합니다.#Review#Language Model#Math Reasoning#JEE#Supervised Fine-Tuning#Reinforcement Learning#Model Merging#Chain-of-Thought#Curriculum Learning2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks본 논문은 5G 모바일 네트워크에서 해석 가능성, 도메인 전문성, 인과적 추론이 필요한 루트 원인 분석(RCA) 의 어려운 문제를 해결하고자 합니다. 특히, 대규모 언어 모델(LLMs) 을 활용하여 성능 저하의 가장 가능성 있는 근본 원인을 식별하고, 구조화된 다단계 진단 설명을 생성하는 경량 프레임워크를 제안합니다.#Review#Root Cause Analysis#Large Language Models#5G Wireless Networks#Supervised Fine-Tuning#Reinforcement Learning#Chain-of-Thought#TeleLogs Dataset2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Information-Preserving Reformulation of Reasoning Traces for Antidistillation대규모 언어 모델(LLMs)의 추론 흔적(reasoning traces)이 복잡한 작업에서 성능을 향상시키지만, 무단 지식 증류(distillation)에 취약하다는 문제를 해결하고자 합니다.#Review#Antidistillation#Reasoning Traces#Large Language Models#Knowledge Distillation#Information Preservation#Trace Reformulation#Supervised Fine-Tuning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Watch and Learn: Learning to Use Computers from Online Videos컴퓨터 사용 에이전트(CUA)가 다양한 애플리케이션에서 복잡한 작업을 수행할 수 있도록 지원하는 것을 목표로 합니다.#Review#Computer Use Agents#Inverse Dynamics Model#UI Trajectories#Web Videos#In-Context Learning#Supervised Fine-Tuning#Large Language Models#OSWorld Benchmark2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective이 논문은 대규모 언어 모델(LLM)의 계획 능력 향상을 위한 강화 학습(RL) 방법론 의 이점과 한계를 이론적으로 분석하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Planning#Policy Gradient#Q-learning#Supervised Fine-Tuning#Diversity Collapse#Reward Hacking2025년 10월 1일댓글 수 로딩 중