#Supervised Fine-tuning

58개의 포스트

[논문리뷰] LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

본 논문은 기존의 터미널 에이전트 학습이 외부 리포지토리에 의존하는 방식의 한계로 인해 데이터 다양성, 환경 제어력, 특정 능력 결함 해결에 어려움을 겪는 문제를 해결합니다.

#Review #Language Agents #Terminal Environments #Zero-dependency Synthesis #Supervised Fine-tuning #Direct Multi-turn Preference Optimization #Long-horizon Tasks

2026년 5월 28일

[논문리뷰] Macaron-A2UI: A Model for Generative UI in Personal Agents

본 논문은 Personal Agent가 복잡하고 사용자 중심적인 Task를 처리함에 따라, 기존의 Static Plain-Text Chat이 병목 현상으로 작용하는 문제를 해결하고자 한다.

#Review #Generative UI #Personal Agents #A2UI #Reinforcement Learning #Supervised Fine-tuning #Dialogue Systems

2026년 5월 25일

[논문리뷰] Achieving Gold-Medal-Level Olympiad Reasoning via Simple and Unified Scaling

본 연구는 고도의 수학 및 과학 Olympiad 문제에서 금메달 수준의 추론 능력을 갖춘 모델을 만들기 위한 간단하고 통합된 레시피를 제안합니다. 기존의 일반적인 추론 모델들은 수학적 문제 해결에서 단기적인 성과를 내지만, 복잡한 증명 문제에 필요한 엄격한 추론과 검증 능력이 부족하다는 한계가 있습니다.

#Review #Olympiad Reasoning #Reinforcement Learning #Test-time Scaling #Supervised Fine-tuning #Reasoning Models #Proof-search #Reverse-Perplexity Curriculum

2026년 5월 14일

[논문리뷰] OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis

Deep Research Agent를 훈련시키기 위해서는 검색, 증거 취합 및 다단계 추론이 복합적으로 이루어지는 Long-Horizon Trajectory가 필수적입니다.

#Review #Deep Research Agents #Long-Horizon Trajectories #Offline Trajectory Synthesis #Browser Primitives #Supervised Fine-tuning #Corpus Bootstrapping #Reproducible Pipeline

2026년 3월 23일

[논문리뷰] DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

최근 LLM 기반 에이전트의 도구 사용 능력 향상을 위한 Agentic Task Synthesis 연구가 활발합니다. 그러나 기존 접근 방식은 합성된 작업의 Insufficient Diversity 로 인해 작업 및 도구 세트 변화에 대한 Robust Generalization 능력이 부족하다는 한계를 가집니다.

#Review #Agentic Task Synthesis #Diversity Scaling #Tool Use #Generalization #Reinforcement Learning #Supervised Fine-tuning

2026년 3월 12일

[논문리뷰] NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

본 연구는 기존 VLM 기반 자율주행(AD) 시스템 이 직면한 고수준 추론 능력과 정밀한 모션 계획 사이의 트레이드오프 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language Models #Motion Planning #High-Level Reasoning #Decoupled Architecture #Supervised Fine-tuning #NuScenes Benchmark

2026년 3월 9일

[논문리뷰] DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

기존 발표 자료 생성 에이전트의 한계(미리 정의된 워크플로, 콘텐츠에 구애받지 않는 템플릿, 내부 신호에만 의존하는 자기 성찰)를 극복하고자 합니다.

#Review #Agentic Systems #Presentation Generation #Large Language Models (LLMs)#Multimodal LLMs (MLLMs)#Environment-Grounded Reflection #Self-Correction #Dual-Agent Framework #Supervised Fine-tuning

2026년 3월 8일

[논문리뷰] When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

의료 Vision-Language Model (VLM)에서 강화 학습(RL)이 시각적 추론을 개선하는지, 또는 주로 Supervised Fine-tuning (SFT)을 통해 이미 유도된 행동을 단순히 강화하는지에 대한 불분명함을 해소하는 것이 목표입니다.

#Review #Medical VLMs #Reinforcement Learning #Supervised Fine-tuning #Visual Question Answering #Multi-modality #Reasoning Capacity #MedMNIST

2026년 3월 2일

[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

본 논문은 실제 사용자 요구가 복잡하고 모호함에도 불구하고, 에이전트가 정확한 도구 실행을 통해 이를 충족해야 하는 다중 턴 대화형 도구 사용 에이전트 개발의 근본적인 과제를 해결하고자 합니다.

#Review #Tool-Use Agents #Multi-turn Interaction #Data Synthesis #Constraint-Guided Verification #Large Language Models #Supervised Fine-tuning #Reinforcement Learning

2026년 3월 2일

[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.

#Review #GUI Agents #Reinforcement Learning #Supervised Fine-tuning #Visual Grounding #Long-Horizon Tasks #Partial Verifiability #KL Regularization #Data Curation

2026년 2월 25일

[논문리뷰] RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

본 논문은 Vision-Language-Action (VLA) 모델 훈련 시, 시뮬레이션을 정적 데이터 소스로만 활용하고 폐쇄 루프 인터랙션을 충분히 활용하지 못하는 기존 Supervised Fine-Tuning (SFT) 기반 sim-real co-training의 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Sim-to-Real #Co-training #VLA Models #Robotic Manipulation #Supervised Fine-tuning #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

기존 MLLM(Multimodal Large Language Models)이 고정된 추론 패턴(텍스트 전용, 시각 전용, 시각-텍스트 혼합)과 시각적 사고(visual thought)의 고정된 길이로 인해 시각 집중 태스크에서 성능 저하 및 텍스트 기반 논리 추론 능력 손상을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Reasoning Modes #Hybrid Autoregressive #Latent Visual Reasoning #Dynamic Mode Selection #Supervised Fine-tuning #Vision-Language Tasks

2026년 2월 5일

[논문리뷰] SWE-World: Building Software Engineering Agents in Docker-Free Environments

소프트웨어 엔지니어링(SWE) 에이전트의 훈련 및 평가가 의존하는 Docker 기반 물리적 실행 환경 의 높은 자원 소모와 확장성 한계를 해결하는 것이 목표입니다.

#Review #Software Engineering Agents #LLM #Docker-Free #Execution Simulation #Reinforcement Learning #Supervised Fine-tuning #World Model

2026년 2월 3일

[논문리뷰] Pushing the Boundaries of Natural Reasoning: Interleaved Bonus from Formal-Logic Verification

본 논문은 대규모 언어 모델(LLMs)의 확률적 토큰 예측 과정에서 발생하는 논리적 불일치와 보상 해킹 문제를 해결하고, 이를 통해 자연어 추론의 신뢰성과 정확성을 향상시키는 것을 목표로 합니다.

#Review #LLM Reasoning #Formal Verification #Neuro-Symbolic AI #Reinforcement Learning #Supervised Fine-tuning #Logic Consistency #Mathematical Reasoning

2026년 2월 1일

[논문리뷰] Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

본 연구는 제한된 자원과 엄격한 투명성 제약이 있는 환경에서, 지역 또는 국가 기관이 모델 가중치, 훈련 데이터, 배포에 대한 통제력을 유지할 수 있도록 하는 소버린 대규모 언어 모델(LLM) 의 최소한의 공개 포스트 트레이닝 레시피 를 개발하는 것을 목표로 합니다.

#Review #Sovereign LLMs #Post-Training #Instruction Tuning #Supervised Fine-tuning #On-Policy Distillation #Reinforcement Learning #Knowledge Injection #Thai Language

2026년 1월 29일

[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

본 논문은 시각적으로 풍부하고 다단계적인 인터랙티브 의사결정 태스크에서 Vision-Language Models (VLMs) 의 기능과 한계를 체계적으로 진단하고 개선하기 위한 연구를 목표로 합니다.

#Review #Multimodal Agents #Vision-Language Models (VLMs)#Interactive AI #Reinforcement Learning Environments #Benchmark #Decision-Making #Diagnostic Tools #Supervised Fine-tuning

2026년 1월 25일

[논문리뷰] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

본 논문은 Deep Research Agents (DRAs)의 신뢰할 수 없는 출력(예: 환각, 오류) 문제를 해결하고, 특히 추론 시점(inference time) 에 에이전트의 성능을 향상시키는 것을 목표로 합니다.

#Review #Deep Research Agents #Inference-Time Verification #Self-Evolving LLM Agents #Rubric-Guided Feedback #Failure Taxonomy #Test-Time Scaling #Supervised Fine-tuning

2026년 1월 25일

[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.

#Review #LLM-based Issue Resolution #Software Engineering #Autonomous Agents #Code Generation #Benchmarking #Reinforcement Learning #Supervised Fine-tuning #Multimodal LLMs

2026년 1월 20일

[논문리뷰] TranslateGemma Technical Report

본 논문은 Gemma 3 파운데이션 모델을 기반으로 한 오픈형 기계 번역 모델인 TranslateGemma 를 소개합니다.

#Review #Machine Translation #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Gemma 3 #Multimodal AI #Synthetic Data

2026년 1월 14일

[논문리뷰] EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs

본 논문은 LLM의 반복적인 자가 훈련 과정에서 발생하는 과도한 자신감(overconfidence) 및 신뢰도 저하(calibration cost) 문제를 해결하여, 모델이 '무엇을 모르는지'를 알게 함으로써 더 나은 추론 능력을 갖추는 것을 목표로 합니다.

#Review #LLM Reasoning #Model Calibration #Epistemic Uncertainty #Self-Training #Supervised Fine-tuning #Confidence-Informed Self-Consistency #Model Collapse

2026년 1월 13일

[논문리뷰] Step-DeepResearch Technical Report

본 논문은 Deep Research —개방형, 장기적, 복잡한 정보 탐색 작업—를 수행할 수 있는 견고한 자율 에이전트 구축의 문제를 다룹니다.

#Review #Deep Research Agents #LLMs #Reinforcement Learning #Supervised Fine-tuning #Agentic AI #Multi-hop Reasoning #Benchmarking #Cost-effectiveness

2025년 12월 23일

[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMs

멀티모달 대규모 언어 모델(MLLM) 내에서 공간 능력의 계층적 구조가 제대로 이해되지 않고 단편적으로 연구되는 문제를 해결하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal LLMs #Cognitive Hierarchy #Benchmark #Reinforcement Learning #Supervised Fine-tuning #Spatial Reasoning

2025년 12월 23일

[논문리뷰] GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning

본 연구는 GUI(Graphical User Interface) 에이전트가 실제 환경에서 복잡한 화면 탐색 과제를 수행하는 데 필요한 포괄적인 환경 정보를 얻기 어렵다는 문제를 해결합니다.

#Review #GUI Agents #Screen Navigation #Reinforcement Learning #Multi-Turn RL #Simulation #Supervised Fine-tuning #Generalization

2025년 12월 2일

[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

이 논문은 코드 LLM(Large Language Models) 의 전체 모델 라이프사이클을 포괄하는 실용적인 가이드와 종합적인 분석을 제공하는 것을 목표로 합니다.

#Review #Code LLMs #Software Engineering Agents #Code Generation #Reinforcement Learning #Supervised Fine-tuning #Multimodal AI #Code Safety #Scaling Laws

2025년 12월 1일

[논문리뷰] SO-Bench: A Structural Output Evaluation of Multimodal LLMs

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 입력으로부터 스키마 기반 정보를 추출하고 추론하여 구조화된 출력을 생성하는 능력에 대한 체계적인 벤치마크가 부재하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Structural Output #Information Extraction #JSON Schema #SO-Bench #Visual Reasoning #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 30일

[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

본 논문은 MLLM(Multimodal Large Language Model) 이 이미지 내 객체를 인식하는 '무엇'을 넘어, 인간이 이미지를 주관적으로 인지하는 '어떻게 느끼는지'를 이해하는 능력의 부족을 해결하고자 합니다.

#Review #Multimodal LLM #Human Cognition #Image Perception #Benchmarking #Supervised Fine-tuning #Image Generation #Aesthetics #Memorability

2025년 11월 30일

[논문리뷰] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

멀티모달 추론(Multimodal Reasoning) 분야에서 투명하고 재현 가능한 데이터 큐레이션 및 훈련 전략 의 부재로 인한 확장성 연구의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Large Multimodal Models #Supervised Fine-tuning #Reinforcement Learning #Data Curation #Open-source #Multimodal Benchmarks

2025년 11월 23일

[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

본 논문은 비디오 모델의 추론 능력, 특히 비디오 생성 을 통한 추론 능력을 체계적으로 평가하기 위한 포괄적인 벤치마크의 부재를 해결합니다.

#Review #Video Models #Spatial Reasoning #Maze Solving #Video Generation #Benchmark #Supervised Fine-tuning #Test-Time Scaling #Multimodal Reasoning

2025년 11월 19일

[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

본 논문은 고품질의 일관되고 제어 가능한 이미지 및 비디오 생성을 위한 AI/ML 분야의 핵심 과제를 해결하고자 합니다. 특히, 최신 이미지 및 10초 비디오 합성을 위한 Kandinsky 5.0 이라는 최첨단 파운데이션 모델 제품군을 개발하여 최고 수준의 품질과 운영 효율성을 달성하는 것을 목표로 합니다.

#Review #Image Generation #Video Generation #Diffusion Models #Flow Matching #Diffusion Transformer #NABLA #RLHF #Supervised Fine-tuning

2025년 11월 19일

[논문리뷰] Motif 2 12.7B technical report

대규모 언어 모델(LLM)의 효율성 한계를 확장하고, 제한된 컴퓨팅 자원 내에서 Motif-2-12.7B 모델이 우수한 성능을 발휘할 수 있음을 입증하는 것을 목표로 합니다. 특히 아키텍처 혁신과 시스템 수준 최적화를 통해 대형 모델에 필적하는 능력을 소규모 파라미터로 구현하고자 합니다.

#Review #Large Language Model #LLM Efficiency #Grouped Differential Attention #Kernel Fusion #Parallel Muon #Supervised Fine-tuning #Architectural Scaling #Instruction Following

2025년 11월 12일

[논문리뷰] Adapting Web Agents with Synthetic Supervision

웹 에이전트는 훈련 시 접하지 못한 새로운 웹사이트에 적응하는 데 어려움을 겪는데, 이는 환경별 태스크와 데모 데이터가 부족하기 때문입니다.

#Review #Web Agents #Synthetic Data Generation #LLM #Task Refinement #Trajectory Refinement #Supervised Fine-tuning #Web Automation #Environment Adaptation

2025년 11월 12일

[논문리뷰] Grounding Computer Use Agents on Human Demonstrations

이 연구는 컴퓨터 사용 에이전트(CUA)의 핵심 과제인 'grounding'의 신뢰성을 높이는 것을 목표로 합니다.

#Review #Computer Use Agents #UI Grounding #Desktop Applications #Human Demonstrations #Large-Scale Dataset #Vision-Language Models #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 11일

[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.

#Review #Reinforcement Learning with Verifiable Reward #Competitive Programming #Code Generation #Data Curation #Curriculum Learning #Supervised Fine-tuning #Entropy Expansion

2025년 11월 10일

[논문리뷰] DeepEyesV2: Toward Agentic Multimodal Model

본 논문은 텍스트와 이미지를 단순히 이해하는 것을 넘어, 코드 실행 환경 및 웹 검색 과 같은 외부 도구를 능동적으로 호출하고 이러한 도구 작업을 추론 과정에 원활하게 통합할 수 있는 Agentic 멀티모달 모델 을 구축하는 것을 목표로 합니다.

#Review #Agentic AI #Multimodal Models #Tool Use #Reinforcement Learning #Supervised Fine-tuning #Multimodal Reasoning #Web Search #Code Execution

2025년 11월 9일

[논문리뷰] UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

본 논문은 기존의 멀티모달 대규모 언어 모델(MLLMs) 기반 임베딩 모델 이 판별적(discriminative)이라는 한계를 해결하고, 추론 중심의 생성 패러다임의 이점을 활용하는 것을 목표로 합니다.

#Review #Multimodal Embeddings #Generative AI #Reasoning #Reinforcement Learning #MLLMs #Supervised Fine-tuning #Information Retrieval #Unified Embeddings

2025년 11월 9일

[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning

본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.

#Review #Conversational Recommender Systems #Large Language Models #Reinforcement Learning #Group Relative Policy Optimization #Rank-based Learning #Supervised Fine-tuning #Reward Shaping

2025년 11월 9일

[논문리뷰] UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models

기존 Large Vision Models (LVMs)이 태스크 및 모달리티별 사전 훈련 데이터에 대한 높은 의존성으로 인해 확장성이 제한되는 문제를 해결하고자 합니다.

#Review #Unified Vision Modeling #Video Generation #Diffusion Transformer #Supervised Fine-tuning #Cross-modal #Cross-source Tasks #Visual Sentences #LoRA

2025년 9월 29일

[논문리뷰] Mano Report

본 논문은 시각적 복잡성, 동적 환경, 다단계 추론 요구사항으로 인해 어려운 GUI 상호작용 자동화 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Agent #Multi-modal Foundation Model #Reinforcement Learning #Supervised Fine-tuning #Simulated Environment #Data Generation #Error Recovery #Web Automation

2025년 9월 23일

[논문리뷰] SAIL-VL2 Technical Report

본 논문은 포괄적인 멀티모달 이해 및 추론을 위한 개방형 비전-언어 파운데이션 모델인 SAIL-VL2 를 소개합니다. 특히 2B 및 8B 파라미터 스케일에서 다양한 이미지 및 비디오 벤치마크에 걸쳐 최첨단 성능을 달성하며, 효율적이고 확장 가능한 오픈소스 멀티모달 커뮤니티의 기반을 마련하는 것을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Understanding #Mixture-of-Experts #Progressive Training #Data Curation #Supervised Fine-tuning #Reinforcement Learning #SAIL-ViT

2025년 9월 18일

[논문리뷰] Towards General Agentic Intelligence via Environment Scaling

본 논문은 일반 에이전트 지능(General Agentic Intelligence)을 발전시키기 위해 대규모 언어 모델(LLM)의 함수 호출 능력 을 향상시키는 것을 목표로 합니다.

#Review #Agentic AI #Environment Scaling #Function Calling #Tool Use #Large Language Models #Synthetic Data Generation #Supervised Fine-tuning

2025년 9월 17일

[논문리뷰] ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

대규모 언어 모델(LLMs)의 CoT(Chain-of-Thought) 추론 능력은 뛰어나지만, 실제 배포 시 연산 비용을 효율적으로 제어하는 것이 어렵습니다.

#Review #LLMs #Controllable Reasoning #Computational Efficiency #Reinforcement Learning #Supervised Fine-tuning #Reasoning Compression #Budget-Aware Training

2025년 8월 27일

[논문리뷰] Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery

본 논문은 Large Language Models (LLMs) 의 분자 발견 분야 적용 시 나타나는 설명 가능성 및 추론 성능 한계를 해결하는 것을 목표로 합니다.

#Review #Molecule Discovery #Chain-of-Thought #Large Language Models #Reinforcement Learning #Supervised Fine-tuning #Molecular Generation #Explainable AI

2025년 8월 14일

[논문리뷰] Klear-Reasoner: Advancing Reasoning Capability via Gradient-Preserving Clipping Policy Optimization

본 논문은 고성능 추론 모델의 훈련 세부사항이 불완전하게 공개되어 재현이 어려운 문제를 해결하고, 기존 RL(강화 학습)의 클리핑 메커니즘 이 탐색 신호를 억제하고 비최적 궤적을 무시하는 한계를 극복하여 언어 모델의 추론 능력을 극대화하는 것을 목표로 합니다.

#Review #Reasoning LLMs #Reinforcement Learning #PPO #Gradient Clipping #Supervised Fine-tuning #Math Reasoning #Code Generation #Policy Optimization

2025년 8월 12일

[논문리뷰] Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following

본 논문은 대규모 언어 모델(LLMs)이 복잡한 지시를 따를 때 흔히 발생하는 '게으른 추론' 문제로 인한 일관성 부족을 해결하고자 합니다.

#Review #LLMs #Instruction Following #Reasoning #Reinforcement Learning #Supervised Fine-tuning #Entropy Regularization #Self-Checking #Previewing

2025년 8월 7일

[논문리뷰] Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

본 논문은 데이터 품질 격차로 인해 독점 모델에 뒤처지는 Fully Open MLLM 의 한계를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Data Curation #Supervised Fine-tuning #Chain-of-Thought #Open-source AI #Data Quality #MLLM Training

2025년 10월 16일

[논문리뷰] Detect Anything via Next Point Prediction

본 논문은 MLLM(Multimodal Large Language Model) 기반 객체 감지에서 발생하는 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제를 해결하고, 기존 회귀 기반 모델과 동등하거나 이를 능가하는 제로샷 객체 인식 성능 을 달성하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Object Detection #Coordinate Prediction #Reinforcement Learning #Supervised Fine-tuning #Visual Perception #Zero-shot Learning #Spatial Reasoning

2025년 10월 15일

[논문리뷰] StreamingVLM: Real-Time Understanding for Infinite Video Streams

본 논문은 near-infinite 비디오 스트림 을 이해하는 데 있어 기존 VLM이 겪는 높은 지연 시간과 메모리 사용량 증가 문제를 해결하는 것을 목표로 합니다.

#Review #Video Stream Understanding #Real-Time VLM #Attention Sink #KV Cache Management #Contiguous RoPE #Supervised Fine-tuning #Long-Context Video

2025년 10월 13일

[논문리뷰] A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 긴 시간 범위의 태스크에서 글로벌 플래닝 능력 부족 으로 인해 겪는 '뇌 없는 시행착오'와 '플래닝 환각' 문제를 해결하고자 합니다. 인간의 개입 없이 효율적이고 효과적으로 플래너를 훈련하여 LLM 에이전트의 플래닝 능력을 향상시키는 것이 주된 연구 목표입니다.

#Review #Long-Horizon Tasks #LLM Agents #Global Planning #Reinforcement Learning #Supervised Fine-tuning #Homologous Consensus Filtering #Executor Capability Gain Reward #Plan-and-Execute

2025년 10월 13일

[논문리뷰] Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models

본 논문은 Large Language Models (LLMs)의 강력한 추론 능력이 검색(retrieval) 작업에서 충분히 활용되지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Sentence Embedding #Retrieval-Augmented Generation #Chain-of-Thought #Information Retrieval #Supervised Fine-tuning

2025년 10월 10일

[논문리뷰] CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling

본 연구는 Large Reasoning Models (LRMs)을 최적화 모델링 태스크에 효과적으로 적용하기 위한 새로운 프레임워크를 제안합니다.

#Review #Large Reasoning Models #Optimization Modeling #Reflective Generation #Supervised Fine-tuning #Reinforcement Learning #Human-in-the-Loop #Code Generation #Domain Adaptation

2025년 10월 9일

[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Process Reward Models #Tabular Reasoning #Test-Time Scaling #Tool Integration #Reinforcement Learning #Supervised Fine-tuning #Large Language Models #Data Curation

2025년 10월 8일

[논문리뷰] Judging with Confidence: Calibrating Autoraters to Preference Distributions

이 논문은 현재 LLM 기반 자동 평가자(autoraters)가 이진 선호 레이블로만 훈련되어 인간 판단의 주관성과 분포적 특성을 간과하고, 불확실성과 소수 의견을 무시하는 근본적인 한계를 해결하고자 합니다.

#Review #Large Language Models #Autoraters #Calibration #Preference Distributions #Reinforcement Learning #Supervised Fine-tuning #Positional Bias

2025년 10월 7일

[논문리뷰] Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 극대화하기 위해 사전 훈련(pretraining)과 지도 미세 조정(SFT) 단계 간에 추론 데이터를 최적으로 할당하는 방법을 체계적으로 탐구하는 것을 목표로 합니다.

#Review #Large Language Models #Pretraining #Supervised Fine-tuning #Reasoning Data #Data Allocation #Diversity #Quality #Reinforcement Learning

2025년 10월 7일

[논문리뷰] Directional Reasoning Injection for Fine-Tuning MLLMs

논문은 멀티모달 대규모 언어 모델(MLLM)의 추론 능력이 텍스트 전용 LLM에 비해 현저히 떨어진다는 문제에 주목합니다. 대규모 멀티모달 추론 데이터셋이나 강화 학습 없이도, 텍스트 전용 추론 전문가 모델 의 추론 지식을 비추론 멀티모달 LLM 으로 효율적으로 전이하는 경량화된 방법을 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reasoning Transfer #Gradient-based Fine-tuning #Model Merging #Parameter-Efficient Learning #Supervised Fine-tuning #Directional Prior

2025년 10월 23일

[논문리뷰] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

본 논문은 기존 컴퓨터 사용 에이전트(CUA)가 저수준 GUI 원시 액션에만 의존하여 발생하는 비효율성과 오류 전파 문제를 해결하고자 합니다.

#Review #Computer Use Agents #Hybrid Action #Foundation Models #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data Generation #Tool Learning #GUI Automation

2025년 10월 21일

[논문리뷰] PIPer: On-Device Environment Setup via Online Reinforcement Learning

소프트웨어 엔지니어링(SE)에서 환경 설정(environment setup)은 지속적인 과제로 남아 있으며, 기존 대규모 언어 모델(LLM)조차 이를 자동화하는 데 제한적인 성공을 보였습니다. 본 연구는 특히 온디바이스에서 실행 가능한 소형 오픈소스 LLM의 환경 설정 역량을 향상시키는 것을 목표로 합니다.

#Review #Environment Setup #LLMs #Reinforcement Learning #Supervised Fine-tuning #On-device AI #Software Engineering #Verifiable Rewards

2025년 10월 2일

[논문리뷰] Infusing Theory of Mind into Socially Intelligent LLM Agents

본 논문은 대화형 LLM(Large Language Model) 기반 소셜 에이전트가 타인의 정신 상태 이해 능력(Theory of Mind, ToM) 을 통합함으로써 사회적 지능과 목표 달성 능력을 향상시키는 것을 목표로 합니다.

#Review #Theory of Mind #Large Language Models #Social Agents #Dialogue Systems #Mental State Modeling #Look-ahead Planning #Supervised Fine-tuning #Sotopia Benchmark

2025년 10월 2일

[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents

본 논문은 낮은 지연 시간, 강력한 프라이버시 보장 및 제한된 연결성 환경에서 견고한 동작을 요구하는 온디바이스 GUI 에이전트 개발의 과제를 해결하고자 합니다.

#Review #GUI Agents #On-Device AI #Multimodal LLM #GUI Grounding #GUI Navigation #Reinforcement Learning #Supervised Fine-tuning #Synthetic Data

2025년 10월 1일