[논문리뷰] RoboAlign: Learning Test-Time Reasoning for Language-Action Alignment in Vision-Language-Action Models최근 VLA는 로봇 공학 분야에서 두드러진 성과를 보이며, MLLM의 시각 인지, 언어 이해 및 상식 지식을 활용하여 실제 시나리오에서 일반화 가능한 로봇 정책 학습의 기반을 제공합니다.#Review#Vision-Language-Action Models (VLAs)#Multimodal-Large-Language Models (MLLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Embodied Reasoning#Low-level Actions#FAST tokenization#Robotics2026년 3월 23일댓글 수 로딩 중
[논문리뷰] RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation본 연구는 기존 LLM 기반의 동료 평가 리뷰가 종종 피상적이고 구체적인 실행 가능한 지침이 부족하다는 문제점을 해결하고자 합니다. 저자의 재반박(rebuttal) 을 암묵적인 감독 신호로 활용하여 실행 가능한(actionable) 리뷰 피드백 을 생성하는 것을 목표로 합니다.#Review#Peer Review#Rebuttal#Actionable Feedback#Large Language Models (LLMs)#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#RMR-75K Dataset#Review Feedback Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] On Data Engineering for Scaling LLM Terminal Capabilities본 논문은 최신 터미널 에이전트의 훈련 데이터 전략에 대한 정보 부족을 해결하고자 합니다. LLM의 터미널 역량 확장을 위한 데이터 엔지니어링 실천법을 체계적으로 연구하고, 효율적이고 확장 가능한 데이터 생성 프레임워크를 통해 효과적인 터미널 에이전트를 훈련하는 것을 목표로 합니다.#Review#LLM#Terminal Agents#Data Engineering#Synthetic Data Generation#Supervised Fine-tuning (SFT)#Terminal-Bench#Nemotron-Terminal#Dataset Adapters2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning본 논문은 Chain-of-Thought (CoT) 데이터를 활용한 지도 미세 조정(SFT) 단계에서 제한된 고품질 데이터 를 가장 효과적으로 활용하는 방법을 탐구합니다.#Review#Supervised Fine-tuning (SFT)#Chain-of-Thought (CoT)#Data Repetition#Data Scaling#LLM Training#Generalization#Overfitting#Reasoning Models2026년 2월 11일댓글 수 로딩 중
[논문리뷰] X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests본 논문은 경쟁 프로그래밍(Competitive Programming)을 위한 코드 LLM(Large Language Model)이 실제 데이터의 희소성으로 인해 겪는 한계를 극복하는 것을 목표로 합니다.#Review#Competitive Programming#Code LLMs#Synthetic Data Generation#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Dual Verification#Scaling Laws#SynthSmith2026년 1월 12일댓글 수 로딩 중
[논문리뷰] SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving본 논문은 소프트웨어 엔지니어링(SWE) 문제 해결 분야에서 SFT (Supervised Fine-tuning) 전용 경량 접근 방식 의 한계를 확장하여 최첨단 성능을 달성하는 것을 목표로 합니다. 복잡한 훈련 패러다임(예: 중간 훈련, 강화 학습) 없이도 SFT만으로 높은 성능을 낼 수 있음을 보여주고자 합니다.#Review#Software Engineering#Issue Resolution#Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Hybrid Dataset#Error Masking#Curriculum Learning#Test-Time Scaling (TTS)#Generative Verifiers2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch기존 멀티모달 에이전트 시스템의 한계, 즉 이미지 조작과 웹 검색의 분리, 값비싼 강화 학습(RL) 의존성, 실제 도구 실행과 괴리된 계획 수립 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal AI#Agentic Models#Interleaved Reasoning#Image Manipulation#DeepSearch#Supervised Fine-tuning (SFT)#Tool-Augmented LLM2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Monet: Reasoning in Latent Visual Space Beyond Images and Language본 논문은 기존 MLLMs의 시각 추론이 외부 도구에 의존하고 인간과 같은 추상적인 시각적 사고가 부족하다는 문제를 해결하고자 합니다.#Review#Latent Visual Reasoning#Multimodal Large Language Models (MLLMs)#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Visual-latent Policy Optimization (VLPO)#Chain-of-Thought (CoT)#Abstract Visual Thinking2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation본 논문은 시각 콘텐츠 생성 과정에서 발생하는 장기적인 구성, 다중 엔티티 관계 및 미묘한 지시사항 준수와 같은 문제점을 해결하기 위해, 텍스트 기반 추론(think)을 시각 생성(generate) 과정에 실시간으로 상호 연동(interleaving) 하는 프레임워크인 Thinking-while-Generating (TWIG) 를 제안합니다.#Review#Visual Generation#Textual Reasoning#Interleaving#Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)2025년 11월 20일댓글 수 로딩 중
[논문리뷰] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents본 논문은 복잡한 정보 탐색과 다단계 웹 탐색을 요구하는 장기 웹 에이전트 를 훈련하기 위한 핵심 과제인 고품질 훈련 데이터 부족 문제 를 해결하고자 합니다.#Review#Web Agents#Long-Horizon Reasoning#Large Language Models (LLMs)#Data Generation#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Web Navigation#Information Retrieval2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information본 논문은 기존 수학 벤치마크가 잘 정의된 문제 해결 능력에만 초점을 맞추는 한계를 지적하며, Large Reasoning Models (LRMs) 이 정보가 불충분한 문제에 직면했을 때 능동적으로 정보를 요청하는 능력 을 평가하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#Information Seeking#Incomplete Problems#Mathematical Reasoning#Supervised Fine-tuning (SFT)#Overthinking#Hallucination#CRITIC-math2025년 8월 19일댓글 수 로딩 중
[논문리뷰] InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 확장 가능 하고 샘플 효율적인 후속 학습 프레임워크인 InfiAlign 을 제안합니다. 특히, 데이터 및 계산 비용이 많이 드는 기존 방법론의 한계를 극복하고, 적은 양의 고품질 데이터로도 LLM 정렬을 효과적으로 수행하는 것을 목표로 합니다.#Review#LLM Alignment#Reasoning#Data Curation#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#Sample Efficiency#Scalability#Multi-dimensional Filtering2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Tool-integrated Reinforcement Learning for Repo Deep Search소프트웨어 이슈 설명과 실제 결함 코드 사이의 의미론적 간극 및 다중 홉 추론 으로 인해 발생하는 이슈 로컬라이제이션(결함 코드 위치 식별)의 어려움을 해결하는 것이 목표입니다. 특히, LLM 기반 에이전트가 저장소 검색 도구를 효과적으로 활용하여 이슈 로컬라이제이션 을 수행하는 능력을 강화하고자 합니다.#Review#Issue Localization#Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Tool-integrated Agents#Software Engineering#Code Search2025년 8월 6일댓글 수 로딩 중
[논문리뷰] ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability논문은 기존 Long Chain-of-Thought (CoT) 추론 모델 들이 답변 정확도와 토큰 효율성에만 집중하여 신뢰성(trustworthiness) 을 간과하는 문제를 해결하고자 합니다.#Review#Trustworthy AI#Large Reasoning Models (LRMs)#Interpretability#Faithfulness#Reliability#Chain-of-Thought (CoT)#Supervised Fine-tuning (SFT)#GRPO2025년 10월 15일댓글 수 로딩 중
[논문리뷰] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning본 논문은 소규모 Vision-Language Model(VLM)이 복잡한 Embodied AI 태스크를 수행하는 데 필요한 지식과 기술 부족 문제를 해결하고자 합니다.#Review#Embodied AI#Vision Language Models (VLMs)#Reinforcement Learning (RL)#Prior Learning#Supervised Fine-tuning (SFT)#Embodied Agents2025년 10월 15일댓글 수 로딩 중
[논문리뷰] First Try Matters: Revisiting the Role of Reflection in Reasoning Models본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 '반영(reflection)'의 실제 기여도를 체계적으로 분석하는 것을 목표로 합니다. 특히, 모델이 이미 후보 답변을 생성한 후에도 계속되는 추론 단계가 오류 수정에 실질적으로 도움이 되는지, 아니면 초기 결론을 재확인하는 역할을 하는지 밝히고자 합니다.#Review#Large Language Models (LLMs)#Reasoning#Chain-of-Thought (CoT)#Reflection#Early Stopping#Supervised Fine-tuning (SFT)#Token Efficiency#Mathematical Reasoning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought본 논문은 중간 자원 언어(mid-resource language)에서 언어별 추론의 격차를 해소하고, 번역으로 인한 품질 저하 및 일상 표현에 대한 취약성을 극복하는 것을 목표로 합니다. 특히 한국어를 사례 연구로 하여, 다국어 추론 모델의 성능을 향상시키기 위한 효과적인 방법론을 제시하고자 합니다.#Review#Multilingual Reasoning#Chain-of-Thought (CoT)#Language-Mixed CoT#Instruction Tuning#Korean LLMs#Data Curation#Supervised Fine-tuning (SFT)2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.#Review#Video Reasoning#Large Multimodal Models (LMMs)#Post-training#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)2025년 10월 7일댓글 수 로딩 중
[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.#Review#Multi-turn Reinforcement Learning#LLM Agents#Text-based Environments#Reward Shaping#Policy Optimization#Supervised Fine-tuning (SFT)#Generalization#Environment Complexity2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum본 연구는 대규모 언어 모델(LLM) 의 지도 미세 조정(SFT) 에서 흔히 발생하는 일반화 한계를 해결하고자 합니다.#Review#Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Training Objectives#Negative Log Likelihood (NLL)#Model Capability Continuum#Generalization#Probability-based Loss Functions2025년 10월 2일댓글 수 로딩 중