[논문리뷰] Video-CoE: Reinforcing Video Event Prediction via Chain of Events비디오 태스크에 대한 MLLM 애플리케이션의 발전에도 불구하고, VEP 는 상대적으로 미개척 상태로 남아있습니다.#Review#Video Event Prediction (VEP)#Multimodal Large Language Models (MLLMs)#Chain of Events (CoE)#Logical Reasoning#Visual Grounding#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training금융 도메인 LLM 배포의 어려움(밀도 높은 전문 용어, 엄격한 수치 추론, 낮은 오류 허용치)을 해결하고, 특히 데이터 품질 과 훈련 데이터의 난이도/검증 가능성 프로필 이 특수 수직 도메인에서의 LLM 성능에 미치는 영향을 체계적으로 이해하는 것을 목표로 합니다.#Review#Financial LLMs#Data-Centric AI#Distillation#Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Difficulty-Aware Training#Data Quality2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Controllable Memory Usage: Balancing Anchoring and Innovation in Long-Term Human-Agent Interaction본 논문은 장기적인 인간-에이전트 상호작용에서 LLM 기반 에이전트가 겪는 메모리 앵커링(Memory Anchoring) 문제(과거 상호작용에 과도하게 갇히는 현상)와 메모리 활용 부족 문제를 해결하고자 합니다.#Review#Long-Term Human-Agent Interaction#Controllable Memory#Memory Anchoring#Large Language Models (LLMs)#Personalization#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Memory Dependence2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting본 논문은 Supervised Fine-Tuning (SFT) 과정에서 발생하는 catastrophic forgetting 의 근본 원인을 분석하고, 이를 완화하기 위한 새로운 방법론을 제시합니다.#Review#Supervised Fine-Tuning (SFT)#Catastrophic Forgetting#Entropy-Adaptive Fine-Tuning (EAFT)#Large Language Models (LLMs)#Domain Adaptation#Reinforcement Learning (RL)#Confident Conflicts2026년 1월 7일댓글 수 로딩 중
[논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling본 연구는 7B 파라미터의 소규모 언어 모델(SLM)인 Falcon-H1R 이 대규모 모델(2배에서 7배 더 큼)과 경쟁하거나 능가하는 추론 성능을 달성할 수 있음을 입증하는 것을 목표로 합니다.#Review#Reasoning#Small Language Models (SLMs)#Hybrid Architecture#Test-Time Scaling (TTS)#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#DeepConf#Computational Efficiency2026년 1월 5일댓글 수 로딩 중
[논문리뷰] DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation본 논문은 기존 비디오 생성 모델들이 시각적 연속성과 시간적 일관성을 유지하지 못하는 '원샷' 비디오 생성의 한계를 해결하고자 합니다.#Review#Video Generation#One-Shot Video#Diffusion Transformer (DiT)#Frame-Guided Generation#Auto-Regressive Generation#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding본 논문은 Multimodal Large Language Models (MLLMs)가 실제 환경의 극심한 시각적 열화(visual degradations) 조건에서 성능이 크게 저하되는 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Visual Degradation#Robustness#Reasoning Chains#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Degradation-Aware Reasoning#Interpretability2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning본 논문은 기존의 AI 생성 비디오 탐지 모델이 이진 분류에만 초점을 맞추고 설명 가능성이 부족하다는 한계를 해결하고자 합니다.#Review#AI-Generated Video Detection#Multimodal Large Language Model (MLLM)#Artifact Reasoning#Explainable AI#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Video Forensics2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection본 논문은 정적인 이미지에 국한된 기존 Vision-Language Models (VLMs) 의 Visual Question Answering (VQA) 한계를 극복하고, 앰뷸러토리 비전 능력을 갖춘 에이전트가 더 유익한 시점을 능동적으로 선택하도록 학습시키는 것을 목표로 합니다.#Review#Active Perception#Vision-Language Models (VLMs)#Embodied AI#View Selection#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Visual Question Answering (VQA)#3D Environments2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization본 논문은 Vision-Language Models (VLMs)에서 일반화 가능한 시각적 추론 능력을 습득하는 데 다양한 Chain-of-Thought (CoT) 설계 방식 이 어떻게 영향을 미치는지 체계적으로 분석하는 것을 목표로 합니다.#Review#Chain-of-Thought (CoT)#Vision-Language Models (VLMs)#Visual Reasoning#Generalization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Grounding CoT#Maze Solving2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B이 논문은 소규모 모델이 강력한 추론 능력을 갖추기 어렵다는 기존의 통념에 도전하고, 1.5B 파라미터 의 경량 모델인 VibeThinker-1.5B 가 대규모 모델에 필적하는 추론 능력을 경제적으로 달성할 수 있음을 입증하는 것을 목표로 합니다.#Review#Small Language Models#Reasoning#Diversity Optimization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning#Code Generation2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-Training본 연구는 LLM의 가치 정렬이 사후 훈련 과정에서 언제, 어떻게 발생하는지에 대한 기존 연구의 공백을 해결하고자 합니다. 특히, 모델이 인간의 가치를 학습하고 표현하는 훈련 역학을 간과하는 문제에 주목하여, 사후 훈련 단계에서 모델의 가치가 어떻게 진화하는지 추적하고 정량화하는 것을 목표로 합니다.#Review#LLM Alignment#Value Drift#Supervised Fine-Tuning (SFT)#Preference Optimization#RLHF#Llama-3#Qwen-3#Human Values2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning본 논문은 복잡한 추론 능력을 향상시키기 위해 어려운 수학 문제 의 생성을 확장하는 효율적인 파이프라인인 ScaleDiff 를 제안합니다. 기존의 문제 생성 방식이 높은 비용, 복잡한 프롬프트 엔지니어링, 그리고 제한적인 난이도 수준으로 인해 확장성이 부족하다는 한계를 극복하고자 합니다.#Review#Mathematical Reasoning#Large Reasoning Models (LRMs)#Difficulty Scaling#Data Augmentation#Supervised Fine-Tuning (SFT)#Problem Generation#Solution Distillation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Logics-Parsing Technical Report본 논문은 기존 LVLM이 복잡한 문서 레이아웃 및 읽기 순서 처리에서 겪는 한계를 극복하고, 이를 위해 강화 학습(Reinforcement Learning) 을 통해 고도화된 종단 간 LVLM 기반 문서 파싱 모델 을 개발하는 것을 목표로 합니다.#Review#Document Parsing#Large Vision-Language Models (LVLM)#Reinforcement Learning (RL)#Layout Analysis#Reading Order#Supervised Fine-Tuning (SFT)#HTML Annotation#Benchmarking2025년 9월 25일댓글 수 로딩 중
[논문리뷰] Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels본 논문은 LLM에서 SFT가 모델의 지식에 미치는 영향 이 충분히 이해되지 않고 있다는 문제의식에서 출발합니다.#Review#Supervised Fine-Tuning (SFT)#Large Language Models (LLMs)#Model Knowledge#Closed-Book Question Answering (CBQA)#Parameter Restoration#Kullback-Leibler Divergence#Knowledge Forgetting2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Improving Context Fidelity via Native Retrieval-Augmented Reasoning논문은 대규모 언어 모델(LLMs)이 제공된 컨텍스트에 대한 충실도(context fidelity)를 유지하지 못하고, 질문에 대한 답변 생성 시 일관성 없는 결과를 내거나 환각(hallucination)을 일으키는 문제를 해결하고자 합니다.#Review#Context Fidelity#Retrieval-Augmented Generation (RAG)#Large Language Models (LLMs)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Hallucination#Question Answering#In-context Retrieval#Curriculum Learning2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Towards a Unified View of Large Language Model Post-Training본 논문은 LLM의 포스트 트레이닝 과정에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 이 별개의 목표가 아니라, 단일 최적화 프로세스의 인스턴스임을 이론적으로 통합하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Post-Training#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Policy Gradient#Unified Framework#Hybrid Algorithms#Bias-Variance Tradeoff2025년 9월 5일댓글 수 로딩 중
[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification표준 Supervised Fine-Tuning (SFT)이 Reinforcement Learning (RL)에 비해 제한적인 일반화 성능 을 보이는 문제를 해결하는 것이 목표입니다.#Review#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization#Reward Rectification#Dynamic Fine-Tuning (DFT)#LLM#Policy Gradient#Mathematical Reasoning2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Are Today's LLMs Ready to Explain Well-Being Concepts?본 연구는 대규모 언어 모델(LLMs)이 웰빙 개념을 정확하고 다양한 잠재 고객(일반 대중 및 도메인 전문가)에게 적합하게 설명할 준비가 되어 있는지를 체계적으로 평가하는 것을 목표로 합니다. 특히, 기존 LLM의 한계를 분석하고 미세 조정을 통해 설명 품질을 개선할 수 있는지 탐구합니다.#Review#Large Language Models#Well-being Concepts#LLM Evaluation#Principle-Guided Evaluation#LLM-as-a-Judge#Supervised Fine-Tuning (SFT)#Direct Preference Optimization (DPO)#Explanation Generation2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Apriel-1.5-15b-Thinker본 연구는 대규모 언어 모델(LLM)의 성능과 접근성 사이의 근본적인 한계를 극복하고, 150억 개 파라미터 의 비교적 작은 오픈-웨이트 모델인 Apriel-1.5-15B-Thinker 가 순수한 규모 대신 훈련 디자인 을 통해 최첨단 멀티모달 추론 성능을 달성하는 것을 목표로 합니다.#Review#Multimodal Reasoning Model#Open-Weights Model#Continual Pretraining (CPT)#Supervised Fine-Tuning (SFT)#Training Design#Efficiency#Frontier Performance2025년 10월 6일댓글 수 로딩 중
[논문리뷰] UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning본 논문은 GUI 그라운딩(grounding) 태스크에서 자연어 명령어의 다양성과 품질 이 모델 성능에 미치는 영향을 간과했던 기존 연구의 한계를 극복하고자 합니다. 명령어에 존재하는 23.3%의 오류율 을 개선하고, 추론 시 명령어 다양성 을 활용하여 최대 76%의 상대적 성능 향상 을 목표로 합니다.#Review#GUI Grounding#Natural Language Instructions#Multi-Perspective Reasoning#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Policy Collapse Mitigation#GUI Agents2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense본 논문은 대규모 추론 모델(LRMs)에서 '추론 방해(Reasoning Distraction)' 라는 새로운 취약점을 식별하고 체계적으로 분석하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#Prompt Injection#Adversarial Attack#Reasoning Distraction#Chain-of-Thought#Robustness#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training대규모 추론 모델의 후처리 훈련(Post-Training) 기법(SFT, RL 등)이 모델의 추론 능력 향상에 기여하는 내부 아키텍처 메커니즘의 불투명성을 해소하는 것이 주요 목표입니다.#Review#Mechanistic Interpretability#Attention Heads#Post-Training#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Circuit Analysis#Reasoning Models#Transformer Architecture2025년 10월 1일댓글 수 로딩 중