#SFT

5개의 포스트

[논문리뷰] On the Geometry of On-Policy Distillation

본 논문은 OPD가 SFT와 RLVR의 특성을 모두 공유함에도 불구하고, 파라미터 공간에서의 구체적인 학습 동역학(training dynamics)은 제대로 규명되지 않았다는 점을 핵심 문제로 정의합니다.

#Review #On-policy Distillation #Parameter-space Geometry #Subspace Locking #SFT #RLVR #Large Language Models

2026년 6월 8일

[논문리뷰] Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

본 논문은 Foundation Models가 수동적인 시각적 이해를 넘어, 능동적인 탐색을 통해 3D 공간에서 목표 시점을 정확히 재현할 수 있는지 질문합니다 . 기존 연구들은 주로 사전에 수집된 데이터에 의존하여 '무엇이 어디에 있는가'를 묻는 정적인 공간 지능에 집중해 왔습니다.

#Review #Target Viewpoint Reproduction #TVRBench #Active Exploration #Foundation Models #Spatial Intelligence #Embodied AI #GRPO #SFT

2026년 6월 1일

[논문리뷰] OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

본 연구는 고성능 search agent 개발이 자본과 컴퓨팅 자원이 막대한 기업 주도의 CPT+SFT+RL 파이프라인에 종속된 현실을 비판적으로 접근합니다. 기존의 복잡한 학습 방식은 학계의 진입 장벽을 높이고 연구 생태계의 폐쇄성을 야기합니다.

#Review #Search Agent #SFT #ReAct #Data Quality #Long-horizon Reasoning #Data Synthesis

2026년 5월 5일

[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language Models

Diffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Language Models #Post-Training #Reinforcement Learning #GRPO #FlexAttention #LMDeploy #Math Reasoning #SFT

2025년 12월 29일

[논문리뷰] Compressing Chain-of-Thought in LLMs via Step Entropy

Large Language Models(LLMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도한 상세함과 중복성으로 인한 높은 추론 비용 및 비효율성을 해결하는 것이 주요 목표입니다.

#Review #LLM #Chain-of-Thought #CoT Compression #Step Entropy #Reinforcement Learning #SFT #GRPO

2025년 8월 12일