[논문리뷰] SWE-Lego: Pushing the Limits of Supervised Fine-tuning for Software Issue Resolving본 논문은 소프트웨어 엔지니어링(SWE) 문제 해결 분야에서 SFT (Supervised Fine-tuning) 전용 경량 접근 방식 의 한계를 확장하여 최첨단 성능을 달성하는 것을 목표로 합니다. 복잡한 훈련 패러다임(예: 중간 훈련, 강화 학습) 없이도 SFT만으로 높은 성능을 낼 수 있음을 보여주고자 합니다.#Review#Software Engineering#Issue Resolution#Supervised Fine-tuning (SFT)#Large Language Models (LLMs)#Hybrid Dataset#Error Masking#Curriculum Learning#Test-Time Scaling (TTS)#Generative Verifiers2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling본 연구는 7B 파라미터의 소규모 언어 모델(SLM)인 Falcon-H1R 이 대규모 모델(2배에서 7배 더 큼)과 경쟁하거나 능가하는 추론 성능을 달성할 수 있음을 입증하는 것을 목표로 합니다.#Review#Reasoning#Small Language Models (SLMs)#Hybrid Architecture#Test-Time Scaling (TTS)#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#DeepConf#Computational Efficiency2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models본 논문은 비디오 이해의 복잡한 시공간적 관계, 장기 의존성, 다중 모달 증거 통합 추론 문제를 해결하기 위해 Video-Large Multimodal Models (Video-LMMs) 의 '포스트 트레이닝(Post-training)' 방법론을 최초로 포괄적으로 분석하는 것을 목표로 합니다.#Review#Video Reasoning#Large Multimodal Models (LMMs)#Post-training#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Test-Time Scaling (TTS)#Chain-of-Thought (CoT)2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned이 논문은 대규모 언어 모델(LLM)의 추론 신뢰성을 향상시키는 프로세스 보상 모델(PRM)을 시각-언어 모델(VLM) 영역으로 확장하고자 합니다.#Review#Vision-Language Models (VLMs)#Process Reward Models (PRMs)#Multimodal Reasoning#Test-Time Scaling (TTS)#Process Supervision#Dataset Construction#Perception Errors#MCTS2025년 10월 2일댓글 수 로딩 중