[논문리뷰] LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models본 논문은 기존 확산 언어 모델(dLLMs) 기반 추론 시스템이 겪는 태스크 특이성, RL 학습 불안정성, 훈련 신호 부족 등의 문제를 해결하고자 합니다.#Review#Multimodal Diffusion Models#Reasoning#Reinforcement Learning#Supervised Finetuning#Visual Question Answering#Image Editing#Object Grounding#Policy Gradient2026년 2월 16일댓글 수 로딩 중
[논문리뷰] SERA: Soft-Verified Efficient Repository Agents본 논문은 폐쇄형 시스템 대비 오픈 소스 코딩 에이전트의 강점인 사설 코드베이스 특화 능력 을 저비용으로 실현하는 것을 목표로 합니다. 기존 훈련 방식의 높은 비용과 복잡성으로 인해 이론에 머물렀던 이점을 극복하고, 효율적인 데이터 생성 및 학습 방법론 을 제시하여 실질적인 적용 가능성을 입증하고자 합니다.#Review#Coding Agents#Synthetic Data Generation#Repository Specialization#Supervised Finetuning#Soft Verification#Cost-Efficiency#SWE-bench2026년 1월 28일댓글 수 로딩 중
[논문리뷰] HoneyBee: Data Recipes for Vision-Language Reasoners본 연구는 고성능 시각-언어(VL) 추론 훈련 데이터셋 구축의 원리를 규명하고, 다양한 데이터 큐레이션 접근 방식이 VL 추론 능력에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.#Review#Vision-Language Models#Data Curation#Chain-of-Thought#VL Reasoning#Dataset Scaling#Supervised Finetuning#HONEYBEE#Test-Time Scaling2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Extracting alignment data in open models본 논문은 오픈 모델에서 정렬(alignment) 훈련 데이터 를 효과적으로 추출하는 가능성을 탐구하고, 기존 문자열 매칭 기반의 메모리 추출 방식이 갖는 한계를 극복하는 것을 목표로 합니다.#Review#Alignment Data Extraction#Large Language Models#Memorization#Neural Embeddings#Semantic Similarity#Chat Templates#Model Distillation#Reinforcement Learning#Supervised Finetuning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] RL makes MLLMs see better than SFT본 논문은 MLLM(Multimodal Language Model) 연구에서 LLM 백본 에 대한 지배적인 가정으로 인해 비전 인코더 의 역할이 간과되어 왔다는 문제의식에서 출발합니다.#Review#Multimodal Language Models#Reinforcement Learning#Supervised Finetuning#Vision Encoder#Visual Representations#Direct Preference Optimization#Preference Alignment#PIVOT2025년 10월 21일댓글 수 로딩 중