[논문리뷰] From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning본 논문은 다중모드 대규모 추론 모델(MLRMs) 의 콜드-스타트 초기화(cold-start initialization) 단계의 메커니즘을 분석하고 최적화하여, 모델의 다중모드 추론 성능과 시각적 기반(visual grounding) 능력을 향상시키는 것을 목표로 합니다.#Review#Multimodal Reasoning#Cold-Start Initialization#Attention Mechanism#Visual Grounding#Large Multimodal Models (LMMs)#Reinforcement Learning (RLHF)#Data Synthesis#Visual Attention Score (VAS)2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Step-Audio-EditX Technical Report이 논문은 표현력이 풍부하고 반복적인 음성 편집(감정, 말하기 스타일, 운율 포함)과 강력한 제로샷 텍스트-음성 변환(TTS) 기능을 제공하는 최초의 오픈소스 LLM 기반 오디오 모델인 Step-Audio-EditX 를 제안합니다.#Review#LLM-based Audio Model#Audio Editing#Text-to-Speech (TTS)#Zero-shot Learning#Large-Margin Data#Reinforcement Learning (RLHF)#Emotion Control#Speaking Style Transfer2025년 11월 9일댓글 수 로딩 중