[논문리뷰] SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs기존 MLLM(Multimodal Large Language Models)이 고정된 추론 패턴(텍스트 전용, 시각 전용, 시각-텍스트 혼합)과 시각적 사고(visual thought)의 고정된 길이로 인해 시각 집중 태스크에서 성능 저하 및 텍스트 기반 논리 추론 능력 손상을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Reasoning Modes#Hybrid Autoregressive#Latent Visual Reasoning#Dynamic Mode Selection#Supervised Fine-tuning#Vision-Language Tasks2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Monet: Reasoning in Latent Visual Space Beyond Images and Language본 논문은 기존 MLLMs의 시각 추론이 외부 도구에 의존하고 인간과 같은 추상적인 시각적 사고가 부족하다는 문제를 해결하고자 합니다.#Review#Latent Visual Reasoning#Multimodal Large Language Models (MLLMs)#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Visual-latent Policy Optimization (VLPO)#Chain-of-Thought (CoT)#Abstract Visual Thinking2025년 11월 26일댓글 수 로딩 중