[논문리뷰] Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization논문은 사전 훈련된 Vision-Language-Action (VLA) 모델이 로봇 액션 태스크에 미세 조정될 때 발생하는 시각 표현의 퇴화(degradation) 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#OOD Generalization#Representation Alignment#Fine-tuning#Robotics#Visual Representations#Attention Maps#t-SNE2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RL makes MLLMs see better than SFT본 논문은 MLLM(Multimodal Language Model) 연구에서 LLM 백본 에 대한 지배적인 가정으로 인해 비전 인코더 의 역할이 간과되어 왔다는 문제의식에서 출발합니다.#Review#Multimodal Language Models#Reinforcement Learning#Supervised Finetuning#Vision Encoder#Visual Representations#Direct Preference Optimization#Preference Alignment#PIVOT2025년 10월 21일댓글 수 로딩 중