[논문리뷰] StableVLA: Towards Robust Vision-Language-Action Models without Extra Data본 논문은 기존 VLA 모델들이 훈련 데이터에 포함되지 않은 실세계의 다양한 시각적 노이즈(센서 노이즈, 모션 블러 등)에 매우 취약하다는 점을 지적합니다. 현재의 VLA 모델은 주로 깨끗한 환경에서만 평가되며, 실제 배포 시 시각적 왜곡이 발생하면 성능이 급격히 저하되는 'robustness gap'을 보입니다.#Review#Vision-Language-Action Models#Information Bottleneck#Robustness#Modality Alignment#Embodied AI#Adapter Design2026년 5월 18일댓글 수 로딩 중
[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.#Review#Spoken Dialogue Models#Post-Training#Reinforcement Learning#Preference Optimization#Modality Alignment#End-to-End#Acoustic Expressiveness2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation본 논문은 기존 멀티모달 추천 시스템의 두 가지 주요 한계를 해결하고자 합니다: (1) 미세-정교한 교차-모달 연관성을 모델링하는 능력 부족으로 인한 최적 이하의 융합 품질, (2) 전역 분포 수준의 일관성 부족으로 발생하는 표현 편향.#Review#Multimodal Recommendation#Modality Alignment#Attention Mechanism#Dilated Convolution#Maximum Mean Discrepancy#Contrastive Learning#Dimensionality Reduction2025년 9월 12일댓글 수 로딩 중