#Modality Alignment

3개의 포스트

[논문리뷰] StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

본 논문은 기존 VLA 모델들이 훈련 데이터에 포함되지 않은 실세계의 다양한 시각적 노이즈(센서 노이즈, 모션 블러 등)에 매우 취약하다는 점을 지적합니다. 현재의 VLA 모델은 주로 깨끗한 환경에서만 평가되며, 실제 배포 시 시각적 왜곡이 발생하면 성능이 급격히 저하되는 'robustness gap'을 보입니다.

#Review #Vision-Language-Action Models #Information Bottleneck #Robustness #Modality Alignment #Embodied AI #Adapter Design

2026년 5월 18일

[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.

#Review #Spoken Dialogue Models #Post-Training #Reinforcement Learning #Preference Optimization #Modality Alignment #End-to-End #Acoustic Expressiveness

2026년 4월 22일

[논문리뷰] Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation

본 논문은 기존 멀티모달 추천 시스템의 두 가지 주요 한계를 해결하고자 합니다: (1) 미세-정교한 교차-모달 연관성을 모델링하는 능력 부족으로 인한 최적 이하의 융합 품질, (2) 전역 분포 수준의 일관성 부족으로 발생하는 표현 편향.

#Review #Multimodal Recommendation #Modality Alignment #Attention Mechanism #Dilated Convolution #Maximum Mean Discrepancy #Contrastive Learning #Dimensionality Reduction

2025년 9월 12일