[논문리뷰] Emu3.5: Native Multimodal Models are World Learners본 논문은 비전과 언어에 걸쳐 다음 상태를 예측하는 대규모 멀티모달 월드 모델인 Emu3.5 를 소개합니다. 자연스러운 멀티모달 능력 을 통해 긴 시퀀스 비전-언어 생성, X2I(Any-to-Image) 생성, 복잡한 텍스트 기반 이미지 생성 및 일반화 가능한 월드 모델링 능력 을 향상시키는 것을 목표로 합니다.#Review#Multimodal Model#World Model#Vision-Language#Next-Token Prediction#Reinforcement Learning#Discrete Diffusion Adaptation#Image Generation#Any-to-Image2025년 10월 31일댓글 수 로딩 중