[논문리뷰] dots.tts Technical Report본 논문은 기존의 이산적(Discrete) 토큰 기반 TTS 모델이 가진 표현력의 한계를 극복하고, 연속적인(Continuous) latent 공간에서 안정적인 AR 음성 생성을 구현하고자 합니다.#Review#Text-to-Speech#Continuous Latent#Flow-Matching#Autoregressive#AudioVAE#Self-Correction#MeanFlow Distillation2026년 6월 7일댓글 수 로딩 중
[논문리뷰] SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue본 논문은 기존의 긴 형식(Long-form) 다이얼로그 합성이 화자 전환, 정서적 연속성, 그리고 음향적 일관성 유지를 유지하는 데 한계가 있다는 문제를 해결하고자 한다. 기존의 워크아웃 방식인 개별 턴 단위 합성 및 병합은 전체적인 대화 맥락을 파악하지 못해 부자연스러운 전환과 환경 불일치를 초래한다.#Review#Zero-Shot TTS#Long-Form Synthesis#Dialogue Synthesis#Flow-Matching#DiffusionNFT#Speech Alignment2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Video Models Can Reason with Verifiable Rewards본 논문은 기존의 비디오 생성 모델이 시각적 사실성(Perceptual Realism)은 뛰어나지만, 특정 논리적 제약을 만족해야 하는 추론 문제 해결에는 한계가 있다는 점을 지적합니다. 기존의 지도 학습(SFT) 방식은 생성된 영상의 외형적 패턴을 모방할 뿐, 영상 내부의 물리적·논리적 올바름을 보장하지 못합니다 .#Review#Video Generation#Reinforcement Learning#Verifiable Rewards#Video Reasoning#Diffusion Models#Flow-Matching#RLVR2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Voxtral TTSNatural하고 Expressive한 Text-to-Speech (TTS)는 유연한 Human-Computer Interaction의 중요한 요소이며, 가상 비서, 오디오북, 접근성 도구 등 다양한 Application에 활용됩니다.#Review#Text-to-Speech#Zero-shot Voice Cloning#Hybrid Architecture#Speech Codec#Flow-Matching#Direct Preference Optimization#Finite Scalar Quantization#Multilingual TTS2026년 3월 26일댓글 수 로딩 중
[논문리뷰] TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers표준 Vision-Language-Action (VLA) 모델이 로봇 제어를 위해 VLM 백본을 미세 조정할 때 발생하는 '파멸적 망각(catastrophic forgetting)' 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action (VLA)#Embodied AI#Robotics#Catastrophic Forgetting#Asymmetric Mixture-of-Transformers (AsyMoT)#Generalist VLM#Specialist VLM#Flow-Matching2026년 1월 25일댓글 수 로딩 중
[논문리뷰] NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards본 논문은 Vision-Language-Action (VLA) 모델이 실제 환경 및 다양한 로봇 플랫폼에서 보이는 낮은 신뢰성과 일반화 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Model#Direct Preference Optimization#World Model#Reward Learning#Robotics#Embodied AI#Flow-Matching2025년 11월 17일댓글 수 로딩 중
[논문리뷰] iFlyBot-VLA Technical ReportiFlyBot-VLA는 장기적인 로봇 조작 작업을 위한 대규모 Vision-Language-Action (VLA) 모델 을 개발하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Imitation Learning#Latent Actions#Diffusion Models#Dual-Arm Manipulation#Pretraining#Flow-Matching2025년 11월 9일댓글 수 로딩 중