#Flow-matching

4개의 포스트

[논문리뷰] Wan-Streamer v0.2: Higher Resolution, Same Latency

본 논문은 Wan-Streamer v0.1의 핵심인 네이티브 스트리밍 프레임워크를 유지하면서, 기존 192p의 낮은 출력 해상도를 개선하여 실시간 상호작용의 시각적 품질을 높이는 것을 목표로 합니다.

#Review #Native-streaming #Audio-visual Interaction #Context-parallel #Latency-preserving #Ulysses-style #Flow-matching #Real-time

2026년 7월 6일

[논문리뷰] FlowR2A: Learning Reward-to-Action Distribution for Multimodal Driving Planning

본 논문은 기존 자율주행 계획 연구의 양대 산맥인 Scoring-based 방식과 Anchor-based 방식 사이의 구조적 한계를 해결하고자 한다.

#Review #Multimodal Driving Planning #Flow-matching #Reward-conditioned Distribution #Autonomous Driving #Trajectory Generation #Classifier-Free Guidance

2026년 6월 23일

[논문리뷰] Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

본 논문은 기존의 커넥터 기반 비디오 생성 모델이 높은 시각적 품질과 복잡한 논리적 추론 능력을 동시에 달성하는 데 겪는 한계를 해결하고자 합니다.

#Review #Video Unified Models #Unified Progressive Frequency Bridging #Reasoning-driven Generation #Connector-based #Flow-matching #Visual Fidelity

2026년 5월 31일

[논문리뷰] Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

본 논문은 기존의 embodied AI 모델들이 특정 작업이나 로봇 플랫폼에만 고도화되어 있어 발생하는 파편화(fragmentation) 문제를 해결하기 위해 통합 모델을 제안합니다. 현재의 방식은 데이터 활용도가 낮고 일반화 성능이 제한적이라는 한계가 있습니다.

#Review #Embodied Intelligence #Vision-Language-Action Models #Flow-matching #Multi-task Learning #Cross-embodiment #Reinforcement Learning

2026년 5월 28일