[논문리뷰] PhysBrain 1.0 Technical Report본 논문은 기존 VLA 시스템이 의존하는 플랫폼 종속적인 로봇 궤적(Trajectory) 데이터 수집의 한계를 극복하고, 물리적 환경에 대한 근본적인 이해(Physical Commonsense)를 확보하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Physical Commonsense#Egocentric Video#Data Engine#VLA Adaptation2026년 5월 17일댓글 수 로딩 중
[논문리뷰] MMGR: Multi-Modal Generative Reasoning본 논문은 대규모 텍스트-투-비디오 모델 평가의 한계, 특히 인지적 충실도를 넘어선 추론 능력 을 평가하는 문제를 해결하고자 합니다.#Review#Multi-Modal Generative Models#Reasoning Evaluation#World Models#Physical Commonsense#Abstract Reasoning#Embodied Navigation#VLM-based Evaluation#Temporal Consistency2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation본 연구는 오디오-비디오 공동 노이즈 제거 훈련이 비디오 품질에만 중점을 둘 때도 비디오 생성 성능을 향상시키는 근본적인 질문에 답하는 것을 목표로 합니다.#Review#Video Generation#Audio-Video Multimodal#Joint Denoising#Diffusion Models#Transformer Architecture#World Models#Physical Commonsense#Multimodal Training2025년 12월 2일댓글 수 로딩 중