#Physical Commonsense

3개의 포스트

[논문리뷰] PhysBrain 1.0 Technical Report

본 논문은 기존 VLA 시스템이 의존하는 플랫폼 종속적인 로봇 궤적(Trajectory) 데이터 수집의 한계를 극복하고, 물리적 환경에 대한 근본적인 이해(Physical Commonsense)를 확보하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied Intelligence #Physical Commonsense #Egocentric Video #Data Engine #VLA Adaptation

2026년 5월 17일

[논문리뷰] MMGR: Multi-Modal Generative Reasoning

본 논문은 대규모 텍스트-투-비디오 모델 평가의 한계, 특히 인지적 충실도를 넘어선 추론 능력 을 평가하는 문제를 해결하고자 합니다.

#Review #Multi-Modal Generative Models #Reasoning Evaluation #World Models #Physical Commonsense #Abstract Reasoning #Embodied Navigation #VLM-based Evaluation #Temporal Consistency

2025년 12월 16일

[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

본 연구는 오디오-비디오 공동 노이즈 제거 훈련이 비디오 품질에만 중점을 둘 때도 비디오 생성 성능을 향상시키는 근본적인 질문에 답하는 것을 목표로 합니다.

#Review #Video Generation #Audio-Video Multimodal #Joint Denoising #Diffusion Models #Transformer Architecture #World Models #Physical Commonsense #Multimodal Training

2025년 12월 2일