[논문리뷰] Steerable Visual Representations저자들은 텍스트 프롬프트로 ViT의 내부 레이어를 직접 제어하는 SteerViT를 제안합니다. SteerViT는 frozen된 ViT 블록들 사이에 21M 개의 파라미터만 추가하는 경량화된 cross-attention 레이어를 삽입하여 텍스트 정보를 주입합니다 .#Review#Steerable Visual Representations#Vision Transformers#Early Fusion#Cross-Attention#Text-Conditioned Vision#Representational Quality#Zero-Shot Generalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] SimVLA: A Simple VLA Baseline for Robotic ManipulationarXiv에 게시된 'SimVLA: A Simple VLA Baseline for Robotic Manipulation' 논문에 대한 자세한 리뷰입니다.#Review#Robotic Manipulation#Vision-Language-Action (VLA) Models#Baseline Model#Modular Design#Flow Matching#Zero-Shot Generalization#Standardized Training#Efficiency2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video ReasoningarXiv에 게시된 'Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Visual Reasoning#Zero-Shot Generalization#Test-Time Scaling#Visual Context#Sequential Planning#Continuous Manipulation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Goal Force: Teaching Video Models To Accomplish Physics-Conditioned GoalsArjan Chakravarthy이 arXiv에 게시한 'Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#World Models#Physics-Conditioned Goals#Causal Planning#Force Vectors#Zero-Shot Generalization#Diffusion Models#Robotics Planning2026년 1월 11일댓글 수 로딩 중
[논문리뷰] Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language ModelsarXiv에 게시된 'Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Test-Time Adaptation#Zero-Shot Generalization#Spectral Decomposition#Latent Space Steering#SVD#Out-of-Distribution2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Pixie: Fast and Generalizable Supervised Learning of 3D Physics from PixelsDinesh Jayaraman이 arXiv에 게시한 'Pixie: Fast and Generalizable Supervised Learning of 3D Physics from Pixels' 논문에 대한 자세한 리뷰입니다.#Review#3D Physics Prediction#Supervised Learning#CLIP Features#Neural Radiance Fields#Material Point Method#PIXIEVERSE Dataset#Zero-Shot Generalization2025년 8월 27일댓글 수 로딩 중
[논문리뷰] LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion TransformerShunyu Yao이 arXiv에 게시한 'LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Image Composition#Layout Control#Diffusion Models#Transformer#Attention Mechanisms#Training-Free#Zero-Shot Generalization2025년 8월 6일댓글 수 로딩 중