[논문리뷰] SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video EditingarXiv에 게시된 'SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing' 논문에 대한 자세한 리뷰입니다.#Review#Instruction-Guided Video Editing#Diffusion Models#Semantic Anchoring#Motion Alignment#Factorized Pre-training#Zero-shot Learning#Temporal Consistency2026년 3월 19일댓글 수 로딩 중
[논문리뷰] DVD: Deterministic Video Depth Estimation with Generative PriorsJing He이 arXiv에 게시한 'DVD: Deterministic Video Depth Estimation with Generative Priors' 논문에 대한 자세한 리뷰입니다.#Review#Video Depth Estimation#Generative Priors#Deterministic Adaptation#Diffusion Models#Latent Manifold Rectification#Global Affine Coherence#Zero-shot Learning#Temporal Consistency2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Reward Prediction with Factorized World StatesHongbo Zhao이 arXiv에 게시한 'Reward Prediction with Factorized World States' 논문에 대한 자세한 리뷰입니다.#Review#Reward Prediction#World Models#State Representation#Large Language Models#Zero-shot Learning#Reinforcement Learning#Planning#Factorization2026년 3월 10일댓글 수 로딩 중
[논문리뷰] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priorsliuziwei7이 arXiv에 게시한 'ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors' 논문에 대한 자세한 리뷰입니다.#Review#Human-Object Interaction (HOI)#4D Reconstruction#Articulated Objects#Video Diffusion Models#Inverse Rendering#Zero-shot Learning#Motion Synthesis#3D Gaussians2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Large Causal Models for Temporal Causal DiscoveryDario Simionato이 arXiv에 게시한 'Large Causal Models for Temporal Causal Discovery' 논문에 대한 자세한 리뷰입니다.#Review#Causal Discovery#Temporal Models#Foundation Models#Transformer Architecture#Zero-shot Learning#Time-series Data#Scalability#Multi-dataset Pretraining2026년 2월 23일댓글 수 로딩 중
[논문리뷰] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth EstimationarXiv에 게시된 'StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation' 논문에 대한 자세한 리뷰입니다.#Review#Underwater Depth Estimation#Stereo Matching#State Space Model#Mamba Architecture#ConvSS2D#Data Synthesis#LoRA#Zero-shot Learning#Robotics2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Action100M: A Large-scale Video Action DatasetarXiv에 게시된 'Action100M: A Large-scale Video Action Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Large-scale Dataset#Video Action Recognition#Open-Vocabulary#Temporal Segmentation#Vision-Language Models#Zero-shot Learning#Data Curation#Self-Refine2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty PredictionHong Jiao이 arXiv에 게시한 'Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Item Difficulty Prediction#Human-AI Alignment#Proficiency Simulation#Metacognition#Curse of Knowledge#Educational Assessment#Zero-shot Learning2025년 12월 22일댓글 수 로딩 중
[논문리뷰] In-Video Instructions: Visual Signals as Generative ControlarXiv에 게시된 'In-Video Instructions: Visual Signals as Generative Control' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Controllable AI#Visual Instructions#Image-to-Video#Spatial Control#Zero-shot Learning#Generative Models2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual GenerationXinyan Chen이 arXiv에 게시한 'Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation' 논문에 대한 자세한 리뷰입니다.#Review#Visual Generation#Textual Reasoning#Interleaving#Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Step-Audio-EditX Technical ReportarXiv에 게시된 'Step-Audio-EditX Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#LLM-based Audio Model#Audio Editing#Text-to-Speech (TTS)#Zero-shot Learning#Large-Margin Data#Reinforcement Learning (RLHF)#Emotion Control#Speaking Style Transfer2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image GenerationarXiv에 게시된 'UniFusion: Vision-Language Model as Unified Encoder in Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Unified Encoder#Image Generation#Diffusion Models#Multimodal Learning#Text-to-Image#Image Editing#Zero-shot Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Detect Anything via Next Point PredictionarXiv에 게시된 'Detect Anything via Next Point Prediction' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Object Detection#Coordinate Prediction#Reinforcement Learning#Supervised Fine-tuning#Visual Perception#Zero-shot Learning#Spatial Reasoning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Video models are zero-shot learners and reasonersrgeirhos이 arXiv에 게시한 'Video models are zero-shot learners and reasoners' 논문에 대한 자세한 리뷰입니다.#Review#Video Models#Zero-shot Learning#Visual Reasoning#Foundation Models#Generative AI#Perception#Manipulation#Modeling2025년 9월 25일댓글 수 로딩 중
[논문리뷰] MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and ReportingVanessa Wildman이 arXiv에 게시한 'MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting' 논문에 대한 자세한 리뷰입니다.#Review#3D CT#Vision-Language Model#Medical Imaging#Diagnostic Error Reduction#Multi-scale Alignment#Semantic Enrichment#Radiology Reporting#Zero-shot Learning2025년 9월 8일댓글 수 로딩 중
[논문리뷰] From Editor to Dense Geometry EstimatorLang Nie이 arXiv에 게시한 'From Editor to Dense Geometry Estimator' 논문에 대한 자세한 리뷰입니다.#Review#Dense Geometry Estimation#Diffusion Transformer#Image Editing#Zero-shot Learning#Depth Estimation#Normal Estimation#Flow Matching#Logarithmic Quantization2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Durian: Dual Reference-guided Portrait Animation with Attribute TransferHanbyul Joo이 arXiv에 게시한 'Durian: Dual Reference-guided Portrait Animation with Attribute Transfer' 논문에 대한 자세한 리뷰입니다.#Review#Portrait Animation#Attribute Transfer#Diffusion Models#Dual Reference Networks#Zero-shot Learning#Self-Reconstruction#Facial Editing2025년 9월 5일댓글 수 로딩 중
[논문리뷰] The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with CamlangSolomon Tsai이 arXiv에 게시한 'The Gold Medals in an Empty Room: Diagnosing Metalinguistic Reasoning in LLMs with Camlang' 논문에 대한 자세한 리뷰입니다.#Review#LLMs#Metalinguistic Reasoning#Constructed Language#Camlang#Second Language Acquisition#Zero-shot Learning#Natural Language Understanding#Commonsense Reasoning2025년 9월 3일댓글 수 로딩 중
[논문리뷰] GLiClass: Generalist Lightweight Model for Sequence Classification TasksAlexander Yavorskyi이 arXiv에 게시한 'GLiClass: Generalist Lightweight Model for Sequence Classification Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Sequence Classification#Zero-shot Learning#Few-shot Learning#Transformer#Multi-label Classification#PPO#GLiNER#Computational Efficiency2025년 8월 12일댓글 수 로딩 중