[논문리뷰] GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces본 논문은 기존 text-to-3D 스타일 변환 방법의 느린 최적화 시간과 멀티뷰 불일치 문제를 해결하여, 3D Gaussian Splatting (3DGS) 자산에 대한 즉각적이고 고품질의 기하학적 구조 보존 및 멀티뷰 일관성을 갖춘 스타일 변환 을 목표로 합니다.#Review#3D Gaussian Splatting#Text-to-3D Stylization#Latent Diffusion Models#Disentangled Latent Spaces#Feed-forward Editing#Geometry Preservation#Multi-view Consistency2025년 12월 4일댓글 수 로딩 중
[논문리뷰] FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring본 논문은 실제 환경에서 발생하는 동적으로 변화하는 노출 과 모션에 의한 복합적인 비디오 열화 문제를 해결하여, 고해상도(HR) 및 선명한 비디오를 복원하는 것을 목표로 합니다. 기존 비디오 복원 방법론들이 고정된 노출 시간을 가정하여 실제 시나리오에 취약하다는 한계를 극복하고자 합니다.#Review#Video Super-Resolution#Video Deblurring#Joint Restoration#Exposure-Aware#Motion Compensation#Transformer Architecture#Dynamic Filtering#Real-World Degradations2025년 12월 4일댓글 수 로딩 중
[논문리뷰] EgoLCD: Egocentric Video Generation with Long Context Diffusion논문은 장기적으로 일관된 1인칭 시점(egocentric) 비디오를 생성하는 데 있어 콘텐츠 드리프트(content drift) 와 계산 자원 제약으로 인한 장기 기억(long-term memory) 관리의 어려움 을 해결하고자 합니다.#Review#Egocentric Video Generation#Long-Context Diffusion#Long-Short Memory#Sparse KV Cache#Memory Regulation Loss#Structured Narrative Prompting#World Models#Embodied AI2025년 12월 4일댓글 수 로딩 중
[논문리뷰] DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling기존 4D 데이터셋이 다양성, 물리적 스케일, 다중 모달리티 주석 측면에서 제한적이어서 파운데이션 모델이 단일 카메라 비디오에서 실세계 동역학을 정확하게 해석하는 데 한계가 있었습니다.#Review#4D World Modeling#Multimodal Data#Dynamic Scenes#Metric-Scale#Bundle Adjustment#Foundation Models#Video Analysis#Data Curation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation본 논문은 기존 MLLM 기반 텍스트-투-이미지(T2I) 생성 모델의 두 가지 주요 한계점, 즉 텍스트 기반 계획의 추상성과 희귀 속성 조합 생성의 어려움을 해결하는 것을 목표로 합니다.#Review#Text-to-Image Generation#Chain-of-Thought (CoT)#Multimodal Large Language Models (MLLMs)#Visual Planning#Rare Concept Generation#Drafting#Classifier-Free Guidance (CFG)#Image Refinement2025년 12월 4일댓글 수 로딩 중
[논문리뷰] DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle본 논문은 기존 벤치마크가 놓치고 있는 실제 기업 데이터 인텔리전스 워크플로우의 복잡성 을 반영하여, 데이터 에이전트의 포괄적인 성능을 평가 하는 DAComp 벤치마크를 제시합니다.#Review#Data Agents#Benchmarking#Data Engineering#Data Analysis#LLM-as-Judge#Full Data Intelligence Lifecycle#Repository-Level#Open-Ended Tasks2025년 12월 4일댓글 수 로딩 중
[논문리뷰] BulletTime: Decoupled Control of Time and Camera Pose for Video Generation본 논문은 기존 비디오 확산 모델의 고질적인 문제점인 장면 역학과 카메라 모션 간의 결합을 해소하고, 시간과 카메라 포즈를 명시적으로 분리하여 제어 하는 4D-controllable 비디오 생성 프레임워크 를 개발하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Models#4D Control#Camera Pose Control#Time Control#Positional Encoding#Adaptive Normalization#Synthetic Dataset2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models본 연구는 최근 LVLM(Large Vision-Language Model) 기반 텍스트-투-이미지(T2I) 모델 이 이미지 생성에서 높은 품질을 달성했음에도 불구하고, 사회적 편향을 얼마나 증폭시키는지에 대한 이해가 부족하다는 문제의식을 제기합니다.#Review#Text-to-Image#LVLM#Social Bias#System Prompts#Bias Mitigation#Meta-Prompting#Fairness#Generative AI2025년 12월 4일댓글 수 로딩 중
[논문리뷰] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning본 논문은 기존 멀티모달 보상 모델(Reward Models, RMs)이 겪는 환각, 약한 시각적 접지(visual grounding), 그리고 검증을 위한 도구 사용 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Reward Models#Agentic AI#Tool Use#Reinforcement Learning#Visual Reasoning#Multimodal LLMs#Instruction Following#Evaluation Benchmarks2025년 12월 4일댓글 수 로딩 중
[논문리뷰] 4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer기존 4D 시맨틱 필드 구축 방식이 Gaussian Splatting 에 의존하여 장면별 최적화가 필요하고 일반화 및 확장성이 제한적인 문제를 해결하고자 합니다.#Review#4D Scene Understanding#Language Grounding#Transformer#Feed-forward Network#Semantic Field#Geometry Reconstruction#Embodied AI2025년 12월 4일댓글 수 로딩 중
[Triton] Hopper에서 소규모 배치 크기 벤치마크 수정Hopper GPU에서 small batch MLP 벤치마크의 num_warps 설정과 테스트 케이스 추가#Triton#Benchmark#Hopper#MLP#Bug Fix2025년 12월 4일댓글 수 로딩 중
[Triton] SwiGLU exp2 최적화 부분 롤백 — 수치 정확도 우선exp2_ftz 최적화가 일부 모델에서 수치 차이를 유발하여 일시 롤백#Triton#Kernel#Numerical Stability#Revert#SwiGLU2025년 12월 4일댓글 수 로딩 중
[논문리뷰] ViDiC: Video Difference Captioning본 논문은 동적 비디오 시퀀스 간의 시각적 차이를 이해하고 설명하는 Video Difference Captioning (ViDiC) 이라는 새로운 태스크를 제안합니다.#Review#Video Difference Captioning#Multimodal Large Language Models#Video Understanding#Comparative Reasoning#Evaluation Benchmark#LLM-as-a-Judge#ViDiC-1K2025년 12월 3일댓글 수 로딩 중
[논문리뷰] UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs본 논문은 제한된 리소스를 가진 엣지 디바이스에서 대규모 언어 모델(LLM)의 효율적인 배포를 가능하게 하는 것을 목표로 합니다.#Review#LLM Compression#Quantization#Pruning#Edge AI#Adaptive Deployment#Transformer#State Space Models#Hybrid Models#One-shot Compression2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.#Review#Multimodal LLM#Tool Learning#Code Generation#Reinforcement Learning#Image Manipulation#Robustness#Error Recovery#Programming Vision2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action Models#Anti-Exploration#Test-Time Scaling#Pseudo-Count#Coin Flipping Network#Offline Reinforcement Learning#Robotics2025년 12월 3일댓글 수 로딩 중
[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.#Review#Spatial Reasoning#Vision Language Models#Reinforcement Learning#Tool Augmentation#Robotics#Multi-Tool Use#Embodied AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.#Review#Self-Distillation#Cognitive Skills#Reinforcement Learning#Supervised Fine-Tuning#Language Models#Reasoning#Verification#Retrying2025년 12월 3일댓글 수 로딩 중
[논문리뷰] SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment본 논문은 LLM을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 외부 감독(인간 주석의 희소성, 보상 모델 해킹, 프롬프트 민감도)의 한계를 극복하는 것을 목표로 합니다.#Review#LLM Alignment#Stable Rank#Intrinsic Reward#Reinforcement Learning#Geometric Properties#Group Relative Policy Optimization#Annotation-Free Alignment2025년 12월 3일댓글 수 로딩 중
[논문리뷰] RELIC: Interactive Video World Model with Long-Horizon Memory논문은 실시간 장기 스트리밍, 일관된 공간 메모리, 정밀한 사용자 제어라는 세 가지 핵심 요소를 동시에 만족하는 상호작용 가능한 비디오 월드 모델 을 구축하는 것을 목표로 합니다. 기존 접근 방식들이 이 중 하나만을 다루거나, 장기 메모리 메커니즘이 실시간 성능을 저하시키는 문제를 해결하고자 합니다.#Review#Interactive World Model#Video Generation#Long-Horizon Memory#Real-Time Streaming#Diffusion Models#Autoregressive Models#Spatial Consistency#Unreal Engine2025년 12월 3일댓글 수 로딩 중