최신 포스트

[논문리뷰] DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation

본 논문은 기존의 카메라 제어 비디오 생성 모델들이 겪는 장면 이해 및 기하학적 인식 부족 문제를 해결하여, 지정된 카메라 궤적에 더욱 충실하고 기하학적으로 일관된 비디오를 생성하는 것을 목표로 합니다. 특히 깊이(depth) 정보를 효과적으로 통합하여 카메라 제어 비디오 생성의 정확도를 높이는 데 중점을 둡니다.

#Review #Diffusion Models #Video Generation #Camera Control #Depth Estimation #Dual-Branch Architecture #Geometric Awareness #Semantic Alignment #Multi-modal Fusion

2025년 12월 2일

[논문리뷰] Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation

본 연구는 오디오-비디오 공동 노이즈 제거 훈련이 비디오 품질에만 중점을 둘 때도 비디오 생성 성능을 향상시키는 근본적인 질문에 답하는 것을 목표로 합니다.

#Review #Video Generation #Audio-Video Multimodal #Joint Denoising #Diffusion Models #Transformer Architecture #World Models #Physical Commonsense #Multimodal Training

2025년 12월 2일

[논문리뷰] DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

Vision-Language-Action (VLA) 모델이 분포 변화 및 복잡한 다단계 로봇 조작 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다. 이는 학습된 표현이 태스크 관련 의미를 견고하게 포착하지 못하기 때문이며, 본 논문은 기하학적 정규화 를 통해 VLA 모델의 견고성을 향상시키는 것을 목표로 합니다.

#Review #VLA Models #Flow Matching #Robotics #Robustness #Distribution Shift #Wasserstein Distance #Geometric Regularization #Representation Learning

2025년 12월 2일

[논문리뷰] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

본 논문은 오픈 소스 대규모 언어 모델(LLM)과 상업용 LLM 간의 성능 격차를 줄이고자 DeepSeek-V3.2 를 소개합니다.

#Review #Large Language Models #Sparse Attention #Reinforcement Learning #Agentic AI #Tool Use #Open-source LLM #DeepSeek

2025년 12월 2일

[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization

본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Agentic Reasoning #Tool Use #Reinforcement Learning #Faithfulness Evaluation #Policy Optimization #Visual Search #Code Generation

2025년 12월 2일

[논문리뷰] Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click

기존 Video Scene Graph Generation (VSGG) 및 Panoptic Video Scene Graph (PVSG) 시스템의 폐쇄적인 특성과, SAM/SAM2 와 같은 프롬프트 기반 분할 모델이 의미론적 또는 관계적 추론 기능을 결여하고 있다는 한계를 해결하고자 합니다.

#Review #Panoptic Video Scene Graph Generation #Interactive AI #User Guidance #Promptable Segmentation #Video Understanding #Relational Reasoning #Human-in-the-Loop

2025년 12월 2일

[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.

#Review #CUDA #Matrix Multiplication #Reinforcement Learning #LLMs #Kernel Optimization #HGEMM #GPU Performance #cuBLAS

2025년 12월 2일

[논문리뷰] C^2DLM: Causal Concept-Guided Diffusion Large Language Models

본 논문은 Autoregressive (AR) 및 Diffusion Language Models (DLMs)의 불충분한 추론 능력 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Large Language Models #Causality #Attention Mechanism #Reasoning #Natural Language Generation #Supervised Fine-Tuning #Concept-Guided

2025년 12월 2일

[논문리뷰] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

본 논문은 블록 확산 모델을 사용하여 분 단위 길이의 고품질 및 일관된 비디오를 생성하는 데 따르는 주요 과제들을 해결하는 것을 목표로 합니다. 특히, KV-캐시(KV-cache)로 인한 장기적 오류 누적 문제와 세밀한 긴 비디오 벤치마크 및 일관성 측정 지표의 부족 을 해결하고자 합니다.

#Review #Block Diffusion #Video Generation #Temporal Consistency #KV Cache #Semi-Autoregressive #Video Quality Metrics #Long Video Generation

2025년 12월 2일

[논문리뷰] Artemis: Structured Visual Reasoning for Perception Policy Learning

기존 멀티모달 대규모 언어 모델(MLLM)의 시각 지각 정책 학습에서 언어 기반의 추론이 공간적/객체 중심 추론이 필요한 시각 태스크에서 성능 저하를 야기하는 문제를 해결하고자 합니다.

#Review #Visual Reasoning #Multimodal Large Language Models (MLLM)#Reinforcement Learning (RL)#Perception Policy Learning #Object Grounding #Object Detection #Structured Output

2025년 12월 2일

[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화

Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.

#Triton #Blackwell #GPU #Optimization #MXFP8

2025년 12월 2일

[Triton] Warp Specialization 중첩 루프 지원

partition-schedule 패스를 재귀적으로 확장하고, tmem_alloc hoisting을 최상위로 수행하여 중첩 루프 E2E 지원

#Triton #NVIDIA #Warp Specialization #Nested Loop #Pipelining

2025년 12월 2일

[Triton] MXFP 포맷 출력 matmul 버그 2건 수정

MXFP downcast epilogue에서 scale 마스크 계산과 shared memory overflow 문제를 수정

#Triton #MXFP #Matmul #Bug Fix

2025년 12월 1일

[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing

본 논문은 기존 이미지 편집 벤치마크가 인지 및 창의성 기반 이미지 편집 모델의 고급 능력을 평가하는 데 한계가 있음을 지적합니다.

#Review #Image Editing #Benchmarking #Cognitive AI #Creativity #Multimodal AI #Knowledge-based Reasoning #Diffusion Models #MLLMs

2025년 12월 1일

[논문리뷰] Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models

본 논문은 LLM 기반 시스템에서 지식 그래프(KG)의 내재적 품질과 추론 능력이 충분히 활용되지 못하고, 개방형 정보 추출(OIE) KGs가 구조적 엄격성과 온톨로지 정합성 측면에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Knowledge Graphs #Large Language Models #Information Extraction #Wikidata Ontology #Question Answering #Entity Normalization #Retrieval Augmented Generation

2025년 12월 1일

[논문리뷰] Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

다국어 텍스트-이미지(T2I) 모델이 다국어 프롬프트에 대해 문화적으로 중립적이거나 영어 편향적인 이미지를 생성하여 교차 언어 문화적 일관성(cross-lingual cultural consistency) 을 저해하는 문제를 해결하는 것이 목표입니다.

#Review #Text-to-Image Generation #Cultural Consistency #Multilingual AI #Neuron Activation #Cultural Probing #Fine-Tuning #Diffusion Models

2025년 12월 1일

[논문리뷰] What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

최신 비디오 확산 모델이 시각적으로는 인상적이지만, 물체 부유, 가속도 불일치, 충돌 비현실성 등 기본적인 물리 법칙을 위반하는 문제점을 해결하는 것이 목표입니다.

#Review #Video Generation #Diffusion Models #Newtonian Dynamics #Physics-aware AI #Post-Training #Verifiable Rewards #Optical Flow #Mass Estimation

2025년 12월 1일

[논문리뷰] VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

본 논문은 Vision-Language-Action (VLA) 모델의 실제 로봇 배포 시 발생하는 동기식 추론의 비효율성 (액션 지연 및 느린 반응) 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Asynchronous Inference #Real-Time Robotics #Low-Latency Control #Future State Awareness #Action Quantization #Temporal Alignment

2025년 12월 1일

[논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

본 논문은 기존 참조 기반 이미지 생성 모델이 미세한 디테일에서 일관성을 유지하지 못하고, 텍스트 및 로고 영역에서 부정확하거나 흐릿하게 생성되는 문제를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Image Editing #Diffusion Models #Consistency Correction #Attention Mechanism #Reference-Guided #Agent Framework #Data Curation

2025년 12월 1일

[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models

이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.

#Review #Test-Time Scaling #LLMs #Reasoning #Compute Efficiency #Inference Optimization #Decoding Strategies #Model Behavior

2025년 12월 1일