[논문리뷰] DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models본 논문은 오픈 소스 대규모 언어 모델(LLM)과 상업용 LLM 간의 성능 격차를 줄이고자 DeepSeek-V3.2 를 소개합니다.#Review#Large Language Models#Sparse Attention#Reinforcement Learning#Agentic AI#Tool Use#Open-source LLM#DeepSeek2025년 12월 2일댓글 수 로딩 중
[논문리뷰] CodeV: Code with Images for Faithful Visual Reasoning via Tool-Aware Policy Optimization본 논문은 에이전트 시각-언어 모델(VLMs)이 높은 최종 답변 정확도에도 불구하고 종종 '불성실한' 시각적 추론을 수행하는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Agentic Reasoning#Tool Use#Reinforcement Learning#Faithfulness Evaluation#Policy Optimization#Visual Search#Code Generation2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click기존 Video Scene Graph Generation (VSGG) 및 Panoptic Video Scene Graph (PVSG) 시스템의 폐쇄적인 특성과, SAM/SAM2 와 같은 프롬프트 기반 분할 모델이 의미론적 또는 관계적 추론 기능을 결여하고 있다는 한계를 해결하고자 합니다.#Review#Panoptic Video Scene Graph Generation#Interactive AI#User Guidance#Promptable Segmentation#Video Understanding#Relational Reasoning#Human-in-the-Loop2025년 12월 2일댓글 수 로딩 중
[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중
[논문리뷰] C^2DLM: Causal Concept-Guided Diffusion Large Language Models본 논문은 Autoregressive (AR) 및 Diffusion Language Models (DLMs)의 불충분한 추론 능력 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Large Language Models#Causality#Attention Mechanism#Reasoning#Natural Language Generation#Supervised Fine-Tuning#Concept-Guided2025년 12월 2일댓글 수 로딩 중
[논문리뷰] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation본 논문은 블록 확산 모델을 사용하여 분 단위 길이의 고품질 및 일관된 비디오를 생성하는 데 따르는 주요 과제들을 해결하는 것을 목표로 합니다. 특히, KV-캐시(KV-cache)로 인한 장기적 오류 누적 문제와 세밀한 긴 비디오 벤치마크 및 일관성 측정 지표의 부족 을 해결하고자 합니다.#Review#Block Diffusion#Video Generation#Temporal Consistency#KV Cache#Semi-Autoregressive#Video Quality Metrics#Long Video Generation2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Artemis: Structured Visual Reasoning for Perception Policy Learning기존 멀티모달 대규모 언어 모델(MLLM)의 시각 지각 정책 학습에서 언어 기반의 추론이 공간적/객체 중심 추론이 필요한 시각 태스크에서 성능 저하를 야기하는 문제를 해결하고자 합니다.#Review#Visual Reasoning#Multimodal Large Language Models (MLLM)#Reinforcement Learning (RL)#Perception Policy Learning#Object Grounding#Object Detection#Structured Output2025년 12월 2일댓글 수 로딩 중
[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.#Triton#Blackwell#GPU#Optimization#MXFP82025년 12월 2일댓글 수 로딩 중
[Triton] Warp Specialization 중첩 루프 지원partition-schedule 패스를 재귀적으로 확장하고, tmem_alloc hoisting을 최상위로 수행하여 중첩 루프 E2E 지원#Triton#NVIDIA#Warp Specialization#Nested Loop#Pipelining2025년 12월 2일댓글 수 로딩 중
[Triton] MXFP 포맷 출력 matmul 버그 2건 수정MXFP downcast epilogue에서 scale 마스크 계산과 shared memory overflow 문제를 수정#Triton#MXFP#Matmul#Bug Fix2025년 12월 1일댓글 수 로딩 중
[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing본 논문은 기존 이미지 편집 벤치마크가 인지 및 창의성 기반 이미지 편집 모델의 고급 능력을 평가하는 데 한계가 있음을 지적합니다.#Review#Image Editing#Benchmarking#Cognitive AI#Creativity#Multimodal AI#Knowledge-based Reasoning#Diffusion Models#MLLMs2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models본 논문은 LLM 기반 시스템에서 지식 그래프(KG)의 내재적 품질과 추론 능력이 충분히 활용되지 못하고, 개방형 정보 추출(OIE) KGs가 구조적 엄격성과 온톨로지 정합성 측면에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Knowledge Graphs#Large Language Models#Information Extraction#Wikidata Ontology#Question Answering#Entity Normalization#Retrieval Augmented Generation2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation다국어 텍스트-이미지(T2I) 모델이 다국어 프롬프트에 대해 문화적으로 중립적이거나 영어 편향적인 이미지를 생성하여 교차 언어 문화적 일관성(cross-lingual cultural consistency) 을 저해하는 문제를 해결하는 것이 목표입니다.#Review#Text-to-Image Generation#Cultural Consistency#Multilingual AI#Neuron Activation#Cultural Probing#Fine-Tuning#Diffusion Models2025년 12월 1일댓글 수 로딩 중
[논문리뷰] What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards최신 비디오 확산 모델이 시각적으로는 인상적이지만, 물체 부유, 가속도 불일치, 충돌 비현실성 등 기본적인 물리 법칙을 위반하는 문제점을 해결하는 것이 목표입니다.#Review#Video Generation#Diffusion Models#Newtonian Dynamics#Physics-aware AI#Post-Training#Verifiable Rewards#Optical Flow#Mass Estimation2025년 12월 1일댓글 수 로딩 중
[논문리뷰] VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference본 논문은 Vision-Language-Action (VLA) 모델의 실제 로봇 배포 시 발생하는 동기식 추론의 비효율성 (액션 지연 및 느린 반응) 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Asynchronous Inference#Real-Time Robotics#Low-Latency Control#Future State Awareness#Action Quantization#Temporal Alignment2025년 12월 1일댓글 수 로딩 중
[논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment본 논문은 기존 참조 기반 이미지 생성 모델이 미세한 디테일에서 일관성을 유지하지 못하고, 텍스트 및 로고 영역에서 부정확하거나 흐릿하게 생성되는 문제를 해결하는 것을 목표로 합니다.#Review#Image Generation#Image Editing#Diffusion Models#Consistency Correction#Attention Mechanism#Reference-Guided#Agent Framework#Data Curation2025년 12월 1일댓글 수 로딩 중
[논문리뷰] The Art of Scaling Test-Time Compute for Large Language Models이 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위한 테스트-타임 스케일링(TTS) 전략의 최적 선택 문제를 해결하는 것을 목표로 합니다.#Review#Test-Time Scaling#LLMs#Reasoning#Compute Efficiency#Inference Optimization#Decoding Strategies#Model Behavior2025년 12월 1일댓글 수 로딩 중
[논문리뷰] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models논문은 멀티모달 이해와 생성 태스크를 단일 프레임워크 내에서 원활하게 수행하는 TUNA라는 네이티브 통합 멀티모달 모델(UMM) 을 개발하는 것을 목표로 합니다. 기존 UMM의 분리된 또는 편향된 시각 표현 방식 으로 인한 한계를 극복하고, 이해와 생성 모두에 효과적인 통합된 연속 시각 표현 공간 을 구축하고자 합니다.#Review#Unified Multimodal Models#Visual Representation#VAE#Flow Matching#Multimodal Understanding#Multimodal Generation#Image Editing#State-of-the-Art2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Structured Extraction from Business Process Diagrams Using Vision-Language Models이 논문은 비즈니스 프로세스 모델 및 표기법(BPMN) 다이어그램 이미지에서 원시 XML 파일이나 텍스트 주석 없이 직접 구조화된 JSON 표현 을 추출하는 것을 목표로 합니다. 이는 기존 방법론이 XML 의존성으로 인해 발생하는 하위 시스템 통합 및 분석의 제약을 극복하기 위함입니다.#Review#Vision-Language Models#BPMN Extraction#Structured Information Extraction#OCR Enrichment#Prompt Engineering#Diagram Understanding#Business Process Management2025년 12월 1일댓글 수 로딩 중
[논문리뷰] StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos본 연구는 대규모 언어 모델(MLLMs)이 스트리밍 비디오 환경에서 인간의 시선(gaze) 신호를 활용하여 시간적 추론 및 선제적 이해를 얼마나 효과적으로 수행하는지 평가하는 것을 목표로 합니다.#Review#Streaming Video Understanding#Gaze-Guided AI#Temporal Reasoning#Proactive AI#MLLMs#Eye Tracking#Benchmark#Human-Computer Interaction2025년 12월 1일댓글 수 로딩 중