[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.#Triton#GPU#Optimization#HPC#Matmul2026년 1월 22일댓글 수 로딩 중
[논문리뷰] VideoMaMa: Mask-Guided Video Matting via Generative Prior논문은 비디오 매팅 모델이 실제 세계 비디오에 효과적으로 일반화되지 못하는 문제, 즉 레이블링된 데이터의 희소성과 합성 비디오와 실제 비디오 간의 도메인 간극을 해결하는 것을 목표로 합니다.#Review#Video Matting#Diffusion Models#Generative Priors#Mask-Guided#Pseudo-labeling#Large-scale Dataset#Zero-shot Generalization2026년 1월 22일댓글 수 로딩 중
[논문리뷰] VIOLA: Towards Video In-Context Learning with Minimal Annotations본 논문은 레이블링된 데이터가 부족한 새로운 비디오 도메인에서 Multimodal Large Language Models (MLLMs) 의 일반화 능력을 향상시키는 것을 목표로 합니다.#Review#Video In-Context Learning#Minimal Annotation#Active Learning#Pseudo-Labeling#Multimodal LLMs#Density-Uncertainty Sampling#Confidence-Aware Retrieval#Low-Resource Adaptation2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Towards Automated Kernel Generation in the Era of LLMs본 논문은 현대 AI 시스템의 성능을 근본적으로 제한하는 고성능 커널 생성 및 최적화의 비확장성 문제 를 해결하고자 합니다.#Review#Large Language Models#Kernel Generation#GPU Optimization#AI Agents#Code Synthesis#Performance Engineering#Hardware Acceleration2026년 1월 22일댓글 수 로딩 중
[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.#Review#Diffusion Language Models#Reasoning#Reinforcement Learning#Autoregressive Models#Generation Order#Entropy Degradation#Pass@k#GRPO2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces본 논문은 기존 AI 에이전트 벤치마크가 실제 작업 시나리오를 충분히 반영하지 못하거나 최신 모델의 성능을 측정하기에 난이도가 부족하다는 문제점을 해결하고자 합니다.#Review#AI Agents#LLM Evaluation#Benchmarking#Command Line Interface#Software Engineering#Realistic Tasks#Error Analysis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model본 연구는 기존 autoregressive (AR) 모델에 비해 성능이 뒤처지던 확산 기반 언어 모델(DLLM)이 코드 모델링 품질을 향상시킬 수 있는지 체계적으로 탐구합니다.#Review#Code Diffusion Models#Large Language Models#Continual Pretraining#Code Generation#Code Editing#Masked Language Models#Code Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders본 논문은 기존 변형 오토인코더(VAE) 의 저차원 잠재 공간이 대규모 텍스트-이미지(T2I) 생성 모델에서 가질 수 있는 한계를 극복하고자 합니다.#Review#Text-to-Image Generation#Diffusion Models#Representation Autoencoder#Latent Space#Large-Scale Models#Unified Models#Noise Scheduling2026년 1월 22일댓글 수 로딩 중
[논문리뷰] SAMTok: Representing Any Mask with Two Words본 논문은 픽셀 단위의 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 인코더, 전용 디코더, 비호환적인 훈련 목표로 인해 확장성 문제를 겪는 점을 해결하고자 합니다.#Review#Mask Tokenization#Multimodal LLMs#Pixel-wise Vision-Language#Reinforcement Learning#Segmentation Anything Model#Discrete Representation2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.#Review#Composed Image Retrieval#Fine-Grained Evaluation#Image Editing#Benchmark#Multimodal LLM#Synthetic Data#Compositional Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Qwen3-TTS Technical Report본 논문은 고급 다국어(multilingual) , 제어 가능한(controllable) , 강건한(robust) , 스트리밍(streaming) TTS 모델 인 Qwen3-TTS 시리즈를 소개하는 것을 목표로 합니다.#Review#Text-to-Speech (TTS)#Multilingual#Voice Cloning#Controllable Speech#Streaming#Speech Tokenization#Language Models#Low-latency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation본 논문은 이미지 이해(understanding)와 생성(generation) 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습하는 고급 비전 인코더인 OpenVision 3 를 제안합니다.#Review#Unified Visual Encoder#Image Understanding#Image Generation#VAE#Vision Transformer#Multimodal Learning#Reconstruction#Contrastive Learning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Numba-Accelerated 2D Diffusion-Limited Aggregation: Implementation and Fractal Characterization본 연구는 고성능 Numba-가속화 Python 프레임워크(dla-ideal-solver) 를 개발하여 2차원 확산-제한 응집(DLA) 시뮬레이션의 계산 처리량을 개선하는 것을 목표로 합니다.#Review#Diffusion-Limited Aggregation#Fractal Dimension#Numba#JIT Compilation#Monte Carlo Simulation#Pattern Formation#Laplacian Growth#Non-equilibrium Statistical Mechanics2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Learning to Discover at Test Time본 연구는 AI를 활용하여 과학적 문제에서 새로운 SOTA(State-of-the-Art) 솔루션 을 발견하는 방법을 제시합니다. 특히, 훈련 데이터 범위를 넘어서는 새로운 아이디어 를 요구하는 난제들을 LLM이 테스트 시점에 지속적으로 학습 하며 해결하는 것을 목표로 합니다.#Review#Test-Time Training#Reinforcement Learning#Scientific Discovery#LLM Optimization#GPU Kernel Engineering#Algorithm Design#Single-Cell Analysis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] LLM-in-Sandbox Elicits General Agentic Intelligence본 논문은 LLM이 코드 샌드박스(가상 컴퓨터) 내에서 탐색할 수 있도록 지원하여, 비-코드 도메인에서 일반 에이전트 지능 을 이끌어내는 LLM-in-Sandbox 패러다임을 제안합니다.#Review#LLM-in-Sandbox#Agentic Intelligence#Code Sandbox#Reinforcement Learning#Generalization#Tool Use#Multi-Modal Generation#Long-Context Processing2026년 1월 22일댓글 수 로딩 중
[논문리뷰] HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding기존 Multimodal Large Language Models (MLLMs) 이 스트리밍 비디오 이해에서 겪는 성능 불안정, 높은 응답 지연 시간, 높은 GPU 메모리 사용량 등의 문제를 해결하는 것을 목표로 합니다.#Review#Streaming Video Understanding#KV Cache Management#Hierarchical Memory#MLLMs#Low Latency#Training-free#Memory Efficiency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience본 논문은 정적 데이터 스케일링의 한계로 인해 장기적인 컴퓨터 사용 작업에서 복잡한 인과적 역학을 포착하는 데 어려움을 겪는 네이티브 컴퓨터 사용 에이전트(CUA) 의 문제를 해결하고자 합니다.#Review#Computer Use Agent#Synthetic Experience#Evolutionary Learning#Reinforcement Learning#Direct Preference Optimization#GUI Automation#Scalable Infrastructure#Verifiable Synthesis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control and Planning본 논문은 대규모 사전 훈련된 비디오 생성 모델 의 시공간적 사전 지식을 로봇 정책 학습에 활용하는 것을 목표로 합니다.#Review#Video Models#Visuomotor Control#Robot Policy#Fine-tuning#Diffusion Models#World Models#Model-based Planning#Imitation Learning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action QueriesVision-Language-Action (VLA) 모델이 새로운 지시나 복잡한 다중 작업 시나리오에서 일반화하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language-Action Models#Bayesian Decomposition#Latent Action Queries#Information Collapse#OOD Generalization#Robot Manipulation#Pointwise Mutual Information2026년 1월 22일댓글 수 로딩 중
[논문리뷰] ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion논문은 기존 애니메이션 3D 객체 생성 모델의 한계점인 느린 최적화 과정, 제한적인 입력 방식, 낮은 품질, 그리고 토폴로지 불일치 문제 를 해결하고자 합니다.#Review#3D Mesh Generation#Animated 3D Models#Temporal Diffusion#Video-to-4D#Deep Learning#Generative Models#Topology Consistency2026년 1월 22일댓글 수 로딩 중