최신 포스트

[ray] [Ray] gRPC 메트릭 객체 재사용을 통한 GCS 확장성 개선 (13% 성능 향상)

gRPC 요청마다 생성되던 메트릭 객체를 프로세스 단위로 싱글톤화하여 GCS 부하를 줄이고 대규모 액터 스케줄링 성능을 13% 개선한 사례를 분석합니다.

#Ray #gRPC #Performance Optimization #C++#Distributed Systems

2026년 7월 14일

[cutlass] NVIDIA Hopper에서 FP8 GEMM + GELU 퓨전 최적화: CuTe DSL 활용

Hopper GPU에서 FP8 GEMM과 GELU를 퓨전하여 성능을 최적화하고 유연성을 확보하는 기술 분석.

#NVIDIA #Hopper #CuTeDSL #GEMM #FP8 #GELU #Optimization #CUDA #Deep Learning

2026년 7월 14일

[cutlass] NVIDIA CUTLASS CuTeDSL: SM103 Grouped Block-Scaled GEMM 최적화 분석

SM103 아키텍처를 위한 Grouped Block-Scaled GEMM 커널 구현과 파이프라인 동기화 오류 해결 사례를 분석합니다.

#NVIDIA #CUTLASS #GPU #GEMM #SM103 #CUDA

2026년 7월 14일

[flashinfer] FlashInfer: NVIDIA Blackwell(SM120)을 위한 고성능 FP8 MoE GEMM 최적화

NVIDIA SM120 아키텍처에서 CuTe C++를 활용해 FP8 groupwise MoE GEMM을 구현하여 성능을 극대화했습니다.

#FlashInfer #CUDA #GEMM #MoE #Blackwell #FP8

2026년 7월 14일

[논문리뷰] Towards Autonomous and Auditable Medical Imaging Model Development

본 논문은 의료 영상 모델 개발의 자동화 과정에서 발생하는 복잡성과 불투명성 문제를 해결하고자 합니다.

#Review #Medical Imaging #Autonomous Agents #Machine Learning Engineering #Model Development #Verification-Guided Optimization #Auditability

2026년 7월 14일

[논문리뷰] Read It Back: Pretrained MLLMs Are Zero-Shot Reward Models for Text-to-Image Generation

본 논문은 텍스트-이미지 생성(T2I) 모델의 강화학습(RL) 과정에서 효율적이고 신뢰성 높은 보상 모델을 설계하는 것이 어렵다는 점을 해결하고자 합니다 .

#Review #SpectraReward #Self-SpectraReward #Text-to-Image Generation #Reinforcement Learning #MLLM #Prompt-Likelihood Reward #Unified Multimodal Models

2026년 7월 14일

[논문리뷰] Principled Analysis of Deep Reinforcement Learning Evaluation and Design Paradigms

본 논문은 딥 강화학습 분야에서 고착화된 평가 패러다임과 그에 내재된 잘못된 가정들을 비판적으로 분석합니다.

#Review #Deep Reinforcement Learning #Scaling Laws #Sample Complexity #Evaluation Paradigm #Monotonicity Assumption #Arcade Learning Environment

2026년 7월 14일

[논문리뷰] MuScriptor: An Open Model for Multi-Instrument Music Transcription

기존의 AMT 연구들은 주로 단일 악기(피아노, 기타 등)에 국한되어 있으며, 다중 악기(Multi-instrument) 환경에서의 실질적인 성능은 매우 저조합니다.

#Review #Automatic Music Transcription #Multi-Instrument #Transformer #Synthetic Pre-training #Reinforcement Learning #Open-Weight Model

2026년 7월 14일

[논문리뷰] Know Before Fix: QA-Driven Repository Knowledge Acquisition for Software Issue Resolution

본 논문은 LLM 기반 coding agent가 repository에 대한 깊이 있는 이해 부족으로 인해 factual errors를 범하고, 결과적으로 복잡한 이슈 해결에 실패하는 문제를 해결하고자 합니다 .

#Review #Software Engineering Agents #Knowledge Acquisition #Repository Understanding #Question-Answering (QA)#Automated Issue Resolution #LLM-based Agents

2026년 7월 14일

[논문리뷰] Blind-Spots-Bench: Evaluating Blind Spots in Multimodal Models

본 논문은 기존 벤치마크에서 우수한 성능을 보이는 최신 멀티모달 모델들이 인간에게는 사소한 작업에서 여전히 실패하는 문제를 해결하고자 한다 . 대규모 언어 모델과 멀티모달 모델은 이미 많은 표준 벤치마크를 거의 포화 상태로 만들었으나, 이러한 점수가 모델의 실질적인 견고성을 항상 대변하지는 않는다.

#Review #Multimodal Models #Benchmarking #Blind Spots #Reasoning Evaluation #Task Taxonomy #AI Evaluation

2026년 7월 14일

[vllm] vLLM의 ROCm 환경 성능 최적화: CUDA Graph 메모리 프로파일링 비활성화

vLLM에서 ROCm 플랫폼의 성능 저하를 방지하기 위해 CUDA Graph 메모리 프로파일링을 다시 비활성화한 사례를 분석합니다.

#vLLM #ROCm #CUDA #Performance #GPU

2026년 7월 13일

[sglang] SGLang, FlashInfer의 CuTe DSL 백엔드 도입으로 NVFP4 양자화 성능 극대화

SGLang이 FlashInfer의 최신 CuTe DSL 백엔드를 활용하여 NVFP4 양자화 성능을 크게 향상시킵니다.

#SGLang #FlashInfer #NVFP4 #양자화 #성능 최적화 #CuTe DSL #LLM

2026년 7월 13일

[vllm] vLLM의 FlashInfer MNNVL AllReduce RMSNorm 양자화 융합 최적화

vLLM에서 FlashInfer의 MNNVL 백엔드를 활용해 AllReduce와 RMSNorm 양자화 융합을 활성화하여 성능을 개선하는 방법.

#vLLM #FlashInfer #MNNVL #AllReduce #Optimization

2026년 7월 13일

[논문리뷰] Weak-to-Strong Generalization via Direct On-Policy Distillation

본 논문은 대규모 언어 모델의 post-training 단계에서 발생하는 RLVR(Reinforcement Learning with Verifiable Rewards)의 높은 컴퓨팅 비용 문제를 해결하고자 합니다.

#Review #Weak-to-Strong Generalization #Reinforcement Learning #On-Policy Distillation #Policy Shift #Implicit Reward #Post-Training #Large Language Models

2026년 7월 13일

[논문리뷰] Proxy Exploration and Reusable Guidance: A Modular LLM Post-Training Paradigm via Proxy-Guided Update Signals

본 논문은 기존 LLM 사후 학습 방식이 탐색(exploration)과 분포 정렬(distribution alignment)을 강하게 결합하여 컴퓨팅 효율성과 확장성을 저해하는 문제를 해결합니다.

#Review #Post-training #Proxy Exploration #Update Signal Transfer #LLM Alignment #Modular Training #Weak-to-Strong Generalization

2026년 7월 13일

[논문리뷰] NeuroCogMap Reveals Cognitive Organization of Large Language Models

본 논문은 LLM이 복잡한 인지적 능력을 발휘함에도 불구하고, 이러한 능력이 내부적으로 어떻게 조직화되어 있는지에 대한 시스템 수준의 설명이 부족하다는 문제의식을 다룹니다.

#Review #Large Language Models #NeuroCogMap #Functional Parcellation #Cognitive Hierarchy #Mechanistic Interpretability #Pathology Detection #Cortical Alignment

2026년 7월 13일

[논문리뷰] Motion4Motion: Motion Transfer Across Subjects at Inference

본 논문은 기존 모션 전이 방식이 스켈레톤 구조에 지나치게 의존함으로써 겪는 범용성 부족 문제를 해결하고자 합니다. 대다수의 기존 연구는 인간 중심의 스켈레톤 사전 지식을 강제하여, 동물과 같이 다양한 형태의 캐릭터 간 모션 전이에 적용하기 어렵습니다 .

#Review #Motion Transfer #Training-free #Diffusion Transformer #Attention Control #Video Generation #Cross-species #Motion Flow

2026년 7월 13일

[논문리뷰] Metacognition in LLMs: Foundations, Progress, and Opportunities

본 논문은 LLM이 인간의 고유한 지적 능력으로 여겨지는 Metacognition을 어느 수준까지 발휘할 수 있는지, 그리고 이를 어떻게 시스템 수준에서 구현하여 성능과 신뢰성을 높일 수 있는지에 대한 체계적인 분석을 목표로 합니다.

#Review #Metacognition #Large Language Models #Confidence Calibration #Self-Correction #Uncertainty Estimation #Artificial Intelligence #Cognitive Psychology

2026년 7월 13일

[논문리뷰] LightMem-Ego: Your AI Memory for Everyday Life

본 논문은 일상생활의 경험을 지속적으로 기록하고 활용해야 하는 개인용 AI 어시스턴트의 메모리 한계 문제를 해결하기 위해 LightMem-Ego를 제안합니다.

#Review #Egocentric Perception #Multimodal Memory #Streaming Architecture #Hierarchical Memory #Life Assistant #Experience Retrieval

2026년 7월 13일

[논문리뷰] Latent-Identity Tuning in Text-to-Image Personalization Models

본 논문은 기존의 Text-to-Image personalization 모델이 특정 개인의 정체성을 재현하는 데에는 뛰어나지만, 생성된 정체성을 세밀하게 수정하거나 제어하는 기능이 결여되어 있다는 점을 해결하고자 합니다 .

#Review #Text-to-Image #Personalization #Identity Tuning #Latent Space #Q-Former #Fine-grained Editing

2026년 7월 13일