최신 포스트

[논문리뷰] Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

본 논문은 기계학습 연구의 제안-측정-수정 루프를 인간의 개입 없이 언어 모델 에이전트로 자동화하는 것을 목표로 합니다. 기존의 자동화 연구들이 주로 단일 모델 출력물 생성이나 제한적인 하이퍼파라미터 탐색에 머물렀던 것과 달리, 이 연구는 실제 학습 파이프라인 전반에 걸친 실질적인 코드 구조 수정을 목표로 합니다.

#Review #Auto Research #Language Agents #Closed-Loop #Training Recipes #Specialist Agents #Compute-Budgeted #Lineage Feedback

2026년 5월 7일

[논문리뷰] Audio-Visual Intelligence in Large Foundation Models

본 논문은 대규모 파운데이션 모델 시대에 멀티모달 학습이 필수적임에도 불구하고, 시청각 데이터 간의 정렬, Taxonomy의 불일치, 그리고 평가 방법론의 파편화로 인해 체계적인 연구가 어렵다는 문제를 해결하고자 합니다.

#Review #Audio-Visual Intelligence #Foundation Models #Multimodal Fusion #Embodied AI #Cross-modal Generation

2026년 5월 7일

[논문리뷰] AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

본 논문은 수학 연구의 복잡하고 반복적인 실제 프로세스를 지원하기 위해 상태 유지형 워크플로우를 제공하는 AI co-mathematician을 제안한다.

#Review #Agentic AI #Mathematical Research #Interactive Workspace #Workstream #Stateful Workflow #Uncertainty Management #FrontierMath

2026년 5월 7일

[flashinfer] NVIDIA Blackwell SM120을 위한 MoE Short-Decode 최적화 분석

FlashInfer의 SM120 MoE 커널 업데이트를 통해 단일 토큰 디코딩 성능을 극대화하는 마이크로 커널 최적화 기법을 살펴봅니다.

#CUDA #MoE #Blackwell #Performance #Triton

2026년 5월 7일

[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다

FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.

#FlashInfer #FP8 #LLM #최적화 #성능 향상 #딥러닝

2026년 5월 7일

[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석

DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.

#LLM #Quantization #CUDA #DeepSeek-V4 #SGLang #Marlin

2026년 5월 7일

[sglang] NixlKVManager 성능 향상: 비동기 및 멀티스레드 KV 전송 도입

NixlKVManager의 KV 전송 병목 현상을 비동기 및 멀티스레드 방식으로 해결하여 성능을 4배 향상시켰습니다.

#sglang #Nixl #성능 최적화 #비동기 처리 #멀티스레딩 #분산 추론

2026년 5월 7일

[flashinfer] FlashInfer BF16 XQA MLA 커널의 10가지 버그 수정 및 최적화 분석

FlashInfer의 BF16 XQA MLA 커널에서 발생한 10가지 치명적인 버그를 수정하고 성능을 개선한 PR을 분석합니다.

#FlashInfer #CUDA #Kernel Optimization #BF16 #XQA #MLA

2026년 5월 7일

[cpython] CPython arraymodule 최적화: 구조체 메모리 레이아웃 개선을 통한 성능 향상

CPython의 arraymodule 내 arraydescr 구조체에서 포인터 대신 고정 크기 배열을 사용하여 메모리 효율성과 접근 속도를 개선한 사례를 분석합니다.

#CPython #C #Optimization #Memory Management #Performance

2026년 5월 6일

[sglang] SGLang의 Unified Radix Cache를 위한 SWA HiCache 지원 최적화

SGLang에서 SWA(Sliding Window Attention)를 HiCache와 통합하여 메모리 효율성과 추론 성능을 크게 향상시킨 변경사항 분석

#SGLang #LLM #KV-Cache #Optimization #HiCache

2026년 5월 6일

[vllm] vLLM, Gemma 4 모델에 양자화된 Speculative Decoding 적용: 성능 향상의 비밀

vLLM이 Gemma 4 모델에 Speculative Decoding을 도입하여 추론 속도를 획기적으로 개선한 방법을 분석합니다.

#vLLM #Speculative Decoding #Gemma 4 #LLM 최적화 #양자화

2026년 5월 6일

[flashinfer] FlashInfer, CUDA 그래프 호환성을 높이고 성능을 최적화하다: TRT-LLM FMHA v2 통합 및 불필요한 H2D 제거

FlashInfer가 TRT-LLM FMHA v2를 통합하고 CUDA 그래프 호환성을 개선하여 성능을 최적화한 PR을 분석합니다.

#FlashInfer #TRT-LLM #CUDA #최적화 #성능 #LLM

2026년 5월 6일

[flashinfer] FlashInfer: Wide Vector 최적화와 1900줄의 코드 삭제로 달성한 성능 개선

gdn_wide_vec_kernel 도입과 불필요한 레거시 커널 제거를 통해 B200에서 최대 82%의 DRAM 대역폭 효율을 달성한 사례를 분석합니다.

#CUDA #PyTorch #FlashInfer #Performance-Optimization #LLM

2026년 5월 6일

[논문리뷰] X2SAM: Any Segmentation in Images and Videos

본 논문은 MLLM의 강력한 추론 능력과 foundation segmentation model의 정밀한 픽셀 단위 인식 능력을 통합하여 정적 이미지뿐만 아니라 동적 비디오까지 포괄하는 통합된 세분화 프레임워크를 구축하는 것을 목표로 합니다.

#Review #MLLM #Segmentation #Video-Understanding #Mask-Memory #Visual-Prompting #Spatio-Temporal-Consistency

2026년 5월 5일

[논문리뷰] Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

본 논문은 기존의 에이전트 벤치마크가 실제 업무 환경의 복잡한 파일 의존성(Large-Scale File Dependencies)을 충분히 반영하지 못하는 한계를 해결하기 위해 제안되었다.

#Review #AI Agents #Workspace Learning #Benchmark #File Dependency #Large-Scale #Autonomous Agent #Task-File-Driven

2026년 5월 5일

[논문리뷰] Video Generation with Predictive Latents

본 논문은 기존 Video VAE가 단순히 비디오의 시각적 재구성 성능을 최적화하는 것만으로는 우수한 비디오 생성(Generative Performance)을 보장할 수 없다는 문제점을 해결하고자 한다.

#Review #Video Generation #Video VAE #Predictive Learning #Latent Diffusion Models #Temporal Dynamics #Motion Prior #Spatiotemporal Compression

2026년 5월 5일

[논문리뷰] The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

본 논문은 상용 및 오픈 소스 STT 시스템이 인도 언어의 특정 엔티티 인식에서 극도로 낮은 성능을 보이는 문제를 해결하고자 한다. 기존 시스템들은 Wikipedia나 뉴스 등 read-prose 중심의 데이터로 학습되어, 실제 현업에서 빈번한 엔티티 데이터에 취약하다.

#Review #Indic ASR #TTS-STT Flywheel #Entity-Dense Audio #LoRA #Script Fidelity Rate #Data Augmentation #Entity-Hit-Rate

2026년 5월 5일

[논문리뷰] TCDA: Thread-Constrained Discourse-Aware Modeling for Conversational Sentiment Quadruple Analysis

본 논문은 DiaASQ 작업에서 기존 모델들이 대화의 복잡한 의존 관계를 제대로 모델링하지 못하고 발생하는 구조적 노이즈와 거리 감쇠 문제를 해결하고자 합니다. 기존 GCN 기반 연구들은 불필요한 스레드 간 정보를 여과 없이 전파하여 구조적 노이즈를 야기하는 한계가 있습니다.

#Review #DiaASQ #TC-DAG #D-RoPE #Distance Dilution #Sentiment Analysis #Conversational AI #Discourse Modeling

2026년 5월 5일

[논문리뷰] SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment

본 연구는 실제 일상생활 속에서 사용자가 호소하는 증상을 기반으로 하는 대화형 AI 진단 에이전트의 성능을 임상적 수준에서 검증하고자 한다.

#Review #Conversational AI #Differential Diagnosis (DDx)#LLM #Fitbit #Wearable Biosignals #PheWAS #Healthcare AI

2026년 5월 5일

[논문리뷰] StateSMix: Online Lossless Compression via Mamba State Space Models and Sparse N-gram Context Mixing

본 논문은 대규모 LLM 기반 압축 기술이 요구하는 엄청난 컴퓨팅 자원과 외부 가중치 전송의 비실용성을 해결하기 위해 완전 online 신경망 압축 방식을 제안한다. 기존의 고성능 신경망 압축 모델들은 수억 개의 파라미터를 외부에서 가져와야 하므로 범용적인 환경에서 사용하기 어렵다.

#Review #Lossless Compression #State Space Models #Mamba #Online Learning #Arithmetic Coding #N-gram #BPE Tokenisation

2026년 5월 5일