최신 포스트

[Triton] ttg.warp_id op 추가와 AMD 아키텍처별 변환 구현

2025년 11월 24일

[Open WebUI] 외부 임베딩 API 호출을 병렬화하여 50배 성능 향상

순차적으로 배치 처리하던 외부 임베딩 요청을 asyncio.gather로 병렬 실행하고, 동기 함수를 async로 전환하여 대규모 문서 처리 속도를 극적으로 개선한 최적화.

#Open WebUI #Python #Performance #asyncio #Embeddings #RAG

2025년 11월 23일

[Ray] DefaultCollateFn 병렬화로 Arrow-to-Tensor 변환 가속

ThreadPoolExecutor를 활용한 컬럼별 병렬 텐서 변환 최적화

#Ray #PyTorch #Apache Arrow #Performance

2025년 11월 22일

[triton] Out-of-tree TTIR/TTGIR 패스 플러그인 시스템

Triton에 플러그인 시스템을 도입하여 외부에서 TTIR/TTGIR 컴파일 패스를 등록하고 실행할 수 있도록 한 PR을 분석합니다. 동적 라이브러리 로딩과 C API 기반 확장 메커니즘을 살펴봅니다.

#Triton #Plugin System #MLIR #Compiler Pass #Extensibility

2025년 11월 22일

[Triton] Gluon의 to_linear_layout에서 TensorMemory 레이아웃 지원

to_linear_layout 함수가 Distributed, Shared에 더해 TensorMemory 인코딩도 처리할 수 있도록 확장

#Triton #Gluon #NVIDIA #TensorMemory #LinearLayout

2025년 11월 21일

[pydantic-ai] Anthropic 캐시 가능 타입에 document 추가

Anthropic prompt caching에서 document 타입이 누락되어 캐시가 적용되지 않던 문제를 수정

#Python #Pydantic AI #Anthropic #Bug Fix #Caching

2025년 11월 21일

[vllm] GPU Model Runner V2 - 차세대 모델 실행 엔진

vLLM의 GPU 모델 러너를 V2로 재설계하여 비동기 처리, 메모리 관리, 스케줄링 효율을 대폭 개선

#vllm #Performance

2025년 11월 21일

[Triton] clamp 최적화를 scalar에도 적용 — fmin.xorsign.abs 활용

Hopper 이상에서 clamp(x, -limit, limit) 패턴을 scalar 값에도 min.xorsign.abs로 최적화

#Triton #NVIDIA #Compiler Optimization #PTX #Scalar

2025년 11월 21일

[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO

이 연구는 기존의 텍스트 기반 다음 이벤트 예측(NEP)의 한계를 넘어, 비디오를 답변으로 제공 하는 새로운 패러다임인 Video-Next-Event Prediction (VNEP) 을 개척합니다.

#Review #Video Generation #Next Event Prediction #Reinforcement Learning #Vision-Language Model #Video Diffusion Model #Joint Optimization #Multimodal AI #Procedural Learning

2025년 11월 20일

[논문리뷰] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models

본 논문은 최신 생성 비디오 모델의 추론 능력을 체계적이고 신뢰할 수 있게 평가하기 위한 벤치마크 스위트인 V-ReasonBench 를 제안합니다.

#Review #Video Generation #Reasoning Benchmark #Chain-of-Frame #Evaluation #Multimodal AI #Physical Dynamics #Spatial Cognition #Pattern Inference

2025년 11월 20일

[논문리뷰] TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

본 연구는 신경 임베딩 기반 정보 검색(IR) 시스템이 영어 중심의 아키텍처에서 뛰어난 성능을 보임에도 불구하고, 튀르키예어와 같이 형태론적으로 복잡하고 자원이 부족한 언어 에 대한 비교 가능한 발전이 부족하다는 문제의식에서 시작되었습니다.

#Review #Information Retrieval #Turkish Language #Late-Interaction Models #ColBERT #Dense Retrieval #MUVERA #Benchmarking #Low-Resource NLP #Fine-tuning

2025년 11월 20일

[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

본 논문은 기존 MLLM이 긴 비디오 컨텍스트 처리 시 효율성과 효과성 사이의 균형을 맞추기 어려운 문제를 해결하고자 합니다.

#Review #Long Video Understanding #Hybrid Mamba-Transformer #Vision-Language Model #Token Compression #Vision-to-Text Aggregation #Efficient LLM #Multimodal AI

2025년 11월 20일

[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation

본 논문은 시각 콘텐츠 생성 과정에서 발생하는 장기적인 구성, 다중 엔티티 관계 및 미묘한 지시사항 준수와 같은 문제점을 해결하기 위해, 텍스트 기반 추론(think)을 시각 생성(generate) 과정에 실시간으로 상호 연동(interleaving) 하는 프레임워크인 Thinking-while-Generating (TWIG) 를 제안합니다.

#Review #Visual Generation #Textual Reasoning #Interleaving #Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning #Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)

2025년 11월 20일

[논문리뷰] Step-Audio-R1 Technical Report

오디오 언어 모델이 추론 과정을 거치면 성능이 저하되는 기존의 문제, 즉 '텍스트 대리 추론' 현상을 해결하고, 오디오 도메인에서 진정한 추론 능력을 성공적으로 활성화하는 것을 목표로 합니다. 이는 오디오 인텔리전스에 대한 심층적 사고의 이점을 입증하고자 합니다.

#Review #Audio Reasoning #Multimodal LLMs #Modality-Grounded Reasoning Distillation (MGRD)#Chain-of-Thought #Reinforcement Learning #Audio Understanding #Self-Distillation

2025년 11월 20일

[논문리뷰] Scaling Spatial Intelligence with Multimodal Foundation Models

본 연구는 최신 멀티모달 파운데이션 모델(Multimodal Foundation Models, MLLMs)이 가진 공간 지능(spatial intelligence)의 부족함을 해결하고, SenseNova-SI 계열 모델을 통해 대규모 데이터 스케일링을 통해 공간 지능을 효과적으로 육성하는 방법을 탐구하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal Foundation Models #Data Scaling #Perspective-taking #Visual Question Answering #Emergent Capabilities #Embodied AI #Benchmark Evaluation

2025년 11월 20일

[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language-Action Models #Reward Shaping #World Models #Self-Referential Learning #Robotics #Trajectory Optimization

2025년 11월 20일

[논문리뷰] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking

수술 비디오 세분화는 컴퓨터 지원 수술에 필수적이지만, 기존 SAM2 와 같은 iVOS 모델은 도메인 격차, 제한된 장기 추적 능력, 다중 소스 데이터셋 간의 주석 불일치 문제에 직면해 있습니다.

#Review #Surgical Video Segmentation #Interactive Video Object Segmentation #Long-term Tracking #Foundation Models #Domain Adaptation #Semantic Learning #Prompt-based Segmentation

2025년 11월 20일

[논문리뷰] SAM 3D: 3Dfy Anything in Images

본 논문은 단일 이미지로부터 시각적으로 기반한 3D 객체 재구성을 위한 SAM 3D 라는 생성 모델을 제시합니다. 가려짐 과 장면 복잡성 이 흔한 자연 이미지에서 객체의 기하학적 형태, 텍스처, 레이아웃 을 예측하여 완전한 장면 재구성을 가능하게 하는 것을 목표로 합니다.

#Review #3D Reconstruction #Generative Models #Single Image 3D #Object Reconstruction #Scene Understanding #Data Engine #Model-in-the-Loop #Human Preference

2025년 11월 20일

[논문리뷰] PartUV: Part-Based UV Unwrapping of 3D Meshes

이 논문은 AI 생성 메시와 같이 시끄럽고 불규칙한 3D 메시에서 기존 UV unwrapping 방법이 야기하는 과도한 차트 분할 및 부적절한 경계 문제를 해결하고자 합니다.

#Review #UV Unwrapping #3D Meshes #Part-Based Decomposition #Neural Fields #Geometric Heuristics #Parameterization #Texture Mapping

2025년 11월 20일

[논문리뷰] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

다양한 규모와 배포 목적에 맞는 LLM(Large Language Model) 패밀리 를 개별적으로 훈련하는 데 드는 막대한 비용 문제를 해결하고자 합니다.

#Review #LLM Compression #Elastic Networks #Knowledge Distillation #Hybrid Mamba-Attention #Reasoning LLMs #Multi-Budget Training #Zero-Shot Deployment

2025년 11월 20일