최신 포스트

[논문리뷰] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

기존 2D-중심 AV-LLM이 RGB 비디오와 모노 오디오에 의존하여 3D 환경에서 음원 위치 파악 및 공간 추론에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #3D Audio-Visual Learning #Spatial Grounding #Spatial Reasoning #Large Language Models (LLMs)#Ambisonics #RGB-D #Simulated Environments #Neural Intensity Vector

2026년 2월 25일

[논문리뷰] Image Generation with a Sphere Encoder

기존 확산 모델(diffusion models) 및 자기회귀 모델(autoregressive models)의 느리고 비용이 많이 드는 이미지 생성 방식의 한계를 극복하고, 단 한 번의 순방향 패스(forward pass)만으로도 선명한 이미지를 생성할 수 있는 효율적인 생성 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Image Generation #Sphere Encoder #Autoencoder #Latent Space #Few-Step Generation #Conditional Generation #Diffusion Models #Perceptual Loss

2026년 2월 25일

[논문리뷰] HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

본 논문은 생성형 추천 시스템에서 초장기 사용자 행동 시퀀스(ultra-long user behavior sequences) 모델링 시 발생하는 효율성과 정확도 간의 근본적인 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #Sequential Recommendation #Hybrid Attention #Temporal-Aware #Long Sequences #Generative Recommendation #Linear Attention #Softmax Attention

2026년 2월 25일

[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.

#Review #GUI Agents #Reinforcement Learning #Supervised Fine-tuning #Visual Grounding #Long-Horizon Tasks #Partial Verifiability #KL Regularization #Data Curation

2026년 2월 25일

[논문리뷰] Functional Continuous Decomposition

논문은 비정상 시계열 데이터의 로컬 및 글로벌 패턴을 물리적으로 해석 가능한 방식으로 분석하기 위해, 기존 신호 처리 알고리즘(예: EMD, B-splines)의 파라메트릭 최적화 및 C¹ 연속성 보장 의 한계를 해결하는 것을 목표로 합니다.

#Review #Time Series Analysis #Signal Decomposition #Continuous Function Fitting #Levenberg-Marquardt #JAX #C1 Continuity #Feature Engineering

2026년 2월 25일

[triton] Gluon에서 3D Dot FMA 연산 노출

Triton Gluon 프론트엔드에서 batched(3D) matrix multiplication을 FMA dot 연산으로 지원하도록 확장한 PR 분석.

#Triton #Gluon #DotFMA #BatchedMatMul #3D #GPU

2026년 2월 25일

[Loki] TSDBIndex.GetChunkRefs에서 불필요한 라벨 조회 제거

청크 참조만 필요한 경우 라벨 디코딩을 건너뛰어 할당 30% 감소

#Grafana Loki #TSDB #Index Optimization #Performance

2026년 2월 25일

[Loki] TSDB 풀에 전체 슬라이스를 올바르게 반환하여 메모리 할당 99.6% 감소

defer 시점의 슬라이스 캡처 버그를 수정하여 오브젝트 풀 효과 복원

#Loki #Performance

2026년 2월 25일

[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환

PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.

#PyTorch #vLLM #CI #CUDA #Blackwell #GitHub Actions

2026년 2월 25일

[Open WebUI] get_tools()에서 빈 tool_ids 조기 반환 최적화

tool_ids가 비어있을 때 불필요한 DB 쿼리를 건너뛰는 가드 절 추가

#Open WebUI #Python #Database #Performance

2026년 2월 25일

[논문리뷰] DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

본 논문은 에이전틱 LLM 추론 시 KV-Cache 저장소 I/O가 컴퓨테이션보다 병목 현상을 일으키는 문제를 해결하고자 합니다.

#Review #LLM Inference #KV-Cache #Storage Bottleneck #Agentic Workloads #Dual-Path Loading #PD Disaggregation #RDMA #Adaptive Scheduling

2026년 2월 25일

[논문리뷰] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

레퍼런스 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V)과 같은 인간 중심 태스크들을 개별적으로 처리하는 기존 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Video Generation #Human-Centric AI #Diffusion Transformer #Multi-Task Learning #Identity Disentanglement #Controllable Generation #Speaker Confusion

2026년 2월 25일

[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.

#Review #Agentic Reinforcement Learning #LLM #Policy Optimization #Training Stability #Importance Sampling Clipping #Advantage Design #Dynamic Filtering #ARLArena #SAMPO

2026년 2월 25일

[Ray Serve] Direct Ingress 최적화: 상수 순서 정리 및 빈 프록시 조기 반환

Ray Serve에서 HAProxy 관련 상수 초기화 순서를 수정하고 빈 proxy handles 순회를 방지하는 간결한 최적화 PR 분석.

#Ray #Ray Serve #Direct Ingress #HAProxy #Performance #Early Return

2026년 2월 25일

[Ray RLlib] space_utils.batch()에서 np.stack 대신 사전 할당 배열로 연결 속도 개선

수백~수천 개의 배열을 배치 처리할 때 np.stack 대신 np.empty로 사전 할당 후 복사하는 방식으로 전환하여 불필요한 연결 오버헤드를 제거한 최적화 분석.

#Ray #Python #Performance #NumPy #RLlib

2026년 2월 25일

[Loki] 싱크에 쓰기 전 레코드 배치 처리로 라운드트립 감소

개별 레코드 전송을 배치로 묶어 싱크 쓰기 대기 시간을 크게 줄임

#Loki #Performance

2026년 2월 24일

[Loki] 빈 레이블 제거에 더 단순한 함수 사용

labels.NewBuilder().Labels() 대신 WithoutEmpty()로 불필요한 할당 제거

#Loki #Performance

2026년 2월 24일

[triton] Triton Gluon을 활용한 Blackwell 아키텍처에서의 Multi-CTA 행렬 곱셈 최적화

Blackwell GPU의 Multi-CTA 환경에서 CLC(Cluster Launch Control)를 활용한 행렬 곱셈 성능 최적화 및 메모리 레이아웃 개선 분석.

#Triton #Blackwell #GPU #MatMul #HPC

2026년 2월 24일

[논문리뷰] Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

본 논문은 트랜스포머 모델의 장문 시퀀스 훈련에서 기존 컨텍스트 병렬화 기법들이 직면하는 활성화 메모리 병목 현상 을 해결하여 지원 가능한 시퀀스 길이를 확장하는 것을 목표로 합니다. 특히, 메모리 효율성을 높이면서도 훈련 처리량은 유지하는 새로운 방법론을 제시하고자 합니다.

#Review #Context Parallelism #Memory Efficiency #Headwise Chunking #Transformer Training #DeepSpeed Ulysses #LLMs #Activation Memory #Flash Attention

2026년 2월 24일

[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

본 논문은 균일 상태 이산 확산 모델(Uniform-State Discrete Diffusion Models, USDMs) 의 샘플링 품질이 스텝 수 증가 시 정체되는 문제점을 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Ψ-Samplers #Predictor-Corrector #Language Modeling #Image Generation #Curriculum Learning #Efficient Training

2026년 2월 24일