최신 포스트

[논문리뷰] AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders

이 논문은 오디오 처리 모델, 특히 Whisper 와 HuBERT 의 복잡한 내부 표현을 Sparse AutoEncoders (SAEs) 를 통해 이해하고 해석하는 것을 목표로 합니다.

#Review #Sparse Autoencoders (SAEs)#Audio Representation Learning #Model Interpretability #Whisper #HuBERT #Feature Steering #EEG Correlation #Audio Analysis

2026년 2월 8일

[ACE-Step-1.5] Apple Silicon 맥북에서 MLX 네이티브 백엔드로 5Hz LM 추론 속도 혁신

Apple Silicon 맥북의 Metal GPU를 활용하여 5Hz LM 추론 속도를 획기적으로 개선하는 MLX 네이티브 백엔드 도입.

#MLX #Apple Silicon #Metal GPU #LLM Inference #Performance Optimization #ACE-Step

2026년 2월 8일

[Loki] LogQL 벤치마크에 오브젝트 스토리지 지연 시뮬레이션 추가

Loki LogQL 벤치마크에 S3/GCS 같은 오브젝트 스토리지 지연을 시뮬레이션하는 플래그를 추가하여 프로덕션 환경에 가까운 성능 측정을 가능하게 한 PR 분석.

#Grafana Loki #Go #Benchmarking #Object Storage #Latency Simulation #LogQL

2026년 2월 7일

[triton] Blackwell GPU Cluster Launch Control 지원으로 Persistent Kernel 워크로드 밸런싱 구현

Triton Gluon에 NVIDIA Blackwell SM100+ GPU의 CLC(Cluster Launch Control) 기능을 추가하여 persistent kernel에서 동적 작업 분배를 가능하게 한 PR을 분석합니다.

#Triton #NVIDIA #Blackwell #GPU #Gluon

2026년 2월 6일

[Ray] 메모리 모니터 리팩터링: cgroup 경로 주입으로 테스트 가능성 확보

Ray의 메모리 모니터에 cgroup 경로를 주입할 수 있도록 리팩터링하여 가짜 cgroup으로 메모리 사용량을 모킹할 수 있게 한 PR 분석.

#Ray #C++#Memory Monitor #Testability #Dependency Injection #Resource Isolation

2026년 2월 6일

[triton] FpSan - Floating Point Sanitizer 도입

GPU 커널의 부동소수점 연산 오류를 런타임에 감지하는 FpSan(Floating Point Sanitizer)을 Triton에 도입한 PR을 분석합니다. MLIR 패스를 통해 FP 연산을 integer payload 방식으로 rewrite합니다.

#Triton #GPU Compiler #Floating Point #Sanitizer #MLIR

2026년 2월 6일

[Loki] memory.Bitmap 슬라이싱 지원: 비정렬 오프셋 처리

Loki의 memory.Bitmap에 슬라이싱 기능을 추가하고, 워드 경계에 정렬되지 않은 비트맵의 연산을 지원하도록 개선한 PR 분석.

#Grafana Loki #Go #Bitmap #Memory #Data Structure #Performance

2026년 2월 6일

[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입

Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.

#Triton #Compiler #Optimization #LLVM #GPU

2026년 2월 6일

[Triton] TMA im2col 모드 — LLVM Lowering 구현

TMA im2col 시리즈의 다섯 번째 PR로, im2col descriptor 생성과 TMA 복사의 LLVM IR lowering을 구현한다

#Triton #NVIDIA #TMA #im2col #LLVM #Compiler

2026년 2월 6일

[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval

기존 MLLM 기반 검색 시스템이 정적 시각 인코딩에 의존하고 시각적 증거를 능동적으로 검증하지 못해 시각적으로 모호한 경우 추론 오류가 발생하는 문제를 해결하고자 합니다. 시각적 검사에 기반한 증거 기반 에이전트 추론 프로세스 를 통해 범용 멀티모달 검색의 정확성과 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Retrieval #Agentic AI #Large Language Models (LLMs)#Visual Tools #Chain-of-Thought (CoT)#Reinforcement Learning #Curriculum Learning #Evidence-Driven Reasoning

2026년 2월 5일

[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning

본 논문은 기존 MLLMs가 겪는 미세한 공간 이해 및 연속적인 행동 계획의 한계를 극복하고, 복잡한 시각적 추론을 위한 새로운 패러다임을 제시하는 것을 목표로 합니다.

#Review #Video Generation #Visual Reasoning #Zero-Shot Generalization #Test-Time Scaling #Visual Context #Sequential Planning #Continuous Manipulation

2026년 2월 5일

[논문리뷰] SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs

기존 MLLM(Multimodal Large Language Models)이 고정된 추론 패턴(텍스트 전용, 시각 전용, 시각-텍스트 혼합)과 시각적 사고(visual thought)의 고정된 길이로 인해 시각 집중 태스크에서 성능 저하 및 텍스트 기반 논리 추론 능력 손상을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Reasoning Modes #Hybrid Autoregressive #Latent Visual Reasoning #Dynamic Mode Selection #Supervised Fine-tuning #Vision-Language Tasks

2026년 2월 5일

[논문리뷰] Steering LLMs via Scalable Interactive Oversight

본 논문은 대규모 언어 모델(LLM)이 복잡하고 장기적인 태스크를 자동화함에 따라 발생하는 '감독 격차(supervision gap)' 문제를 해결하고자 합니다. 이는 비전문가 사용자가 충분한 도메인 전문성 없이 AI 시스템을 효과적으로 조종하고 복잡한 출력을 검증하기 어려운 문제를 지칭합니다.

#Review #Scalable Oversight #Interactive AI #Large Language Models #Human-AI Collaboration #Product Requirement Documents #Reinforcement Learning #Structured Interaction #Vibe Coding

2026년 2월 5일

[논문리뷰] Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 보안 취약점을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Agent Security #Intrinsic Risk Sensing #Adaptive Defense #Hierarchical Screening #Attack Detection #S2Bench Benchmark

2026년 2월 5일

[논문리뷰] Semantic Search over 9 Million Mathematical Theorems

본 논문은 기존 검색 도구가 논문 단위로만 작동하여 특정 수학적 정리, 보조 정리, 명제 검색이 어려운 문제를 해결하고자 합니다. 대규모 수학적 정리 코퍼스에 대한 시맨틱 검색 시스템 을 구축하여, 연구자와 AI 에이전트가 특정 수학적 지식을 효율적으로 찾을 수 있도록 지원하는 것을 목표로 합니다.

#Review #Semantic Search #Theorem Retrieval #LLMs #Dense Retrieval #Mathematical Information Retrieval #Vector Embeddings #Mathematical Dataset #RAG

2026년 2월 5일

[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

본 논문은 심층 연구 에이전트 워크플로우에서 LLM 기반 검색기 가 얼마나 효과적으로 기여할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #Deep Research Agents #Scientific Literature Retrieval #LLM-based Retrievers #Benchmarking #Test-time Scaling #Information Retrieval #Query Decomposition #RAG

2026년 2월 5일

[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.

#Review #Retrieval-Augmented Generation #Large Language Models #Reasoning #Benchmark #Deep Search #Error Analysis #Scientific Problem Solving #Context Understanding

2026년 2월 5일

[논문리뷰] Reinforcement World Model Learning for LLM-based Agents

대규모 언어 모델(LLM) 기반 에이전트가 현실 환경에서 행동 결과(action consequences)를 예측하고 환경 역학에 적응하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM-based Agents #World Model Learning #Reinforcement Learning #Self-Supervised #Environment Dynamics #Sim-to-Real Reward #Textual States

2026년 2월 5일

[논문리뷰] Reinforced Attention Learning

본 논문은 기존 RL 기반 LLM 후처리 방식이 MLLM에서 시각적 추론을 위한 '생성할 내용'에만 초점을 맞추어 제한적인 성능 향상을 보이거나 심지어 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Multimodal LLMs #Attention Mechanisms #Policy Gradient #Knowledge Distillation #Visual Grounding #Post-training

2026년 2월 5일

[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?

본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다.

#Review #Video Generation #Implicit Reasoning #Benchmark #Evaluation #Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)

2026년 2월 5일