최신 포스트

[논문리뷰] ConFu: Contemplate the Future for Better Speculative Sampling

본 논문은 기존의 speculative decoding 드래프트 모델들이 현재 prefix에만 의존하여 예측하는 방식 때문에 발생하는 오류 누적 문제 를 해결하고자 합니다.

#Review #Speculative Decoding #LLM Inference Acceleration #Draft Model #Future Prediction #Contemplate Tokens #Mixture-of-Experts #Token Acceptance Rate #Speedup Ratio

2026년 3월 10일

[논문리뷰] Compiler-First State Space Duality and Portable O(1) Autoregressive Caching for Inference

이 논문은 Mamba-2 의 State Space Duality (SSD) 알고리즘이 기존의 NVIDIA CUDA/Triton 커널 에 대한 의존성 없이도 XLA 컴파일러 를 통해 효율적이고 이식성 높은 추론 성능을 달성할 수 있음을 증명하는 것을 목표로 합니다.

#Review #State Space Models #Mamba-2 #XLA #JAX #Compiler Codegen #Autoregressive Caching #Hardware Portability #Inference Optimization

2026년 3월 10일

[논문리뷰] BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

본 논문은 텍스트-투-비디오(T2V) 생성 모델의 상업적 잠재력을 확장하기 위해 'Seamless Brand Integration' 이라는 새로운 태스크를 소개합니다.

#Review #Text-to-Video Generation #Multi-Agent System #Brand Integration #Prompt Engineering #Large Language Models (LLMs)#LoRA Fine-tuning #Contextual Adaptation

2026년 3월 10일

[논문리뷰] Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

본 논문은 오디오-언어 모델(LALMs)에서 발생하는 텍스트 지배(text dominance) 문제를 해결하는 것을 목표로 합니다. 이는 LALMs가 중요한 오디오 증거가 있을 때에도 언어적 선험 지식에 과도하게 의존하여 오디오를 충분히 활용하지 못하는 현상을 의미합니다.

#Review #Audio-Language Models (LALMs)#Text Dominance #Mechanistic Interpretability #Attention Heads #Activation Steering #Multimodal Grounding #Inference-time Intervention

2026년 3월 10일

[Loki] Helm 차트 Memcached CPU 리소스 오버라이드 지원 추가

Grafana Loki Helm 차트의 자동 리소스 계산 모드에서 하드코딩된 500m CPU 대신, allocatedCPU 값으로 오버라이드할 수 있도록 개선한 변경 사항을 분석합니다.

#Grafana Loki #Helm #Kubernetes #Memcached #Resource Management

2026년 3월 10일

[Ray] concat_tables의 Happy Path를 최적화하여 동일 스키마 테이블 연결 가속화

모든 블록이 동일한 스키마를 가진 경우 PyArrow의 네이티브 concat_tables를 사용하고, 확장 타입도 지원하도록 개선한 최적화 분석.

#Ray #Python #PyArrow #Performance #Schema #Data Pipeline

2026년 3월 10일

[논문리뷰] Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

금융 도메인 LLM 배포의 어려움(밀도 높은 전문 용어, 엄격한 수치 추론, 낮은 오류 허용치)을 해결하고, 특히 데이터 품질 과 훈련 데이터의 난이도/검증 가능성 프로필 이 특수 수직 도메인에서의 LLM 성능에 미치는 영향을 체계적으로 이해하는 것을 목표로 합니다.

#Review #Financial LLMs #Data-Centric AI #Distillation #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Difficulty-Aware Training #Data Quality

2026년 3월 9일

[논문리뷰] TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

이 논문은 Few-Step Diffusion Models 이 비미분 가능한(non-differentiable) 보상 신호 를 효과적으로 활용하도록 강화 학습(RL)하는 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Non-Differentiable Rewards #Few-Step Generation #Trajectory Distribution Matching #Surrogate Reward Learning #Text-to-Image

2026년 3월 9일

[논문리뷰] Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

본 논문은 Autoregressive (AR) LLM과 Diffusion (dLLM)의 내부 표현 구조가 어떻게 다른지 체계적으로 분석하고, 이러한 차이를 활용하여 추론 시 레이어 스키핑(layer skipping) 을 통한 효율성 증대 가능성을 탐색합니다.

#Review #Diffusion LLMs #Autoregressive LLMs #Representational Analysis #Layer Skipping #Inference Efficiency #Initialization Bias #FLOPs Reduction #Recency Bias

2026년 3월 9일

[논문리뷰] Scale Space Diffusion

본 논문은 확산 모델의 노이즈 열화 과정과 스케일 공간 이론의 저역 통과 필터링이 공유하는 정보 계층 구조를 공식화하여 통합하는 것을 목표로 합니다. 완전히 노이즈가 있는 이미지가 저해상도 이미지와 동등한 정보를 가짐에도 불구하고 고해상도로 처리되는 비효율성을 해결하고, 이를 통해 확산 모델의 효율성을 개선하고자 합니다.

#Review #Diffusion Models #Scale Space Theory #Generative Models #Multi-resolution Image Generation #UNet Architecture #Image Upsampling #Non-Isotropic Noise

2026년 3월 9일

[논문리뷰] PureCC: Pure Learning for Text-to-Image Concept Customization

본 논문은 텍스트-투-이미지(T2I) 개념 맞춤화 과정에서 기존 모델의 동작 및 기능을 손상시키지 않으면서 새로운 개인화된 개념을 '순수하게 학습' 하는 것을 목표로 합니다. 기존 맞춤화 방법들이 높은 충실도에 집중하여 원본 모델의 기능 저하와 예측 동작 방해를 야기하는 문제를 해결하고자 합니다.

#Review #Text-to-Image #Concept Customization #Flow-based Models #Pure Learning #Model Preservation #Adaptive Guidance #LoRA

2026년 3월 9일

[논문리뷰] PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

현재 명시적 지시에만 반응하는 GUI 에이전트 의 한계를 극복하고, 사용자의 암묵적인 의도를 연속적인 시각 입력(스크린샷)으로부터 예측 하여 시기적절한 추천을 제공하는 능동형(Proactive) AI 비서 를 개발하는 것을 목표로 합니다.

#Review #Proactive Agents #GUI Automation #Intent Recommendation #Multimodal LLMs #Benchmark #Memory-aware Framework #Human-Computer Interaction

2026년 3월 9일

[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?

기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Language Agents #Benchmarking #Expert Evaluation #Economic Value #Professional Tasks #Rubric-based Evaluation #Multi-step Reasoning #Reliability #Domain Adaptation

2026년 3월 9일

[논문리뷰] NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

본 연구는 기존 VLM 기반 자율주행(AD) 시스템 이 직면한 고수준 추론 능력과 정밀한 모션 계획 사이의 트레이드오프 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language Models #Motion Planning #High-Level Reasoning #Decoupled Architecture #Supervised Fine-tuning #NuScenes Benchmark

2026년 3월 9일

[논문리뷰] NLE: Non-autoregressive LLM-based ASR by Transcript Editing

본 논문은 AR(Autoregressive) LLM 기반 ASR 시스템의 순차적 디코딩으로 인한 높은 지연 시간 및 병렬 처리 한계를 극복하는 것을 목표로 합니다.

#Review #Non-Autoregressive ASR #LLM-based ASR #Transcript Editing #CTC #Transformer #LoRA #Real-time ASR #Inference Speed

2026년 3월 9일

[논문리뷰] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

대규모 언어 모델(LLM)이 수만 단어에 달하는 장편 서사를 생성할 수 있게 되었지만, 설정된 사실, 캐릭터 특성, 세계 규칙 등 전반적인 일관성을 유지하는 데 실패하는 문제를 해결하는 것이 목표입니다. 기존 스토리 생성 벤치마크가 플롯 품질과 유창성에만 초점을 맞추어 일관성 오류가 간과되는 한계를 극복하고자 합니다.

#Review #Large Language Models (LLMs)#Story Generation #Narrative Consistency #Benchmark #Automated Evaluation #Error Analysis #Long-Form Text Generation #Consistency Error Density (CED)

2026년 3월 9일

[논문리뷰] LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

본 논문은 기존 feedforward 기하학적 재구성 모델 이 겪는 quadratic attention 복잡성 및 제한된 유효 메모리 로 인한 스케일링 문제를 해결하고, 분 단위의 매우 긴 비디오 시퀀스 에 대해 사후 최적화 없이 조밀한 3D 재구성을 수행하는 것을 목표로 합니다.

#Review #3D Reconstruction #Long-Context #Hybrid Memory #Sliding Window Attention (SWA)#Test-Time Training (TTT)#Transformer #Visual SLAM #Sequence Modeling

2026년 3월 9일

[논문리뷰] How Far Can Unsupervised RLVR Scale LLM Training?

본 논문은 ground truth 레이블 없이 보상을 얻는 Unsupervised Reinforcement Learning with Verifiable Rewards (URLVR) 가 대규모 언어 모델(LLM) 학습을 얼마나 확장할 수 있는지 종합적으로 분석하는 것을 목표로 합니다.

#Review #Unsupervised Reinforcement Learning #LLM Training #Intrinsic Rewards #External Rewards #Model Collapse #RLVR #Model Prior #Self-Verification

2026년 3월 9일

[논문리뷰] Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

본 논문의 핵심 목표는 수동 개입 없이 원시 비디오 스트림을 대규모의 홀리스틱 3D 공간 지능 데이터로 자동 변환하는 파이프라인인 Holi-Spatial 을 제시하는 것입니다.

#Review #3D Spatial Intelligence #Video Stream Processing #Automated Data Curation #3D Gaussian Splatting (3DGS)#Vision-Language Models (VLMs)#Open-Vocabulary Segmentation #Spatial Reasoning #Multimodal Datasets

2026년 3월 9일

[논문리뷰] HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

논문은 Autoregressive (AR) 확산 모델 을 사용한 장기 비디오 생성 시 발생하는 오류 누적으로 인한 품질 저하 및 시간적 불연속성 문제를 해결하고자 합니다. 특히, 기존 방식이 높은 디노이즈된 컨텍스트에 의존하여 예측 오류를 증폭시키는 한계를 극복하고, 안정적이고 효율적인 장기 비디오 생성을 목표로 합니다.

#Review #Autoregressive Video Generation #Hierarchical Denoising #Diffusion Models #Temporal Continuity #Error Propagation #Forward-KL Regularization #Long Video Synthesis #Pipelined Parallelism

2026년 3월 9일