최신 포스트

[논문리뷰] CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence

본 논문은 현대 MLLM의 Doc-VQA 평가 방식이 최종 답변의 정답 여부에만 지나치게 의존하여, 실제 추론의 근거가 되는 시각적 증거의 정확성을 검증하지 못한다는 문제를 지적합니다.

#Review #Multimodal Large Language Models #Document Visual Question Answering #Evidence Attribution #Trustworthy AI #Strict Attributed Accuracy #Attribution Hallucination

2026년 5월 17일

[논문리뷰] ChangeFlow -- Latent Rectified Flow for Change Detection in Remote Sensing

본 논문은 기존의 RSCD 연구들이 주로 픽셀 단위의 결정론적 분류(discriminative classification)에 의존하고 있어, 지역적 일관성 부족과 모호성 처리에 한계가 있다는 점을 지적합니다.

#Review #Remote Sensing Change Detection #Rectified Flow #Generative Models #Latent Space #Diffusion Transformer #Coherence #Confidence Estimation

2026년 5월 17일

[논문리뷰] CM-EVS: Sparse Panoramic RGB-D-Pose Data for Complete Scene Coverage

본 논문은 기존 3D 자산 데이터셋들이 파노라마 모델 학습을 위한 효과적인 '관측 레이어(Observation layer)'를 정의하지 못하고 있다는 문제점을 지적합니다.

#Review #Panoramic #RGB-D-Pose #Viewpoint Curation #Submodular Maximization #Scene Coverage #Dataset

2026년 5월 17일

[논문리뷰] Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

본 연구는 Recursive Self-Improvement의 일환으로 LLM 에이전트가 기존 Transformer 패러다임을 넘어선 차세대 foundation model을 자율적으로 설계할 수 있는지 탐구합니다.

#Review #Neural Architecture Search #Foundation Models #LLM Agents #Recursive Self-Improvement #Hybrid Architectures #AIRS-Bench

2026년 5월 17일

[sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화

SGLang에서 레이어별 오프로딩을 기본값으로 설정하여 인코더 및 VAE 컴포넌트의 추론 속도를 개선했습니다.

#SGLang #성능 최적화 #딥러닝 #컴퓨터 비전 #LLM

2026년 5월 17일

[sglang] SGLang에서 torch.compile을 활용한 Wan 모델 추론 가속화

torch.compile을 도입하여 MUSA 및 CUDA 환경에서 Wan 모델의 추론 성능을 최대 1.09배 향상시킨 최적화 사례를 분석합니다.

#SGLang #torch.compile #MUSA #CUDA #Optimization

2026년 5월 17일

[sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선

SGLang의 멀티모달 파이프라인에서 VAE 정밀도를 fp32에서 bf16으로 변경하여 메모리 사용량을 최대 8.7% 절감한 사례를 분석합니다.

#SGLang #Optimization #VAE #bf16 #MemoryEfficiency

2026년 5월 16일

[sglang] LTX2 스플릿 로터리 커널 최적화: 헤드 배치 처리로 성능 2배 향상

LTX2 스플릿 로터리 커널에서 헤드 배치 처리를 도입하여 성능을 2배 향상시킨 코드 최적화 분석.

#Triton #Performance Optimization #LLM Kernel #RoPE #SGLang

2026년 5월 16일

[vllm] vLLM의 혁신: Breakable CUDA Graph로 LLM 추론 성능 최적화

vLLM이 Breakable CUDA Graph를 도입하여 LLM 추론 성능을 향상시킨 PR 분석.

#vLLM #CUDA Graph #Optimization #LLM Inference #Deep Learning

2026년 5월 16일

[sglang] SGLang의 MLA KV 캐시 쓰기 최적화: TMA Bulk-Store 도입

TMA Bulk-Store와 Triton 커널 최적화를 통해 MLA KV 캐시 쓰기 성능을 최대 12배 향상시킨 기술적 여정.

#SGLang #CUDA #Triton #LLM #Optimization #TMA

2026년 5월 15일

[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서

sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석

#sglang #diffusion #torch.compile #optimization #performance #AI

2026년 5월 15일

[triton] Triton 커널 최적화: Mask Sorting을 통한 Reduction 연산 가속화

Triton의 reduction 연산에서 불필요한 루프 반복을 줄이기 위해 마스크를 기준으로 행을 정렬하고 루프 바운드를 최적화하는 기법을 분석합니다.

#Triton #GPU Optimization #Deep Learning #CUDA #Kernel Programming

2026년 5월 15일

[sglang] SGLang 최적화: NPU 환경을 위한 RoPE 캐싱 메모리 효율화

SGLang에서 NPU 환경을 고려한 조건부 RoPE 캐싱 로직 도입으로 약 230MB의 메모리 사용량을 절감한 사례를 분석합니다.

#SGLang #LLM #NPU #Optimization #Memory Management

2026년 5월 15일

[논문리뷰] WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

본 연구는 기존 에이전트 벤치마크가 현실적인 배포 환경을 제대로 반영하지 못하는 한계를 해결하기 위해 수행되었다.

#Review #Agent Evaluation #Long-Horizon #Native-Runtime #Multimodal #Reproducible #Hybrid Verification

2026년 5월 14일

[논문리뷰] Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video

본 논문은 대규모 카메라 주석 데이터셋이나 복잡한 아키텍처 수정 없이, 사전 학습된 비디오 생성 모델의 잠재적 카메라 제어 능력을 활용하는 효율적인 방법을 제안합니다.

#Review #Video Generation #Camera Control #History Conditioning #LoRA #Zero-shot Learning

2026년 5월 14일

[논문리뷰] ViMU: Benchmarking Video Metaphorical Understanding

본 논문은 현대의 영상 이해 모델들이 표면적인 시각 정보(객체 인식, 행동 분류 등) 인식에는 뛰어나지만, 영상에 내재된 은유적이고 사회적인 의미를 파악하는 능력은 현저히 부족하다는 문제 의식에서 출발한다 .

#Review #Video Understanding #Metaphorical Understanding #Subtext Interpretation #Multimodal Benchmark #Rhetorical Mechanisms #Social Value Signals

2026년 5월 14일

[논문리뷰] VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction

본 논문은 기존의 3D 장면 편집 모델들이 직면한 다중 뷰 불일치 및 연산 효율성 문제를 해결하고자 합니다. 대부분의 기존 연구들은 2D 이미지를 개별적으로 편집한 후 이를 3D로 다시 쌓는 '2D-lifting' 방식을 채택하고 있어, 뷰 간의 기하학적 일관성이 깨지거나 텍스처가 흐릿해지는 한계가 존재합니다.

#Review #3D Scene Editing #Feed-forward #Residual Field Prediction #Text-conditioned Editing #Multi-view Consistency #DeltaScene Dataset

2026년 5월 14일

[논문리뷰] Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

본 논문은 현재 T2I(Text-to-Image) 모델이 의존하는 single-step generation 패러다임의 한계를 극복하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Reinforcement Learning #Diffusion Models #Test-time Scaling #Model Alignment #Efficient Inference

2026년 5월 14일

[논문리뷰] Topology-Preserving Neural Operator Learning via Hodge Decomposition

본 연구는 Riemannian manifolds에서 physical field equations의 solution operators를 resolution-independent하고 structure-preserving 방식으로 학습하는 핵심 문제를 다룬다.

#Review #Neural Operator #Hodge Decomposition #Differential Forms #Riemannian Manifolds #Spectral Methods #Topological Deep Learning #Discrete Exterior Calculus

2026년 5월 14일

[논문리뷰] Self-Distilled Agentic Reinforcement Learning

본 연구는 다중 턴 에이전트 환경에서 기존 OPSD가 겪는 불안정성과 성능 저하 문제를 해결하고자 합니다. 기존 방식은 에이전트가 교사 지원 궤적에서 벗어날 때 토큰 단위의 지도가 신뢰성을 잃고, 교사의 privileged context에 대한 의존이 비대칭적인 결과를 초래하여 학습을 방해한다는 점을 지적합니다 .

#Review #Agentic Reinforcement Learning #On-Policy Self-Distillation #Token-Level Gating #Privileged Guidance #Multi-turn Agents #GRPO

2026년 5월 14일