최신 포스트

[논문리뷰] Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment

본 논문은 기존의 CLIR 평가 방식이 실제 다국어 환경에서의 모델 성능과 잠재적인 언어 편향성을 충분히 측정하지 못한다는 문제를 지적한다.

#Review #Cross-Lingual Information Retrieval #Semantic Alignment #Jensen-Shannon Divergence #InfoNCE #Multilingual Embedding Models #Language Bias

2026년 4월 8일

[논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

본 논문은 기존의 비디오 생성 모델들이 장기적인 공간 일관성을 유지하지 못하고 실시간 대화형 내비게이션을 지원하는 데 한계가 있다는 문제점을 해결하고자 합니다.

#Review #World Model #Spatiotemporal Autoregressive #Diffusion Transformer #Camera Control #Distribution Matching Distillation

2026년 4월 8일

[논문리뷰] FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

본 논문은 기존 multimodal generation이 언어 모델 중심의 파이프라인에 의존하여 vision의 자체적인 추론 및 생성 능력이 제한되는 문제를 해결하고자 한다.

#Review #Multimodal Generation #Flow Matching #Visual Prompts #Image-in Image-out #Visual Instruction Following #VisPrompt-5M #VP-Bench

2026년 4월 8일

[논문리뷰] Fast Spatial Memory with Elastic Test-Time Training

본 논문은 기존 LaCT 기반의 4D 재구성 모델이 추론 중 겪는 불안정한 학습 및 과적합(overfitting) 문제를 해결하고자 합니다.

#Review #4D Reconstruction #Test-Time Training #Elastic Weight Consolidation #Spatial Memory #Novel View Synthesis #Large Chunk Adaptation

2026년 4월 8일

[논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

본 논문은 탐색(exploration)과 최적화(optimization)를 분리한 Sol-RL이라는 2단계(two-stage) 프레임워크를 제안합니다 . 1단계에서는 고도로 최적화된 NVFP4 추론을 통해 방대한 후보군을 빠르게 생성하여 상대적 보상 순위를 매기고, 상위 및 하위의 contrastive subset을 선별합니다.

#Review #Diffusion Models #Reinforcement Learning #FP4 Quantization #Rollout Scaling #Alignment #Efficiency #Two-stage Framework

2026년 4월 8일

[논문리뷰] DeonticBench: A Benchmark for Reasoning over Rules

본 논문은 LLM이 자연어로 된 법령과 사실 관계를 Prolog 코드로 변환하여 심볼릭 솔버를 통해 해답을 도출하는 '솔버 지원 워크플로우'를 핵심 방법론으로 제안합니다. 평가를 위해 미국 연방 세금, 항공사 수하물 정책, 이민 행정, 주택법 등 4개 영역 6,232개의 태스크로 구성된 DEONTICBENCH를 구축하였습니다.

#Review #Deontic Reasoning #LLM #Symbolic Computation #Prolog #Benchmark #High-stakes #Rule-based Reasoning

2026년 4월 8일

[논문리뷰] Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval

본 논문은 teacher 모델의 score 분포를 균등하게 유지하는 Stratified Sampling을 제안합니다. 이 방법은 전체 score 범위 내에서 사전에 정의된 quantile anchors에 가장 근접한 문서들을 선택하여 학습 데이터를 구성함으로써, 특정 점수대에 편향되지 않은 포괄적인 데이터 표본을 확보합니다 .

#Review #Knowledge Distillation #Dense Retrieval #Stratified Sampling #Score Distribution #Information Retrieval #Generalization

2026년 4월 8일

[논문리뷰] AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning

본 논문은 RL 기반의 AgentGL 프레임워크를 제안하여 그래프 학습을 에이전트 의사결정 프로세스로 최적화한다. AgentGL은 그래프 기반 검색 도구들을 활용하여 다중 스케일 탐색을 수행하고, search-constrained thinking 메커니즘을 도입하여 불필요한 도구 호출을 줄이고 추론 정확도를 높인다.

#Review #Agentic Graph Learning #Reinforcement Learning #Large Language Models #Graph-Native Search #Curriculum Learning

2026년 4월 8일

[논문리뷰] A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning

본 논문은 오디오-시각적 MLLM이 서로 다른 모달리티 간의 정보 불일치에 노출되었을 때 발생하는 취약점을 체계적으로 분석한다.

#Review #Multi-modal Large Language Models #Audio Typography #Adversarial Attack #Cross-modal Robustness #Semantic Steering #Safety Application #Content Moderation

2026년 4월 8일

[논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens

저자들은 비디오 프레임 전체를 모델링하는 대신, 프레임 간의 '변화(Delta)'만을 압축하는 DeltaTok과 이를 기반으로 생성적 추론을 수행하는 DeltaWorld를 제안합니다. DeltaTok은 이전 프레임의 특징을 바탕으로 현재 프레임과의 차이를 단일 토큰으로 인코딩하여 비디오를 순수 시간적 시퀀스로 변환합니다 .

#Review #Generative World Modeling #Delta Tokens #Visual Tokenization #Vision Foundation Models #Best-of-Many Training #Spatio-temporal Redundancy #Efficient Inference

2026년 4월 8일

[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화

AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.

#SGLang #AMD #ROCm #FP8 #LLM #CI/CD

2026년 4월 8일

[vLLM] Speech-to-Text: 음성 인식 API

vLLM의 Speech-to-Text(STT) API 구현을 분석한다. OpenAI 호환 Transcription/Translation 엔드포인트, 스트리밍 처리, Whisper 모델 통합을 살펴본다.

#vllm #speech-to-text #whisper #openai-api #audio

2026년 4월 8일

[vLLM] CPU/XPU Worker: 비NVIDIA 하드웨어 워커

vLLM의 CPU 워커 구현을 분석한다. GPU Worker를 상속하면서 CPU 특화 초기화, 라이브러리 사전 로딩 검증, Sleep Mode 비활성화를 살펴본다.

#vllm #cpu #worker #hardware

2026년 4월 8일

[vLLM] Warmup: 커널 JIT 사전 컴파일

vLLM의 워밍업 시스템을 분석한다. Deep GEMM, FlashInfer 오토튜닝, 어텐션 커널 사전 워밍업으로 JIT 컴파일 지연을 제거하는 전략을 살펴본다.

#vllm #warmup #jit #deep-gemm #flashinfer

2026년 4월 8일

[vLLM] Tree Attention: 투기적 디코딩용 트리 어텐션

vLLM의 Tree Attention 백엔드를 분석한다. 투기적 디코딩의 트리 구조 토큰 검증을 위한 어텐션 마스크 생성과 Triton 기반 통합 어텐션을 살펴본다.

#vllm #tree-attention #speculative-decoding #triton

2026년 4월 8일

[vLLM] 기타 Model Layers: Pooler, Resampler, Vocab Parallel Embedding 등

vLLM의 핵심 모델 레이어들을 분석한다. VocabParallelEmbedding의 텐서 병렬 분할, Resampler의 멀티모달 처리, Pooler의 추상화를 살펴본다.

#vllm #model-layers #embedding #pooler #tensor-parallel

2026년 4월 8일

[vLLM] 기타 Attention Backends: GDN, Flex, Triton, DiffKV, MLA Sparse, CPU/ROCm

vLLM의 다양한 어텐션 백엔드를 분석한다. GatedDeltaNet, FlexAttention, Triton, DiffKV, MLA Sparse, ROCm AIter 등의 구현 특징을 살펴본다.

#vllm #attention #backends #triton #rocm

2026년 4월 8일

[vLLM] Lightning & Linear Attention: 선형 어텐션 구현

vLLM의 선형 어텐션 백엔드와 Lightning Attention 구현을 분석한다. SSM 스타일 상태 관리, Triton 커널 기반 diagonal block 연산을 살펴본다.

#vllm #linear-attention #lightning-attention #ssm #triton

2026년 4월 8일

[vLLM] KV Cache Coordinator: 하이브리드 KV 캐시 조율

vLLM의 KV 캐시 코디네이터를 분석한다. Unitary, Hybrid, NoPrefixCache 세 가지 코디네이터와 하이브리드 어텐션 모델의 캐시 히트 탐색 알고리즘을 살펴본다.

#vllm #kv-cache #prefix-caching #hybrid-attention

2026년 4월 8일

[vLLM] Preemption & Async Scheduling: 선점과 비동기 스케줄링

vLLM v1 스케줄러의 선점 메커니즘과 비동기 스케줄링을 분석한다. waiting/running 큐 관리, KV 커넥터 통합, 멀티모달 예산 관리를 살펴본다.

#vllm #scheduler #preemption #async #memory-management

2026년 4월 8일