[논문리뷰] DeonticBench: A Benchmark for Reasoning over Rules본 논문은 LLM이 자연어로 된 법령과 사실 관계를 Prolog 코드로 변환하여 심볼릭 솔버를 통해 해답을 도출하는 '솔버 지원 워크플로우'를 핵심 방법론으로 제안합니다. 평가를 위해 미국 연방 세금, 항공사 수하물 정책, 이민 행정, 주택법 등 4개 영역 6,232개의 태스크로 구성된 DEONTICBENCH를 구축하였습니다.#Review#Deontic Reasoning#LLM#Symbolic Computation#Prolog#Benchmark#High-stakes#Rule-based Reasoning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Beyond Hard Negatives: The Importance of Score Distribution in Knowledge Distillation for Dense Retrieval본 논문은 teacher 모델의 score 분포를 균등하게 유지하는 Stratified Sampling을 제안합니다. 이 방법은 전체 score 범위 내에서 사전에 정의된 quantile anchors에 가장 근접한 문서들을 선택하여 학습 데이터를 구성함으로써, 특정 점수대에 편향되지 않은 포괄적인 데이터 표본을 확보합니다 .#Review#Knowledge Distillation#Dense Retrieval#Stratified Sampling#Score Distribution#Information Retrieval#Generalization2026년 4월 8일댓글 수 로딩 중
[논문리뷰] AgentGL: Towards Agentic Graph Learning with LLMs via Reinforcement Learning본 논문은 RL 기반의 AgentGL 프레임워크를 제안하여 그래프 학습을 에이전트 의사결정 프로세스로 최적화한다. AgentGL은 그래프 기반 검색 도구들을 활용하여 다중 스케일 탐색을 수행하고, search-constrained thinking 메커니즘을 도입하여 불필요한 도구 호출을 줄이고 추론 정확도를 높인다.#Review#Agentic Graph Learning#Reinforcement Learning#Large Language Models#Graph-Native Search#Curriculum Learning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning본 논문은 오디오-시각적 MLLM이 서로 다른 모달리티 간의 정보 불일치에 노출되었을 때 발생하는 취약점을 체계적으로 분석한다.#Review#Multi-modal Large Language Models#Audio Typography#Adversarial Attack#Cross-modal Robustness#Semantic Steering#Safety Application#Content Moderation2026년 4월 8일댓글 수 로딩 중
[논문리뷰] A Frame is Worth One Token: Efficient Generative World Modeling with Delta Tokens저자들은 비디오 프레임 전체를 모델링하는 대신, 프레임 간의 '변화(Delta)'만을 압축하는 DeltaTok과 이를 기반으로 생성적 추론을 수행하는 DeltaWorld를 제안합니다. DeltaTok은 이전 프레임의 특징을 바탕으로 현재 프레임과의 차이를 단일 토큰으로 인코딩하여 비디오를 순수 시간적 시퀀스로 변환합니다 .#Review#Generative World Modeling#Delta Tokens#Visual Tokenization#Vision Foundation Models#Best-of-Many Training#Spatio-temporal Redundancy#Efficient Inference2026년 4월 8일댓글 수 로딩 중
[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.#SGLang#AMD#ROCm#FP8#LLM#CI/CD2026년 4월 8일댓글 수 로딩 중
[vLLM] Speech-to-Text: 음성 인식 APIvLLM의 Speech-to-Text(STT) API 구현을 분석한다. OpenAI 호환 Transcription/Translation 엔드포인트, 스트리밍 처리, Whisper 모델 통합을 살펴본다.#vllm#speech-to-text#whisper#openai-api#audio2026년 4월 8일댓글 수 로딩 중
[vLLM] CPU/XPU Worker: 비NVIDIA 하드웨어 워커vLLM의 CPU 워커 구현을 분석한다. GPU Worker를 상속하면서 CPU 특화 초기화, 라이브러리 사전 로딩 검증, Sleep Mode 비활성화를 살펴본다.#vllm#cpu#worker#hardware2026년 4월 8일댓글 수 로딩 중
[vLLM] Warmup: 커널 JIT 사전 컴파일vLLM의 워밍업 시스템을 분석한다. Deep GEMM, FlashInfer 오토튜닝, 어텐션 커널 사전 워밍업으로 JIT 컴파일 지연을 제거하는 전략을 살펴본다.#vllm#warmup#jit#deep-gemm#flashinfer2026년 4월 8일댓글 수 로딩 중
[vLLM] Tree Attention: 투기적 디코딩용 트리 어텐션vLLM의 Tree Attention 백엔드를 분석한다. 투기적 디코딩의 트리 구조 토큰 검증을 위한 어텐션 마스크 생성과 Triton 기반 통합 어텐션을 살펴본다.#vllm#tree-attention#speculative-decoding#triton2026년 4월 8일댓글 수 로딩 중
[vLLM] 기타 Model Layers: Pooler, Resampler, Vocab Parallel Embedding 등vLLM의 핵심 모델 레이어들을 분석한다. VocabParallelEmbedding의 텐서 병렬 분할, Resampler의 멀티모달 처리, Pooler의 추상화를 살펴본다.#vllm#model-layers#embedding#pooler#tensor-parallel2026년 4월 8일댓글 수 로딩 중
[vLLM] 기타 Attention Backends: GDN, Flex, Triton, DiffKV, MLA Sparse, CPU/ROCmvLLM의 다양한 어텐션 백엔드를 분석한다. GatedDeltaNet, FlexAttention, Triton, DiffKV, MLA Sparse, ROCm AIter 등의 구현 특징을 살펴본다.#vllm#attention#backends#triton#rocm2026년 4월 8일댓글 수 로딩 중
[vLLM] Lightning & Linear Attention: 선형 어텐션 구현vLLM의 선형 어텐션 백엔드와 Lightning Attention 구현을 분석한다. SSM 스타일 상태 관리, Triton 커널 기반 diagonal block 연산을 살펴본다.#vllm#linear-attention#lightning-attention#ssm#triton2026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Coordinator: 하이브리드 KV 캐시 조율vLLM의 KV 캐시 코디네이터를 분석한다. Unitary, Hybrid, NoPrefixCache 세 가지 코디네이터와 하이브리드 어텐션 모델의 캐시 히트 탐색 알고리즘을 살펴본다.#vllm#kv-cache#prefix-caching#hybrid-attention2026년 4월 8일댓글 수 로딩 중
[vLLM] Preemption & Async Scheduling: 선점과 비동기 스케줄링vLLM v1 스케줄러의 선점 메커니즘과 비동기 스케줄링을 분석한다. waiting/running 큐 관리, KV 커넥터 통합, 멀티모달 예산 관리를 살펴본다.#vllm#scheduler#preemption#async#memory-management2026년 4월 8일댓글 수 로딩 중
[vLLM] Plugin & Hardware: 플러그인 시스템과 하드웨어 플랫폼vLLM의 플러그인 시스템과 하드웨어 플랫폼 추상화를 분석한다. entry_points 기반 플러그인 발견, 자동 플랫폼 감지의 구현을 살펴본다.#vllm#plugins#hardware#platform#extensibility2026년 4월 8일댓글 수 로딩 중
[vLLM] Observability: 추적, 프로파일링, 메트릭vLLM의 관측 가능성 시스템을 분석한다. OpenTelemetry 기반 추적, 프로세스 간 트레이스 전파, 사용량 수집의 구현을 살펴본다.#vllm#observability#opentelemetry#tracing#profiling2026년 4월 8일댓글 수 로딩 중
[vLLM] Sleep Mode: GPU 메모리 동적 관리vLLM의 Sleep Mode를 구현하는 CuMemAllocator를 분석한다. PyTorch pluggable allocator를 활용한 GPU 메모리 오프로딩과 복원 메커니즘을 살펴본다.#vllm#sleep-mode#memory-management#cuda#gpu2026년 4월 8일댓글 수 로딩 중
[vLLM] Multimodal: Vision, Audio, Video 처리 파이프라인vLLM의 멀티모달 처리 시스템을 분석한다. MultiModalRegistry, 프로세서 팩토리 패턴, 캐싱 전략의 구현을 살펴본다.#vllm#multimodal#vision#audio#video2026년 4월 8일댓글 수 로딩 중
[vLLM] Reasoning & Tool Calling: 추론 파서와 도구 호출 파서vLLM의 추론 콘텐츠 파서(ReasoningParser)와 도구 호출 파서(ToolParser) 시스템을 분석한다. 20개 이상의 모델별 파서를 통합하는 레지스트리 패턴을 살펴본다.#vllm#reasoning#tool-calling#function-calling#openai-api2026년 4월 8일댓글 수 로딩 중