[flashinfer] FlashInfer FP8 KV-Cache Prefill 성능 최적화: Repacking 기법을 통한 오버헤드 제거FP8 KV-cache의 dequantization 오버헤드를 BF16 staging buffer로 제거하여 Prefill 성능을 최대 1.3배 향상시켰습니다.#FlashInfer#CUDA#FP8#LLM#Optimization2026년 6월 2일댓글 수 로딩 중
[sglang] SGLang의 NIXL 통신 최적화: Prep+Make API 도입을 통한 KV 캐시 전송 성능 향상NIXL의 Prep+Make API를 활용해 KV 캐시 전송 시 디스크립터 재구성을 방지하여 TTFT를 최대 27% 개선했습니다.#SGLang#LLM#KV-Cache#Optimization#Distributed-Systems2026년 6월 2일댓글 수 로딩 중
[논문리뷰] Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs본 논문은 현대의 다중 모델(multi-provider) 생태계에서 기존의 LLM 워터마킹 기술이 근본적으로 취약하다는 점을 지적합니다. 기존 연구들은 공격자가 단일 모델에만 접근할 수 있다는 가정하에 설계되었으나, 실제로는 사용자가 여러 frontier LLM을 자유롭게 사용할 수 있는 환경이 조성되어 있습니다.#Review#Watermarking#LLM#Ensemble#Distributional Perturbation#WASH#Attribution2026년 6월 1일댓글 수 로딩 중
[논문리뷰] FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search본 논문은 기존의 Agentic Search 모델들이 겪는 정답의 희소성 문제와 기존 Test-Time Compute scaling 기법들이 가진 신뢰성 한계를 해결하고자 합니다.#Review#Agentic Search#Test-Time Compute#Self-Verification#Fine-Grained#LLM#Benchmark Auditing2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Mellum2 Technical ReportMarko Kojic이 arXiv에 게시한 'Mellum2 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Pretraining#Model Architecture#Technical Report#Evaluation#Training Pipeline2026년 5월 31일댓글 수 로딩 중
[sglang] SGLang의 KV-Canary JIT 커널 도입: 효율적인 KV 캐시 검증 최적화SGLang에 도입된 KV-Canary JIT 커널을 통해 대규모 언어 모델의 KV 캐시 무결성을 효율적으로 검증하는 방법을 분석합니다.#SGLang#CUDA#JIT#LLM#KV-Cache2026년 5월 31일댓글 수 로딩 중
[sglang] SGLang 스케줄러 최적화: input_ids H2D 지연 처리 및 FutureMap 통합SGLang의 prefill input_ids H2D를 forward stream으로 지연시키고 FutureMap을 통해 입력을 통합하여 스케줄링 효율을 개선했습니다.#SGLang#LLM#Scheduler#Optimization#CUDA2026년 5월 30일댓글 수 로딩 중
[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석#AI#LLM#최적화#성능#DeepSeek-V4#sglang#Kernel Fusion2026년 5월 30일댓글 수 로딩 중
[onnxruntime] ONNX Runtime의 CPU GQA 최적화: Flash Attention과 Flash Decoding 도입CPU 환경에서 INT8/INT4 양자화된 KV 캐시를 위한 Flash Attention 기반의 타일링 및 Flash Decoding 구현으로 성능을 극대화합니다.#ONNX Runtime#LLM#Flash Attention#CPU Optimization#Quantization2026년 5월 29일댓글 수 로딩 중
[논문리뷰] OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources본 연구는 현실 세계의 다양한 정보 요구가 비정형 텍스트, 관계형 데이터베이스, 지식 그래프 등 구조적으로 이질적인 소스들에 분산되어 있음에도 불구하고, 기존 검색 시스템들이 단일 소스 혹은 단일 query language에만 최적화되어 있어 통합적인 검색이 어렵다는 점을 해결하고자 합니다 .#Review#OmniRetrieval#Heterogeneous Knowledge Sources#Native Query Language#Unified Retrieval#LLM#Knowledge Graph#Text-to-SQL2026년 5월 28일댓글 수 로딩 중
[논문리뷰] ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence본 논문은 자율 연구 에이전트가 생성한 결과물에서 발견되는 심각한 신뢰성 결여 문제를 해결하고자 한다. 기존 에이전트 시스템은 전문적인 논문과 경쟁력 있는 솔루션을 생성하지만, 인용 조작, 검증 불가능한 점수 보고, 코드 구현과 논문 서술 간의 불일치 등 표면적인 완성도에만 치중한 오류들을 반복적으로 보이고 있다.#Review#Autonomous Research#Chain-of-Evidence#Verifiability#Provenance#Integrity Audit#LLM2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Efficient and Scalable Provenance Tracking for LLM-Generated Code Snippets본 논문은 LLM이 생성한 코드의 출처를 투명하게 추적하고 저작권 준수를 확인해야 하는 시급한 문제 의식에서 출발합니다. 기존의 Winnowing 기반 플래지어리즘 탐지 도구는 정확도는 높지만, 데이터셋 전체를 스캔해야 하는 선형 시간 복잡도로 인해 최신 LLM이 학습되는 대규모 데이터셋에 적용하기에는 한계가 있습니다.#Review#Provenance Tracking#Code Similarity#LLM#Vector Search#Winnowing#SourceTracker#HybridSourceTracker2026년 5월 27일댓글 수 로딩 중
[vllm] vLLM, GDN Prefill 커널을 CuteDSL로 최적화하여 성능 향상vLLM의 GDN Prefill 연산에서 새로운 CuteDSL 기반 커널을 도입하여 성능을 크게 개선했습니다.#vLLM#GDN#CuteDSL#최적화#성능#LLM2026년 5월 26일댓글 수 로딩 중
[sglang] SGLang Diffusion 최적화: CFG Gating을 통한 추론 속도 20% 향상Classifier-free guidance(CFG)의 불필요한 연산을 줄이는 CFG Gating 기법을 도입하여 Denoising 단계의 성능을 25% 개선했습니다.#SGLang#Diffusion#Optimization#LLM#Inference2026년 5월 25일댓글 수 로딩 중
[sglang] SGLang의 MoE 성능 최적화: 512 전문가 모델을 위한 커널 최적화Qwen3.5-397B와 같은 대규모 MoE 모델을 위해 512 전문가를 지원하는 커널 최적화로 성능을 최대 4배 이상 향상시켰습니다.#SGLang#MoE#CUDA#Kernel Optimization#LLM2026년 5월 25일댓글 수 로딩 중
[논문리뷰] LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws본 논문은 LLM의 Scaling Laws를 경험적 관측이 아닌, Shannon의 정보 이론적 프레임워크를 통해 이론적으로 규명하고자 합니다.#Review#Information Theory#Scaling Laws#Noisy Channel#Model Capacity#LLM#Mutual Information2026년 5월 24일댓글 수 로딩 중
[논문리뷰] ETCHR: Editing To Clarify and Harness ReasoningETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.#Review#Chain-of-Thought#Reasoning#Model Editing#Inference Optimization#LLM#Knowledge Distillation#Interpretability2026년 5월 24일댓글 수 로딩 중
[onnxruntime] RISC-V 벡터(RVV) 최적화: ONNX Runtime LLM 추론 성능 극대화RISC-V 벡터 확장을 활용하여 LLM 연산자(GEMM, LayerNorm, RoPE)의 성능을 최대 191배 향상시킨 최적화 사례를 분석합니다.#RISC-V#RVV#ONNX Runtime#LLM#Optimization2026년 5월 23일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.#ONNX Runtime#LLM#Quantization#SIMD#Performance2026년 5월 21일댓글 수 로딩 중
[flashinfer] FlashInfer의 DeepSeek V4 Sparse MLA 최적화 분석DeepSeek V4의 Sparse MLA를 지원하기 위한 커널 최적화 및 가변 Top-K 처리 로직 개선 사항을 분석합니다.#FlashInfer#DeepSeek#CUDA#LLM#Optimization2026년 5월 21일댓글 수 로딩 중
[sglang] Qwen3.5 및 Qwen3_Next 모델의 NPU 성능 향상을 위한 Triton 커널 퓨전 최적화NPU 환경에서 Qwen3.5 및 Qwen3_Next 모델의 어텐션 레이어 성능을 극대화하는 Triton 커널 퓨전 최적화 분석#NPU#Triton#Kernel Fusion#Optimization#Qwen3.5#Qwen3_Next#LLM2026년 5월 20일댓글 수 로딩 중
[논문리뷰] LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening본 논문은 LLM의 자연어 논리 추론 능력을 평가하는 기존 벤치마크들이 겪고 있는 한계를 극복하기 위해 LLMEval-Logic을 제안한다 .#Review#LLM#Logical Reasoning#Benchmark#Z3#Adversarial Hardening#NL-to-FL2026년 5월 20일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: GPU-CPU 간 불필요한 동기화 제거하기vLLM에서 GPU와 CPU 간의 불필요한 동기화를 제거하여 추론 성능을 극대화하는 최적화 기법을 분석합니다.#vLLM#LLM#Performance#GPU#Optimization2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information본 논문은 LLM의 추론 능력을 강화하기 위한 on-policy self-distillation 기법이 수학적 추론 과제에서 일관된 성능 향상을 보이지 못하는 문제를 해결합니다.#Review#Reinforcement Learning#Self-Distillation#Reasoning#Pointwise Mutual Information#LLM#GRPO#Jensen-Shannon Divergence2026년 5월 19일댓글 수 로딩 중
[transformers] Hugging Face Transformers: Continuous Batching에 Tensor Parallelism 도입하기Continuous Batching 환경에서 Tensor Parallelism을 지원하여 대규모 언어 모델의 추론 성능을 극대화하는 최적화 기법 분석.#HuggingFace#Transformers#TensorParallelism#ContinuousBatching#LLM2026년 5월 18일댓글 수 로딩 중
[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석#AI#LLM#Optimization#Triton#DeepSeekV4#MoE2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use본 논문은 LLM agent의 Adaptive Tool Use 과정에서 발생하는 성능 저하와 불투명성 문제를 해결하기 위해 모델 고유의 capability에 기반한 Model-Adaptive Tool Necessity 프레임워크를 제안합니다.#Review#LLM#Tool Use#Meta-cognition#Knowing-Doing Gap#Representation Engineering#Model-Adaptive2026년 5월 18일댓글 수 로딩 중
[sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화SGLang에서 레이어별 오프로딩을 기본값으로 설정하여 인코더 및 VAE 컴포넌트의 추론 속도를 개선했습니다.#SGLang#성능 최적화#딥러닝#컴퓨터 비전#LLM2026년 5월 17일댓글 수 로딩 중
[sglang] SGLang의 MLA KV 캐시 쓰기 최적화: TMA Bulk-Store 도입TMA Bulk-Store와 Triton 커널 최적화를 통해 MLA KV 캐시 쓰기 성능을 최대 12배 향상시킨 기술적 여정.#SGLang#CUDA#Triton#LLM#Optimization#TMA2026년 5월 15일댓글 수 로딩 중
[sglang] SGLang 최적화: NPU 환경을 위한 RoPE 캐싱 메모리 효율화SGLang에서 NPU 환경을 고려한 조건부 RoPE 캐싱 로직 도입으로 약 230MB의 메모리 사용량을 절감한 사례를 분석합니다.#SGLang#LLM#NPU#Optimization#Memory Management2026년 5월 15일댓글 수 로딩 중
[논문리뷰] LLM-based Detection of Manipulative Political Narratives본 연구는 소셜 미디어상에서 폭증하는 정치적 조작 서사를 실시간으로 식별하고 구조화하는 계산적 프레임워크의 부재 문제를 해결하고자 합니다.#Review#FIMI#Strategic Narrative#LLM#HDBSCAN#UMAP#Computational Social Science#Manipulation Detection2026년 5월 14일댓글 수 로딩 중
[논문리뷰] FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale본 논문은 open-ended 코딩 훈련을 위한 고품질 데이터의 부족 문제를 해결하기 위해 FrontierSmith를 제안합니다.#Review#FrontierSmith#Open-ended Coding#LLM#Idea Divergence#Automated Data Synthesis#Reinforcement Learning2026년 5월 14일댓글 수 로딩 중
[vllm] vLLM의 NIXL KV 전송을 활용한 GDN(Gated Delta Net) 모델 지원 최적화Qwen3.5와 같은 GDN 모델을 위해 NIXL 커넥터의 컨볼루션 상태 레이아웃을 최적화하고 이기종 TP 환경에서의 전송 효율을 개선했습니다.#vLLM#LLM#GDN#KV-Cache#Distributed-Serving2026년 5월 14일댓글 수 로딩 중
[논문리뷰] The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs본 논문은 LLM의 On-policy Distillation 과정에서 발생하는 reward extrapolation의 한계점을 해결하고자 한다.#Review#On-policy Distillation#Reward Extrapolation#Structured Output#Format Adherence#Importance Sampling#LLM2026년 5월 13일댓글 수 로딩 중
[논문리뷰] F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking본 논문은 LLM 기반의 검색 및 추천 시스템에서 발생하는 결합된 list-to-rank 최적화 문제를 해결하고자 한다. 기존의 Black-box LLM 접근법은 후보군 생성과 순위 결정을 단일 결과물로 출력하여 두 과정 간의 기여도를 명확히 구분하지 못하는 한계가 있다.#Review#LLM#Reinforcement Learning#Retrieval & Ranking#GRPO#Factorized Policy#Sequential Recommendation#Multi-hop Question Answering2026년 5월 13일댓글 수 로딩 중
[pydantic-ai] Pydantic AI, 도구 검색 기능 도입으로 에이전트의 도구 관리 혁신Pydantic AI가 네이티브 도구 검색과 사용자 정의 전략을 도입하여 대규모 도구 세트 관리를 최적화합니다.#Pydantic AI#Agent#Tool Management#Optimization#LLM2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor 최적화 도입vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor를 도입하여 Intel XPU의 2D 블록 읽기 성능을 향상시킵니다.#vLLM#Triton#Optimization#Deep Learning#LLM2026년 5월 13일댓글 수 로딩 중
[sglang] NPU 성능 향상을 위한 causal_conv1d_update_v2 도입NPU 환경에서 causal_conv1d_update_v2를 사용하여 모델 추론 속도를 크게 개선했습니다.#NPU#성능 최적화#딥러닝#LLM#SGLang2026년 5월 12일댓글 수 로딩 중
[onnxruntime] [ONNX Runtime] PagedAttention의 FA 경로 최적화 및 정확성 개선PagedAttention의 FA 경로에서 휴리스틱 기반 max_query_len을 실제 계산값으로 대체하여 성능 향상 및 CUDA 오류를 해결했습니다.#ONNXRuntime#CUDA#FlashAttention#Optimization#LLM2026년 5월 12일댓글 수 로딩 중
[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화vLLM에서 MLA 모델의 RoPE, KV Cache, q_concat 연산을 하나의 커널로 통합하여 추론 성능을 크게 향상시킨 최적화 기법을 분석합니다.#vLLM#LLM#CUDA#Optimization#MLA#DeepSeek-R12026년 5월 11일댓글 수 로딩 중
[sglang] SGLang의 Breakable CUDA Graph 최적화: 배치 사이즈 제한 극복하기SGLang에서 CUDA Graph의 배치 사이즈 제약을 해결하고, 유연한 추론을 가능하게 하는 아키텍처 개선 분석.#SGLang#CUDA Graph#LLM#Inference Optimization#PyTorch2026년 5월 11일댓글 수 로딩 중
[flashinfer] FlashInfer, 동적 토큰 페이지 커널 도입으로 TRTLLM-GEN GQA 성능 최적화FlashInfer가 TRTLLM-GEN GQA 커널에 동적 토큰 페이지 기능을 도입하여 LLM 추론 성능을 향상시켰습니다.#FlashInfer#LLM#최적화#GQA#TRTLLM-GEN#성능2026년 5월 11일댓글 수 로딩 중
[논문리뷰] MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning본 논문은 기존 LoRA 방식이 고정된 rank $R$에 의존하여 최적의 성능을 찾기 위해 반복적인 grid search가 필요하다는 점을 해결하고자 합니다.#Review#LoRA#Parameter-Efficient Fine-Tuning#Rank-Adaptive#Matryoshka Representation Learning#LLM#Hierarchical Low-Rank2026년 5월 10일댓글 수 로딩 중
[flashinfer] FlashInfer의 Per-token NVFP4 Quantization 커널 최적화 분석FlashInfer의 NVFP4 양자화 커널 성능 개선: 블록 사이즈 최적화 및 Fast Math 제어 옵션 도입#FlashInfer#CUDA#Quantization#LLM#Performance2026년 5월 8일댓글 수 로딩 중
[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다FlashInfer의 concat_mla_k 함수에 FP8 지원을 추가하여 장문 컨텍스트 추론 성능을 크게 개선했습니다.#FlashInfer#FP8#LLM#최적화#성능 향상#딥러닝2026년 5월 7일댓글 수 로딩 중
[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.#LLM#Quantization#CUDA#DeepSeek-V4#SGLang#Marlin2026년 5월 7일댓글 수 로딩 중
[sglang] SGLang의 Unified Radix Cache를 위한 SWA HiCache 지원 최적화SGLang에서 SWA(Sliding Window Attention)를 HiCache와 통합하여 메모리 효율성과 추론 성능을 크게 향상시킨 변경사항 분석#SGLang#LLM#KV-Cache#Optimization#HiCache2026년 5월 6일댓글 수 로딩 중
[flashinfer] FlashInfer, CUDA 그래프 호환성을 높이고 성능을 최적화하다: TRT-LLM FMHA v2 통합 및 불필요한 H2D 제거FlashInfer가 TRT-LLM FMHA v2를 통합하고 CUDA 그래프 호환성을 개선하여 성능을 최적화한 PR을 분석합니다.#FlashInfer#TRT-LLM#CUDA#최적화#성능#LLM2026년 5월 6일댓글 수 로딩 중
[flashinfer] FlashInfer: Wide Vector 최적화와 1900줄의 코드 삭제로 달성한 성능 개선gdn_wide_vec_kernel 도입과 불필요한 레거시 커널 제거를 통해 B200에서 최대 82%의 DRAM 대역폭 효율을 달성한 사례를 분석합니다.#CUDA#PyTorch#FlashInfer#Performance-Optimization#LLM2026년 5월 6일댓글 수 로딩 중
[논문리뷰] SymptomAI: Towards a Conversational AI Agent for Everyday Symptom Assessment본 연구는 실제 일상생활 속에서 사용자가 호소하는 증상을 기반으로 하는 대화형 AI 진단 에이전트의 성능을 임상적 수준에서 검증하고자 한다.#Review#Conversational AI#Differential Diagnosis (DDx)#LLM#Fitbit#Wearable Biosignals#PheWAS#Healthcare AI2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces본 논문은 LLM 기반의 에이전트가 개별적인 도구 사용을 넘어 조율된 팀 단위로 진화함에 따라, 기존의 단일 에이전트 RL이나 고전적 MARL 방법론이 갖는 한계를 지적한다.#Review#LLM#Multi-Agent Systems#Reinforcement Learning#Orchestration Trace#Credit Assignment#Reward Design#System Engineering2026년 5월 5일댓글 수 로딩 중
[sglang] SGLang UnifiedRadixTree에 HiCache 프레임워크 도입: 하이브리드 모델 성능 최적화UnifiedRadixTree에 HiCache를 통합하여 Hybrid Linear 및 DeepSeek 모델의 캐시 효율성과 안정성을 대폭 개선했습니다.#SGLang#LLM#Caching#Performance#RadixTree2026년 5월 3일댓글 수 로딩 중
[LlamaFactory] LlamaFactory: Qwen-VL 비디오 토큰 전처리 최적화로 450배 성능 향상 달성비디오 디코딩 없이 메타데이터만으로 토큰 확장을 수행하여 Qwen-VL 전처리 속도를 450배 이상 개선한 사례를 분석합니다.#LlamaFactory#Qwen-VL#Optimization#Performance#LLM2026년 5월 3일댓글 수 로딩 중
[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.#SGLang#NPU#LLM#Optimization#Quantization2026년 5월 2일댓글 수 로딩 중
[vllm] vLLM의 첫 추론 지연 문제 해결: forward_native 샘플러 커널 웜업 최적화vLLM v1 엔진에서 FlashInfer 도입으로 발생한 JIT 컴파일 지연 문제를 샘플러 웜업 로직 개선으로 해결한 사례를 분석합니다.#vLLM#LLM#Triton#Performance#JIT2026년 5월 1일댓글 수 로딩 중
[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석#LLM#SGLang#Inference Optimization#KV Cache#Disaggregation#Performance2026년 5월 1일댓글 수 로딩 중
[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.#vLLM#AI#딥러닝#최적화#LLM#어텐션#DCP#All-to-All2026년 5월 1일댓글 수 로딩 중
[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.#vLLM#LLM#DistributedInference#KVCache#PerformanceOptimization2026년 4월 30일댓글 수 로딩 중
[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.#LLM#KV Cache#Quantization#Optimization#SGLang#FP4#NVFP42026년 4월 29일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.#SGLang#PyTorch#CUDA#Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[sglang] AMD ROCm 환경에서의 성능 최적화: Triton을 활용한 Fused QK GemmaRMSNorm 구현ROCm 플랫폼에서 4개의 개별 커널을 하나의 Triton 커널로 통합하여 QK 정규화 성능을 개선한 사례를 분석합니다.#SGLang#Triton#ROCm#Performance Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.#FlashInfer#LLM#Autotuning#Optimization#MoE2026년 4월 24일댓글 수 로딩 중
[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.#FlashInfer#CuTe DSL#FMHA#Prefill#최적화#성능 개선#딥러닝#LLM2026년 4월 24일댓글 수 로딩 중
[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.#vLLM#Quantization#Humming#LLM#Inference#Optimization2026년 4월 24일댓글 수 로딩 중
[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.#Triton#CUDA#LLM#SGLang#Optimization#DeepLearning2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Evaluation-driven Scaling for Scientific Discovery본 논문은 과학적 발견 과정에서 LLM을 활용한 Trial-and-error 루프의 확장성(Scaling) 문제를 공식화하고 이를 체계적으로 해결하고자 합니다.#Review#Test-Time Scaling#Scientific Discovery#Evaluation-driven Discovery#LLM#Optimization#Symbolic Laws#GPU Kernel2026년 4월 21일댓글 수 로딩 중
[ollama] Ollama MLX Sampler 최적화: 성능 향상과 Logprobs 지원Ollama의 MLX 러너에서 샘플링 로직을 개선하여 성능을 약 1.5% 향상하고 Logprobs 기능을 통합했습니다.#Ollama#MLX#LLM#Performance#Golang2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Model Capability Dominates: Inference-Time Optimization Lessons from AIMO 3본 논문은 LLM의 수학적 추론 능력을 향상시키기 위한 Inference-Time Optimization 기법들이 실질적인 효과가 있는지 검증하고자 합니다.#Review#LLM#Mathematical Reasoning#Inference-Time Optimization#Majority Voting#Self-Consistency#Diverse Prompting2026년 4월 16일댓글 수 로딩 중
[논문리뷰] KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs본 논문은 RAG(Retrieval-Augmented Generation) 환경에서 빈번하게 발생하는 KV cache의 컨텍스트 의존성 및 그로 인한 추론 지연 문제를 해결하는 것을 목표로 합니다.#Review#LLM#KV Cache#RAG#Recomputation-Free#Soft-token Adapter#Self-Supervised Distillation#Attention Dynamics2026년 4월 16일댓글 수 로딩 중
[논문리뷰] Cross-Tokenizer LLM Distillation through a Byte-Level Interface본 논문은 LLM의 핵심적인 제약 사항인 Tokenizer 불일치 문제를 해결하기 위한 범용적인 Cross-Tokenizer Distillation (CTD) 기법을 제안합니다.#Review#Cross-Tokenizer Distillation#Byte-Level Interface#Knowledge Distillation#LLM#Vocabulary Mismatch2026년 4월 16일댓글 수 로딩 중
[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.#vLLM#LLM#KV Cache#Quantization#Optimization#Triton#GPU Memory2026년 4월 15일댓글 수 로딩 중
[vllm] vLLM, Qwen3-VL 비디오 추론을 위한 CUDA Graph 최적화: 성능 향상의 비결vLLM이 Qwen3-VL 모델의 비디오 추론 성능을 CUDA Graph를 통해 획기적으로 개선한 방법을 분석합니다.#vLLM#CUDA Graph#Qwen3-VL#최적화#성능 향상#LLM2026년 4월 14일댓글 수 로딩 중
[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.#AI#Machine Learning#LLM#Whisper#Optimization#Performance#Inference2026년 4월 12일댓글 수 로딩 중
[sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략GLM-5 모델의 AMD GPU 성능을 극대화하기 위한 Aiter 백엔드 텐서 패딩 및 커널 파라미터 최적화 분석.#SGLang#LLM#AMD#ROCm#PerformanceOptimization2026년 4월 12일댓글 수 로딩 중
[sglang] SGLang의 AMD AITER AllReduce 최적화: 하드코딩된 제약 제거 및 성능 개선AITER AllReduce+RMSNorm 융합 커널의 하드코딩된 hidden_dim 허용 목록을 제거하고 경계 조건을 최적화하여 범용성과 성능을 개선했습니다.#SGLang#AMD#ROCm#AllReduce#Optimization#LLM2026년 4월 12일댓글 수 로딩 중
[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.#SGLang#LLM#Quantization#CUDA#KernelOptimization2026년 4월 11일댓글 수 로딩 중
[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.#SGLang#AMD#ROCm#FP8#KernelFusion#LLM2026년 4월 11일댓글 수 로딩 중
[vllm] vLLM ROCm Aiter 백엔드 성능 최적화: 불필요한 제로 필링 제거vLLM ROCm Aiter 백엔드에서 불필요한 GPU 커널 실행을 제거하여 디코드 성능을 개선합니다.#vLLM#ROCm#Aiter#Performance Optimization#GPU Computing#LLM2026년 4월 10일댓글 수 로딩 중
[sglang] sglang, GLM-5.1-FP8 모델 성능 및 정확도 벤치마크 추가: AMD GPU 환경에서의 최적화 분석sglang 레포지토리에서 GLM-5.1-FP8 모델의 AMD GPU 환경에서의 성능 및 정확도 벤치마크 추가 PR을 분석합니다.#sglang#LLM#AMD GPU#벤치마크#최적화#CI/CD2026년 4월 9일댓글 수 로딩 중
[논문리뷰] DeonticBench: A Benchmark for Reasoning over Rules본 논문은 LLM이 자연어로 된 법령과 사실 관계를 Prolog 코드로 변환하여 심볼릭 솔버를 통해 해답을 도출하는 '솔버 지원 워크플로우'를 핵심 방법론으로 제안합니다. 평가를 위해 미국 연방 세금, 항공사 수하물 정책, 이민 행정, 주택법 등 4개 영역 6,232개의 태스크로 구성된 DEONTICBENCH를 구축하였습니다.#Review#Deontic Reasoning#LLM#Symbolic Computation#Prolog#Benchmark#High-stakes#Rule-based Reasoning2026년 4월 8일댓글 수 로딩 중
[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.#SGLang#AMD#ROCm#FP8#LLM#CI/CD2026년 4월 8일댓글 수 로딩 중
[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].#Review#Code Generation#LLM#Test Reranking#AUC#Discriminative Power#Leave-One-Out#Test Weighting2026년 4월 7일댓글 수 로딩 중
[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .#Review#KV Cache#LLM#Attention#RoPE#Compression#Reasoning2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang Ngram 추측 디코딩: 외부 코퍼스 기반 Suffix Automaton 통합으로 성능 최적화SGLang의 Ngram 추측 디코딩에 외부 코퍼스 기반 Suffix Automaton을 도입하여 성능을 개선합니다.#SGLang#Ngram#Speculative Decoding#Suffix Automaton#성능 최적화#LLM#Python#C++2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.#SGLang#DeepSeek#LLM#Optimization#Inference2026년 4월 5일댓글 수 로딩 중
[sglang] SGLang에서 FA4(FlashAttention 4)와 Speculative Decoding의 완벽한 결합FA4를 Speculative Decoding 파이프라인에 통합하여 저지연 추론 성능을 극대화하는 최적화 기법을 분석합니다.#SGLang#FlashAttention4#SpeculativeDecoding#LLM#Optimization2026년 4월 4일댓글 수 로딩 중
[논문리뷰] Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models본 논문은 templated prompts를 사용하여 특정 개체에 반응하는 뉴런을 추출하고, 이를 인과적 개입(Causal Intervention)을 통해 검증하는 파이프라인을 제안합니다. 먼저, 여러 프롬프트에서 안정적으로 활성화되는 뉴런을 순위화하여 Entity Cells를 식별합니다.#Review#Mechanistic Interpretability#LLM#Entity Cells#Factual Recall#Causal Intervention#MLP Neurons#Canonicalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Executing as You Generate: Hiding Execution Latency in LLM Code Generation본 연구는 기존 LLM 코드 생성 및 실행 파이프라인에서 발생하는 불필요한 대기 시간을 제거하는 것을 핵심 목표로 합니다.#Review#Parallel Execution#LLM#Code Generation#Latency#AST-based Chunking#Dynamic Batching#Error Interruption2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning본 논문은 기존 모놀리식 LLM 파인튜닝의 경직성을 해결하기 위해 모듈식 Continual Learning 아키텍처인 Brainstacks 를 제안한다.#Review#Continual Learning#LLM#MoE-LoRA#Null-Space Projection#Meta-Router#Residual Boosting2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.#SGLang#Triton#CUDA#LLM#Optimization2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.#SGLang#ROCm#Kernel Fusion#LLM#Performance Optimization2026년 4월 1일댓글 수 로딩 중
[논문리뷰] daVinci-LLM:Towards the Science of Pretraining현재 LLM 생태계는 상업적 모델의 폐쇄성과 학계 모델의 컴퓨팅 자원 부족이라는 구조적 역설(Structural Paradox)에 직면해 있습니다.#Review#Pretraining#Data Darwinism#LLM#Transparency#Data Processing#Scaling Laws#Reasoning2026년 3월 31일댓글 수 로딩 중
[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석#Mamba#Cache Optimization#Performance Tuning#LLM#sglang2026년 3월 31일댓글 수 로딩 중
[논문리뷰] PRBench: End-to-end Paper Reproduction in Physics Research최근 LLM 기반 에이전트가 과학적 추론 및 코드 생성 분야에서 발전하고 있으나, 실제 과학 논문의 복잡한 계산 과정을 처음부터 끝까지 신뢰성 있게 재현할 수 있는지에 대해서는 검증되지 않았습니다.#Review#Scientific Reproduction#Agentified Assessment#Physics Benchmark#LLM#Sandboxed Execution2026년 3월 30일댓글 수 로딩 중
[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.#Ray#Python#LLM#Benchmark#Performance#Concurrency2026년 3월 30일댓글 수 로딩 중
[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.#SGLang#Whisper#CUDA Graph#Performance Optimization#LLM2026년 3월 28일댓글 수 로딩 중
[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.#SGLang#FlashAttention#CUDA#Optimization#LLM2026년 3월 25일댓글 수 로딩 중
[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.#SGLang#LLM#KV Cache#Sparse Attention#CUDA2026년 3월 23일댓글 수 로딩 중
[논문리뷰] F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World최근 Encoder-based 아키텍처에서 Decoder-based LLM embeddings로의 전환은 성능 향상을 가져왔지만, 현재 연구는 두 가지 주요 한계를 가지고 있습니다.#Review#Multilingual Embedding#LLM#Matryoshka Representation Learning#Knowledge Distillation#Model Pruning#MTEB Benchmark#Low-resource Languages#Open-source2026년 3월 19일댓글 수 로딩 중
[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.#LLM#vLLM#Inference#Optimization#Python#PyTorch2026년 3월 18일댓글 수 로딩 중
[논문리뷰] GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent최근 Large Language Model(LLM) 애플리케이션들은 방대한 외부 컨텍스트에 의존하며, 이는 KV-cache 와 같은 방식으로 처리될 경우 상당한 메모리 오버헤드를 발생시킵니다.#Review#GradMem#Test-Time Optimization#Context Removal#Compressive Memory#Meta-learning#Gradient Descent#LLM#KV-retrieval2026년 3월 17일댓글 수 로딩 중
[Axolotl] MXFP4 양자화 지원 추가torchao의 MXFakeQuantizeConfig를 활용한 MXFP4 QAT 지원 구현 분석#Axolotl#Quantization#MXFP4#QAT#LLM2026년 3월 5일댓글 수 로딩 중
[논문리뷰] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production본 논문은 Instagram, WhatsApp, Messenger와 같은 프로덕션 환경의 소셜 챗 애플리케이션에서 LLM 의 사용자 참여도와 조종성(steerability)을 반복적으로 개선하는 CharacterFlywheel 이라는 이터레이션 프로세스를 제시합니다.#Review#LLM#Social Chat#Engagement Optimization#Steerability#Reinforcement Learning#Reward Modeling#A/B Testing#Iterative Development2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on AcceleratorsLLM 기반 생성형 검색(Generative Retrieval)은 추천 시스템의 강력한 패러다임이지만, 산업 환경에서 요구되는 출력 공간 제약(constrained output space) 을 기본 자기회귀 디코딩(autoregressive decoding) 이 지원하지 못하는 문제가 있습니다.#Review#Generative Retrieval#Constrained Decoding#Trie#Sparse Matrix#TPU#GPU#Recommendation Systems#LLM2026년 3월 1일댓글 수 로딩 중
[논문리뷰] veScale-FSDP: Flexible and High-Performance FSDP at Scale본 논문은 기존 FSDP(Fully Sharded Data Parallel) 시스템이 블록-wise 양자화 훈련 이나 Shampoo, Muon 과 같은 비-요소별(non-element-wise) 옵티마이저 를 사용하는 구조 인식 훈련(structure-aware training) 에서 겪는 한계를 해결하고자 합니다.#Review#FSDP#Distributed Training#LLM#GPU Scaling#Memory Optimization#Performance Optimization#Structure-Aware Training#RaggedShard2026년 2월 26일댓글 수 로딩 중
[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.#Review#Agentic Reinforcement Learning#LLM#Policy Optimization#Training Stability#Importance Sampling Clipping#Advantage Design#Dynamic Filtering#ARLArena#SAMPO2026년 2월 25일댓글 수 로딩 중
[논문리뷰] On Data Engineering for Scaling LLM Terminal Capabilities본 논문은 최신 터미널 에이전트의 훈련 데이터 전략에 대한 정보 부족을 해결하고자 합니다. LLM의 터미널 역량 확장을 위한 데이터 엔지니어링 실천법을 체계적으로 연구하고, 효율적이고 확장 가능한 데이터 생성 프레임워크를 통해 효과적인 터미널 에이전트를 훈련하는 것을 목표로 합니다.#Review#LLM#Terminal Agents#Data Engineering#Synthetic Data Generation#Supervised Fine-tuning (SFT)#Terminal-Bench#Nemotron-Terminal#Dataset Adapters2026년 2월 24일댓글 수 로딩 중
[논문리뷰] K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World ModelGPU 커널 최적화의 복잡성으로 인해 기존 LLM 기반의 진화론적 접근 방식이 다단계 구조 변환 및 일시적인 구현 결함에 취약하다는 문제를 해결하는 것이 목표입니다.#Review#LLM#GPU Kernel Optimization#Code Generation#World Model#Evolutionary Search#Program Synthesis#High-Performance Computing2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Intelligent AI Delegation본 논문은 기존 AI 태스크 분해 및 위임 방식의 한계(단순한 휴리스틱, 환경 변화에 대한 취약성)를 극복하고자 합니다.#Review#AI Delegation#Multi-agent Systems#Task Decomposition#Agentic AI#Trust & Safety#LLM#Adaptive Coordination2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision과학적 추론 태스크에서 대규모 언어 모델(LLM)의 취약한 성능을 개선하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 솔루션 평가와 검증 전략의 다양성 부족 문제, 그리고 제한된 감독 환경에서의 자가 진화 프레임워크 개발이라는 과제를 해결하고자 합니다.#Review#LLM#Scientific Reasoning#Co-evolution#Reinforcement Learning#Sparse Supervision#Geometric Consensus#Self-Play#Verifier2026년 2월 12일댓글 수 로딩 중
[논문리뷰] ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model CompressionROCKET 논문은 대규모 언어 모델(LLMs)의 과도한 크기로 인한 연산 및 메모리 요구 사항을 해결하기 위해 빠르고 훈련 없는(training-free) 모델 압축 방법을 개발하는 것을 목표로 합니다.#Review#Model Compression#LLM#Training-Free#Knapsack Problem#Sparse Matrix Factorization#Dictionary Learning#Post-Training Optimization#Weight Sparsification2026년 2월 11일댓글 수 로딩 중
[Ray Data/LLM] 폐기된 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고 AutoConfig 실패를 비치명적으로 처리transformers 5.0+ 호환성을 위해 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고, HuggingFace 설정 로드 실패 시 텔레메트리 fallback을 적용한 분석.#Ray#Python#Compatibility#HuggingFace#LLM2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling본 논문은 기존 이미지 편집 모델의 한계를 극복하고, 전문적인 워크플로우를 지원하는 고품질, 네이티브 해상도 이미지 편집 시스템을 개발하는 것을 목표로 합니다.#Review#Image Editing#Agentic AI#Multi-turn Interaction#High-Fidelity#Native Resolution#LLM#Context Folding#Layer Decomposition2026년 2월 10일댓글 수 로딩 중
[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the RareRLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Reward Models#Diversity Preservation#Focal Loss#Group Sampling#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers본 논문은 LLM을 텍스트 인코더로 사용하는 DiT 기반 텍스트-이미지 모델에서, 정적인 텍스트 컨디셔닝이 LLM의 의미론적 계층 구조와 DiT의 동적인 denoising 과정을 충분히 활용하지 못하는 문제를 해결하고자 합니다.#Review#Diffusion Models#LLM#Text-to-Image#Transformer#Semantic Routing#Feature Fusion#Dynamic Conditioning#Generative AI2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Rethinking the Trust Region in LLM Reinforcement LearningLarge Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.#Review#LLM#Reinforcement Learning#Trust Region#PPO#DPPO#Policy Optimization#Training Stability#Divergence Approximation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SWE-World: Building Software Engineering Agents in Docker-Free Environments소프트웨어 엔지니어링(SWE) 에이전트의 훈련 및 평가가 의존하는 Docker 기반 물리적 실행 환경 의 높은 자원 소모와 확장성 한계를 해결하는 것이 목표입니다.#Review#Software Engineering Agents#LLM#Docker-Free#Execution Simulation#Reinforcement Learning#Supervised Fine-tuning#World Model2026년 2월 3일댓글 수 로딩 중
[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training이 논문은 기존 LLM 기반 소프트웨어 엔지니어링 에이전트의 불투명성과 재현성 부족, 그리고 복잡한 장기 SWE 태스크 해결 능력의 한계를 해결하고자 합니다.#Review#Software Engineering Agents#Post-Training#Supervised Fine-Tuning#Reinforcement Learning#Language Server Protocol#SWE-bench#Code Navigation#LLM2026년 2월 3일댓글 수 로딩 중
[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning본 논문은 대규모 언어 모델(LLM)의 사전 훈련 비용을 절감하기 위한 점진적 학습(Progressive Learning, PL)의 핵심 과제인 중간 단계 너비 확장(mid-stage width expansion) 의 불안정성을 해결하는 것을 목표로 합니다.#Review#Progressive Learning#Width Expansion#Signal Preservation#Symmetry Breaking#LLM#Training Stability#MoE#RMSNorm2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning본 논문은 기존 생성형 AI 모델이 픽셀 수준의 지침과 표면적 외관 유지에만 머물러 진정한 은유적 생성을 위한 추상적 논리를 포착하지 못하는 한계를 해결하고자 합니다.#Review#Visual Metaphor Transfer#Conceptual Blending Theory#Schema Grammar#Multi-Agent Framework#Generative AI#VLM#LLM#Creative AI2026년 2월 2일댓글 수 로딩 중
[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance본 논문은 기존의 단편적인 테스트 생성 또는 오라클 예측을 넘어, 실제 개발 워크플로우에 필수적인 단위 테스트 스위트의 생성, 수정 및 업데이트 등 전반적인 유지보수 과정에서 대규모 언어 모델(LLMs) 의 성능을 종합적으로 평가하는 새로운 벤치마크인 TAM-Eval 을 제시합니다.#Review#LLM#Unit Test Maintenance#Software Engineering#Code Generation#Test Repair#Test Updating#Benchmark#Mutation Testing#Code Coverage2026년 2월 1일댓글 수 로딩 중
[논문리뷰] World Craft: Agentic Framework to Create Visualizable Worlds via Text본 논문은 프로그래밍 기술이 없는 비전문가도 텍스트 설명을 통해 실행 및 시각화 가능한 AI Town 환경 을 쉽게 만들 수 있도록 하는 것을 목표로 합니다.#Review#Generative Agents#AI Town#LLM#Environment Creation#Multi-agent System#Spatial Reasoning#Text-to-World#Reverse Synthesis2026년 1월 27일댓글 수 로딩 중
[논문리뷰] FARE: Fast-Slow Agentic Robotic Exploration본 연구는 자율 로봇 탐사에서 기존 방법론이 장기 정보 활용 및 환경 변화 적응에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Robotic Exploration#LLM#Reinforcement Learning#Fast-Slow Thinking#Hierarchical Planning#Agentic AI#Graph Reasoning2026년 1월 21일댓글 수 로딩 중
[논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus본 논문은 저자원 언어 (특히 튀르키예어)에서 대규모 의미 관계 데이터셋을 효율적으로 생성하는 하이브리드 프로토콜 을 제시하고, 포괄적인 튀르키예어 의미 관계 코퍼스 를 구축하는 것을 목표로 합니다.#Review#Low-Resource NLP#Semantic Relations#Dataset Generation#Turkish Language#LLM#FastText Embeddings#Agglomerative Clustering#Synonyms#Antonyms#Co-hyponyms2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Distilling Feedback into Memory-as-a-Tool본 논문은 LLM 의 추론 시 발생하는 높은 연산 비용과 반복적인 자기 수정 과정의 비효율성을 해결하고자 합니다. 특히, 기존 'System 2' 스케일링 방법론들이 매번 새로운 쿼리에 대해 처음부터 추론 과정을 반복하여 발생하는 지식 손실 과 계산 자원 낭비 문제를 극복하는 것을 목표로 합니다.#Review#LLM#Continual Learning#Memory-Augmented Agents#Self-Correction#Feedback Distillation#Tool Use#Inference Cost Amortization#Rubric-based Learning2026년 1월 11일댓글 수 로딩 중
[논문리뷰] The Illusion of Specialization: Unveiling the Domain-Invariant 'Standing Committee' in Mixture-of-Experts Models본 연구는 MoE(Mixture-of-Experts) 모델 이 희소 라우팅을 통해 도메인 특화(domain specialization)를 달성한다는 일반적인 가정에 의문을 제기합니다.#Review#Mixture-of-Experts (MoE)#Sparse Routing#Domain Specialization#Load Balancing#Interpretability#Standing Committee#LLM2026년 1월 8일댓글 수 로딩 중
[논문리뷰] RelayLLM: Efficient Reasoning via Collaborative Decoding본 논문은 복잡한 추론 작업에서 대규모 언어 모델(LLM) 의 높은 연산 비용과 지연 시간 문제를 해결하면서, 소규모 언어 모델(SLM) 의 제한된 추론 능력을 보완하는 효율적인 방법을 제안합니다.#Review#LLM#SLM#Collaborative Decoding#Token-level Intervention#Reinforcement Learning#GRPO#Efficient Reasoning#Resource Efficiency2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Web World Models본 논문은 고정된 컨텍스트의 웹 프레임워크와 완전히 생성형 세계 모델(World Model) 사이의 간극을 메우는 Web World Model (WWM) 개념을 제안합니다. 언어 에이전트가 지속적으로 활동, 기억, 학습할 수 있는 제어 가능하면서도 무한히 확장 가능한 환경 을 구축하는 것이 주된 목표입니다.#Review#Web World Model#LLM#Neuro-symbolic AI#Procedural Generation#Hybrid Architecture#Deterministic Generation#Persistent Environments#TypeScript2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHub본 연구는 오픈 소스 소프트웨어(OSS) 커뮤니티의 건강을 해치는 유해한 대화(toxic interactions)가 발생하기 전에 이를 사전 예방적으로 예측 하는 것을 목표로 합니다.#Review#Conversational AI#Toxicity Detection#LLM#Prompt Engineering#Open Source Software#GitHub#Derailment Forecasting2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Name That Part: 3D Part Segmentation and Naming본 논문은 3D 객체를 의미론적으로 명명된 부분으로 분해하는 시맨틱 3D 파트 분할(semantic 3D part segmentation) 문제를 해결하는 것을 목표로 합니다.#Review#3D Semantic Segmentation#Part Naming#Open-Vocabulary#LLM#Set Alignment#Geometric Deep Learning#Annotation Engine#Affordance Description2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale본 논문은 산업 규모의 저장소에서 작동할 수 있는 오픈소스 AI 소프트웨어 엔지니어인 Confucius Code Agent (CCA) 를 제시하여, 기존 오픈소스 에이전트의 확장성 및 장기 컨텍스트/메모리 한계를 극복하고, 독점 에이전트의 투명성, 확장성, 제어 가능성 부족 문제를 해결하는 것을 목표로 합니다.#Review#AI Agent#Software Engineering#Open-Source#LLM#Orchestrator#Context Management#Long-term Memory#Meta-agent2025년 12월 11일댓글 수 로딩 중
[Ray Data] LLM 배치 추론에서 개별 행 실패 시에도 작업을 계속하는 에러 핸들링 추가하나의 잘못된 프롬프트로 전체 배치가 중단되던 문제를 should_continue_on_error 옵션으로 해결하여, 실패 행은 에러 컬럼으로 표시하고 나머지는 정상 처리하는 기능 분석.#Ray#Python#LLM#Batch Inference#Error Handling2025년 12월 10일댓글 수 로딩 중
[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.#Review#LLM#Parallel Reasoning#Inference Latency#Chain-of-Thought#Reinforcement Learning#Adaptive Threading#Mathematical Reasoning#Speedup2025년 12월 9일댓글 수 로딩 중
[논문리뷰] DeepCode: Open Agentic Coding대규모 언어 모델(LLM) 기반 코드 에이전트들이 정보 과부하 와 컨텍스트 병목 현상 으로 인해 과학 논문과 같은 복잡한 문서로부터 고품질의 코드베이스를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Agentic Coding#LLM#Code Generation#Repository Synthesis#Information Flow Management#Code Memory#CodeRAG#Automated Verification#Scientific Reproduction2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Computer-Use Agents as Judges for Generative User Interface현재 인간 중심적으로 설계된 GUI 가 Computer-Use Agent (CUA)의 비효율적인 태스크 수행을 강제하는 문제를 해결하는 것이 목표입니다.#Review#Computer-Use Agents#Generative UI#AI-assisted Design#Human-Computer Interaction#LLM#AUI-Gym#Feedback Loop#Agent-centric Design2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.#Review#LLM#Instruction Following#Reinforcement Learning#Rubric-based Evaluation#Benchmarking#Reward Shaping#Rubric Verifier#AdvancedIF2025년 11월 13일댓글 수 로딩 중
[논문리뷰] MADD: Multi-Agent Drug Discovery Orchestra초기 신약 개발 과정에서 히트 분자(hit molecule) 식별 에 필요한 막대한 자원과 기존 AI 방법론의 복잡성 및 접근성 부족 문제를 해결하는 것이 목표입니다.#Review#Multi-Agent System#Drug Discovery#LLM#Hit Identification#Virtual Screening#Generative AI#Property Prediction#Automated Machine Learning2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Adapting Web Agents with Synthetic Supervision웹 에이전트는 훈련 시 접하지 못한 새로운 웹사이트에 적응하는 데 어려움을 겪는데, 이는 환경별 태스크와 데모 데이터가 부족하기 때문입니다.#Review#Web Agents#Synthetic Data Generation#LLM#Task Refinement#Trajectory Refinement#Supervised Fine-tuning#Web Automation#Environment Adaptation2025년 11월 12일댓글 수 로딩 중
[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization본 논문은 이산 토큰 Chain-of-Thought (CoT) 추론에 효과적인 기존의 Reinforcement Learning (RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 연속적인 Soft-Thinking 패턴에는 적용하기 어렵다는 문제를 해결하고자 합니다.#Review#LLM#Reinforcement Learning#Soft-Thinking#Gumbel Reparameterization#Policy Optimization#Chain-of-Thought (CoT)#GRPO2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks본 논문은 기존 임베딩 모델의 불투명한 훈련 데이터 및 방법론 문제를 해결하고자, 다국어 및 교차 언어 태스크에서 최첨단 성능을 달성하는 완전 오픈 소스 범용 텍스트 임베딩 모델인 llama-embed-nemotron-8b 를 개발하는 것을 목표로 합니다.#Review#Text Embedding#Multilingual#Cross-Lingual#Contrastive Learning#Model Merging#Synthetic Data Generation#Instruction-Tuning#LLM2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Too Good to be Bad: On the Failure of LLMs to Role-Play Villains본 논문은 대규모 언어 모델(LLM)이 다양한 도덕적 스펙트럼, 특히 악역 캐릭터를 얼마나 설득력 있게 연기할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM#Role-playing#Safety Alignment#Villain#Persona Simulation#Moral Alignment#Benchmark#Character Fidelity2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RDMA Point-to-Point Communication for LLM SystemsLLM 시스템에서 필요한 유연한 지점 간 통신(point-to-point communication) 을 제공하고, 기존 RDMA 구현이 특정 NIC(Network Interface Controller) 에 종속되어 발생하는 벤더 종속성(vendor lock-in) 및 하드웨어 이식성(portability) 문제를 해결하는 것을 목표로 합니다.#Review#RDMA#LLM#Point-to-Point Communication#Disaggregated Inference#MoE Routing#KvCache#AWS EFA#NVIDIA ConnectX2025년 11월 9일댓글 수 로딩 중
[pydantic-ai] Validation 에러 재시도 메시지 개선 — Markdown 코드 블록 포맷LLM에게 전달하는 validation 에러 메시지를 Markdown 코드 블록으로 포맷하여 가독성 향상#Python#Pydantic AI#LLM#UX#Bug Fix2025년 11월 4일댓글 수 로딩 중
[논문리뷰] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning본 논문은 기존 임베딩 모델 기반 텍스트-비디오 검색 시스템의 한계, 즉 낮은 데이터 품질의 영향 및 랭킹 결과에 대한 설명 부족 문제를 해결하는 것을 목표로 합니다. 특히, 검색 모델의 동작과 텍스트-비디오 데이터 품질을 평가하기 위해 랭킹 결과를 해석할 수 있는 설명 가능한 검색 시스템 인 X-CoT를 제안합니다.#Review#Text-to-Video Retrieval#LLM#Chain-of-Thought#Explainable AI#Multimodal Retrieval#Bradley-Terry Model#Video Annotation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning본 논문은 웹사이트 코드 생성과 같이 시각적 요소와 사용자 상호작용 피드백이 중요한 태스크에서, 기존 코드 에이전트들이 단순한 코드 실행 피드백에만 의존하여 실제 웹사이트 품질을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#Website Generation#Code Agent#LLM#VLM#Reinforcement Learning#Multi-Level Feedback#GUI Agent#Step-GRPO2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training본 논문은 LLM(Large Language Model) 포스트 트레이닝 과정에서 발생하는 보상 과적합(reward over-optimization) 문제를 해결하는 것을 목표로 합니다.#Review#LLM#Reinforcement Fine-tuning#Reward Modeling#Reward Over-optimization#Rubric-based Rewards#High-reward Tail#Off-policy Data#LLM Alignment2025년 9월 29일댓글 수 로딩 중
[논문리뷰] SIM-CoT: Supervised Implicit Chain-of-ThoughtImplicit Chain-of-Thought (CoT) 모델은 토큰 효율성에도 불구하고, 명시적 CoT 대비 지속적인 성능 격차와 핵심적인 '잠재 불안정성(latent instability)' 문제에 직면해 있습니다.#Review#Implicit Reasoning#Chain-of-Thought#LLM#Latent Space#Supervised Learning#Model Stability#Interpretability2025년 9월 25일댓글 수 로딩 중
[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving논문은 LLM 기반의 Automated Theorem Proving(ATP) 모델들이 Chain-of-Thought (CoT) 추론 및 다중 샘플링 패스 와 같은 test-time scaling 전략을 사용하며 발생하는 높은 계산 비용과 자원 비효율성을 해결하는 것을 목표로 합니다.#Review#Automated Theorem Proving#LLM#Test-Time Scaling#Chain-of-Thought#Reinforcement Learning#Efficiency Optimization#Token Cost#Sampling Cost#Dynamic CoT Switching2025년 9월 17일댓글 수 로딩 중
[논문리뷰] SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation이 논문은 대규모 언어 모델(LLM)의 특정 도메인 적응을 위한 고품질 SFT(Supervised Fine-Tuning) 데이터셋 생성 의 어려움을 해결하는 것을 목표로 합니다.#Review#LLM#Instruction Tuning#Domain Adaptation#Retrieval-Augmented Generation#Dataset Creation#Model Editing#Supervised Fine-Tuning2025년 9월 16일댓글 수 로딩 중
[논문리뷰] HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering본 논문은 멀티-홉 질문(multi-hop queries) 처리 시 기존 RAG(Retrieval-Augmented Generation) 시스템이 겪는 비효율성(과도한 반복 검색), 비합리적인 쿼리(원래 쿼리에 대한 노이즈 검색), 그리고 노이즈 축적 문제를 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Multi-hop QA#Noise Resistance#LLM#Query Decomposition#Adaptive Retrieval#Heuristic Framework#Revelator2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 저해하는 고품질, 논리적으로 건전한 데이터의 부족 문제를 해결하는 것이 주된 목표입니다. 수십 년간의 자동화된 정리 증명(ATP) 연구를 확장 가능한 데이터 엔진으로 전환하여 LLM의 학습을 위한 대규모의 검증된 수학적 명제 및 추론 태스크 코퍼스를 생성하고자 합니다.#Review#Automated Theorem Proving#LLM#Mathematical Reasoning#Synthetic Data Generation#TPTP Ecosystem#Saturation Proving#Proof Graph Reconstruction#Data Augmentation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] DCPO: Dynamic Clipping Policy Optimization본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 기존 방법론(예: GRPO)의 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Dynamic Clipping#Advantage Standardization#RLVR#Reasoning2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Baichuan-M2: Scaling Medical Capability with Large Verifier System의료 분야 LLM 이 USMLE 같은 정적 벤치마크에서는 우수하지만 실제 임상 환경의 동적, 상호작용적 특성을 포착하지 못해 발생하는 성능 격차를 해소하는 것이 목표입니다.#Review#Medical AI#LLM#Reinforcement Learning#Verifier System#Patient Simulator#Clinical Rubrics#Baichuan-M2#HealthBench2025년 9월 3일댓글 수 로딩 중
[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds본 논문은 3D 포인트 클라우드로부터 편집 가능한 Blender Python 스크립트 형태의 구조화된 메시 코드를 생성하는 새로운 프레임워크인 MeshCoder 를 제안합니다.#Review#LLM#Point Clouds#3D Reconstruction#Structured Mesh#Blender Python#Shape Editing#Part-based Representation#Large Language Model2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping기존 대규모 시각-언어 모델(LVLM)의 핵심 병목인 고비용의 정렬 사전 훈련(alignment pre-training) 단계를 제거 하고, 시각 정보를 이산적인 텍스트 토큰 공간에 강제로 매핑함으로써 발생하는 정보 손실 문제 를 해결하는 것을 목표로 합니다.#Review#Multimodal Learning#Vision-Language Models#Alignment Pre-training#Text-to-Vision Mapping#Continuous Representations#Computational Efficiency#LLM2025년 8월 19일댓글 수 로딩 중
[논문리뷰] AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem Solving대규모 언어 모델(LLM) 기반 에이전트가 외부 도구를 활용할 때 발생하는 확장된 컨텍스트 및 노이즈/관련성 없는 도구 출력 으로 인한 시스템 신뢰성 및 정확도 저하 문제를 해결하고, 에이전트 기반 시스템의 안정성과 견고성 을 향상시키는 것을 목표로 합니다.#Review#Multi-Agent System#Agent Stability#LLM#Tool Use#GAIA Benchmark#Robustness#Dynamic Supervision#Maneuvering2025년 8월 14일댓글 수 로딩 중
[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.#Review#Agentic Search#LLM#Benchmark#Information Seeking#Structured Output#Evaluation Metrics#Multi-agent Systems2025년 8월 12일댓글 수 로딩 중
[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks본 연구는 대규모 언어 모델(LLM)이 물리적 상호작용, 도구 사용, 다중 에이전트 협업이 필요한 구체화된(embodied) 태스크 에서 얼마나 잘 추론하는지 평가하기 위한 종합적인 프레임워크인 OmniEAR 를 제시합니다.#Review#Embodied AI#Agent Reasoning#LLM#Benchmarking#Tool Use#Multi-Agent Systems#Physical Interaction#Constraint Reasoning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Compressing Chain-of-Thought in LLMs via Step EntropyLarge Language Models(LLMs)의 Chain-of-Thought(CoT) 추론 과정에서 발생하는 과도한 상세함과 중복성으로 인한 높은 추론 비용 및 비효율성을 해결하는 것이 주요 목표입니다.#Review#LLM#Chain-of-Thought#CoT Compression#Step Entropy#Reinforcement Learning#SFT#GRPO2025년 8월 12일댓글 수 로딩 중
[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification표준 Supervised Fine-Tuning (SFT)이 Reinforcement Learning (RL)에 비해 제한적인 일반화 성능 을 보이는 문제를 해결하는 것이 목표입니다.#Review#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization#Reward Rectification#Dynamic Fine-Tuning (DFT)#LLM#Policy Gradient#Mathematical Reasoning2025년 8월 8일댓글 수 로딩 중
[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient Decoding대규모 언어 모델(LLMs)에서 증가하는 Key-Value(KV) 캐시 크기로 인한 GPU 메모리 사용량 증가와 느린 추론 속도 문제를 해결하는 것이 목표입니다.#Review#LLM#KV Cache Optimization#Model Pruning#Efficient Decoding#Memory Optimization#Static Sparsity#Transformer2025년 8월 7일댓글 수 로딩 중
[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.#Ray#Python#Performance#Benchmarking#LLM2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.#Review#Search Agents#LLM#Reinforcement Learning#Synthetic Data#Reward Shaping#Entity-aware Reward#Policy Optimization#Knowledge-intensive Tasks2025년 10월 29일댓글 수 로딩 중
[논문리뷰] AgentFold: Long-Horizon Web Agents with Proactive Context ManagementLLM 기반 웹 에이전트가 장기 태스크에서 겪는 컨텍스트 관리의 근본적인 문제(기존 ReAct 방식의 컨텍스트 포화 및 고정된 요약 방식의 비가역적 정보 손실)를 해결하는 것을 목표로 합니다.#Review#Web Agents#Context Management#Long-Horizon Tasks#LLM#Deep Consolidation#Granular Condensation#ReAct Paradigm2025년 10월 29일댓글 수 로딩 중
[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-Rewarding본 연구는 대규모 언어 모델(LLM)의 추론 능력을 강화하는 검증 가능한 보상 강화 학습(RLVR) 의 한계, 즉 테스트 시점에서의 검증 신호 부족과 기존 자가 검증 방법론의 비효율성을 해결하고자 합니다.#Review#Reinforcement Learning#LLM#Self-Verification#Last-Token#Reward Modeling#Efficiency#Reasoning#RLVR2025년 10월 17일댓글 수 로딩 중
[논문리뷰] LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training본 논문은 디지털 에이전트 훈련에 필요한 대규모, 고품질 UI 환경 훈련 궤적 데이터의 부족 문제 를 해결하고자 합니다. 기존 데이터 수집 방식의 높은 비용과 확장성 한계를 극복하기 위해, LLM 기반 시뮬레이터 를 활용하여 다양한 UI 상태와 전환을 합성하는 확장 가능한 패러다임을 제안하는 것을 목표로 합니다.#Review#LLM#Digital Agents#UI Simulation#Synthetic Data Generation#Targeted Data Synthesis#World Models2025년 10월 17일댓글 수 로딩 중
[논문리뷰] EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling본 논문은 추론 언어 모델(LLM)에서 여러 추론 경로를 탐색할 때 발생하는 불필요한 계산 오버헤드 를 줄이고자 합니다.#Review#LLM#Inference-Time Scaling#Entropy-Aware Generation#Adaptive Budget Allocation#Reasoning Benchmarks#Computational Efficiency#Chain-of-Thought2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCsLLM 기반 비플레이어 캐릭터(NPC)가 게임 내에서 기능적 작업 실행과 페르소나 일관성 있는 대화 생성을 동시에 수행할 때 발생하는 'Flanderization' (과도한 역할극) 문제를 해결하는 것을 목표로 합니다. 이를 통해 캐릭터의 진정성 과 작업 실행의 정확성 사이의 균형을 효과적으로 맞추는 방안을 모색합니다.#Review#LLM#NPC#Game Dialogue#Persona-Grounded Dialogue#Task Execution#Prompt Engineering#Fine-tuning#Deflanderization2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Beyond Outliers: A Study of Optimizers Under Quantization대규모 언어 모델(LLMs)의 효율적인 배포를 위해 Quantization 이 필수가 됨에 따라, 옵티마이저 선택 이 양자화 성능에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.#Review#Quantization#Optimizers#LLM#Post-Training Quantization (PTQ)#Quantization-Aware Training (QAT)#Error Propagation#Scaling Laws#Shampoo2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs본 연구는 복잡하고 개방형의 장기적 정보 검색 및 합성 태스크에서 기존 오픈소스 DeepResearch 에이전트의 성능 한계를 극복하는 것을 목표로 합니다.#Review#DeepResearch Agents#Tool-integrated Reasoning#Reinforcement Learning#Information Retrieval#Information Synthesis#Multi-agent Self-play#Reward Shaping#LLM2025년 10월 8일댓글 수 로딩 중
[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems본 논문은 대규모 언어 모델(LLM)이 사전 학습된 매개변수 지식 만을 사용하여 AI 연구 문제를 자율적으로 해결할 수 있는지 평가하는 것을 목표로 합니다. 이는 LLM의 성공이 단순한 암기나 정교한 패턴 매칭을 넘어선 진정한 개념적 추론 능력 을 반영하는지 밝히기 위함입니다.#Review#LLM#Scientific Problem Solving#AI Research#Iterative Refinement#Autonomous Agents#Generative AI#Evaluation Framework#Problem Extraction2025년 10월 8일댓글 수 로딩 중
[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL본 논문은 기존 WikiSQL 데이터셋이 가진 데이터 타입 불일치, 대소문자 일관성 부족, 구문 오류, 답변 불가 질문 등의 구조적, 주석 관련 문제점을 해결하고자 합니다.#Review#Text-to-SQL#WikiSQL#LLM#Dataset Curation#Natural Language Processing#Benchmark#SQL Generation#Data Cleaning2025년 10월 7일댓글 수 로딩 중
[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.#Review#LLM#LLM Agents#Academic Survey Generation#Evaluation Framework#Benchmark#Quiz-driven Evaluation#Content Quality Metrics2025년 10월 6일댓글 수 로딩 중
[논문리뷰] CoDA: Agentic Systems for Collaborative Data Visualization본 논문은 복잡한 데이터셋, 반복적인 개선, 코드 오류 및 최종 시각화 품질 문제로 인해 기존 시스템이 어려움을 겪는 자연어 기반 데이터 시각화 자동화의 한계를 해결하는 것을 목표로 합니다.#Review#Multi-agent Systems#Data Visualization#LLM#Automation#Self-reflection#Code Generation#Natural Language to Visualization2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1본 논문은 학술 논문을 바탕으로 고품질의 대화형 프로젝트 웹페이지를 자동으로 생성 하는 새로운 태스크를 제안하고 해결하고자 합니다.#Review#Human-Agent Collaboration#Project Page Generation#Multi-Agent System#LLM#VLM#Webpage Automation#PageBench#Scientific Communication#Cost-Effective AI2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism본 논문은 대규모 언어 모델(LLM)이 생물 실험 프로토콜을 생성할 때 발생하는 불완전성 및 비일관성 문제를 해결하고, 정밀하고 논리적으로 정렬되며 실행 가능한 프로토콜을 자율적으로 생성하는 것을 목표로 합니다. 이를 통해 생명 과학 분야의 재현성 향상과 실험 효율성을 극대화하고자 합니다.#Review#Scientific Reasoning#Bio-experimental Protocol Generation#LLM#Structured Reward#SciRecipe Dataset#Sketch-and-Fill#Reinforcement Learning#Thoth2025년 10월 22일댓글 수 로딩 중
[논문리뷰] QueST: Incentivizing LLMs to Generate Difficult Problems본 논문은 LLM 학습에 있어 인간이 주석을 단 고품질의 어려운 코딩 문제 데이터셋이 부족하여 확장성이 제한되는 문제를 해결하고자 합니다. 특히, LLM 생성기가 더욱 도전적인 경쟁 프로그래밍 문제를 효과적으로 생성하도록 유도하는 새로운 프레임워크인 QueST 를 제안합니다.#Review#LLM#Problem Generation#Competitive Programming#Synthetic Data#Difficulty Estimation#Rejection Fine-tuning#Graph Sampling2025년 10월 21일댓글 수 로딩 중
[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.#Triton#NVIDIA#FP4#GPU#Optimization#LLM2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.#Review#Voice AI#LLM#Reasoning#Benchmark#Modality Gap#Latency#Speech Recognition#Generative AI#Real-time Systems#Conversational AI2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Knowledge Homophily in Large Language Models본 논문은 대규모 언어 모델(LLM)이 인간의 뇌와 유사하게 지식 동질성(Knowledge Homophily) 패턴을 보이는지 탐구하고, 이를 통해 LLM 내 지식의 구조적 조직을 이해하며 지식 주도형(knowledge-intensive) 태스크 의 효율성을 개선하는 것을 목표로 합니다.#Review#LLM#Knowledge Homophily#Graph Neural Networks#Knowledge Graph#Knowledge Injection#Question Answering#Fine-tuning#Knowledge Retrieval2025년 10월 1일댓글 수 로딩 중