[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.#SGLang#AMD#ROCm#FP8#LLM#CI/CD2026년 4월 8일댓글 수 로딩 중
[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].#Review#Code Generation#LLM#Test Reranking#AUC#Discriminative Power#Leave-One-Out#Test Weighting2026년 4월 7일댓글 수 로딩 중
[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV CompressionarXiv에 게시된 'TriAttention: Efficient Long Reasoning with Trigonometric KV Compression' 논문에 대한 자세한 리뷰입니다.#Review#KV Cache#LLM#Attention#RoPE#Compression#Reasoning2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang Ngram 추측 디코딩: 외부 코퍼스 기반 Suffix Automaton 통합으로 성능 최적화SGLang의 Ngram 추측 디코딩에 외부 코퍼스 기반 Suffix Automaton을 도입하여 성능을 개선합니다.#SGLang#Ngram#Speculative Decoding#Suffix Automaton#성능 최적화#LLM#Python#C++2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.#SGLang#DeepSeek#LLM#Optimization#Inference2026년 4월 5일댓글 수 로딩 중
[sglang] SGLang에서 FA4(FlashAttention 4)와 Speculative Decoding의 완벽한 결합FA4를 Speculative Decoding 파이프라인에 통합하여 저지연 추론 성능을 극대화하는 최적화 기법을 분석합니다.#SGLang#FlashAttention4#SpeculativeDecoding#LLM#Optimization2026년 4월 4일댓글 수 로딩 중
[논문리뷰] Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models본 논문은 templated prompts를 사용하여 특정 개체에 반응하는 뉴런을 추출하고, 이를 인과적 개입(Causal Intervention)을 통해 검증하는 파이프라인을 제안합니다. 먼저, 여러 프롬프트에서 안정적으로 활성화되는 뉴런을 순위화하여 Entity Cells를 식별합니다.#Review#Mechanistic Interpretability#LLM#Entity Cells#Factual Recall#Causal Intervention#MLP Neurons#Canonicalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Executing as You Generate: Hiding Execution Latency in LLM Code GenerationarXiv에 게시된 'Executing as You Generate: Hiding Execution Latency in LLM Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#Parallel Execution#LLM#Code Generation#Latency#AST-based Chunking#Dynamic Batching#Error Interruption2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM LearningarXiv에 게시된 'Brainstacks: Cross-Domain Cognitive Capabilities via Frozen MoE-LoRA Stacks for Continual LLM Learning' 논문에 대한 자세한 리뷰입니다.#Review#Continual Learning#LLM#MoE-LoRA#Null-Space Projection#Meta-Router#Residual Boosting2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.#SGLang#Triton#CUDA#LLM#Optimization2026년 4월 2일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.#SGLang#ROCm#Kernel Fusion#LLM#Performance Optimization2026년 4월 1일댓글 수 로딩 중
[논문리뷰] daVinci-LLM:Towards the Science of PretrainingarXiv에 게시된 'daVinci-LLM:Towards the Science of Pretraining' 논문에 대한 자세한 리뷰입니다.#Review#Pretraining#Data Darwinism#LLM#Transparency#Data Processing#Scaling Laws#Reasoning2026년 3월 31일댓글 수 로딩 중
[sglang] Mamba 호스트 캐시 메커니즘 최적화: 성능 향상과 메모리 관리 개선Mamba 모델의 호스트 캐시 메커니즘을 최적화하여 메모리 사용량을 줄이고 추론 속도를 향상시키는 PR 분석#Mamba#Cache Optimization#Performance Tuning#LLM#sglang2026년 3월 31일댓글 수 로딩 중
[논문리뷰] PRBench: End-to-end Paper Reproduction in Physics ResearcharXiv에 게시된 'PRBench: End-to-end Paper Reproduction in Physics Research' 논문에 대한 자세한 리뷰입니다.#Review#Scientific Reproduction#Agentified Assessment#Physics Benchmark#LLM#Sandboxed Execution2026년 3월 30일댓글 수 로딩 중
[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.#Ray#Python#LLM#Benchmark#Performance#Concurrency2026년 3월 30일댓글 수 로딩 중
[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.#SGLang#Whisper#CUDA Graph#Performance Optimization#LLM2026년 3월 28일댓글 수 로딩 중
[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.#SGLang#FlashAttention#CUDA#Optimization#LLM2026년 3월 25일댓글 수 로딩 중
[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.#SGLang#LLM#KV Cache#Sparse Attention#CUDA2026년 3월 23일댓글 수 로딩 중
[논문리뷰] F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual WorldarXiv에 게시된 'F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World' 논문에 대한 자세한 리뷰입니다.#Review#Multilingual Embedding#LLM#Matryoshka Representation Learning#Knowledge Distillation#Model Pruning#MTEB Benchmark#Low-resource Languages#Open-source2026년 3월 19일댓글 수 로딩 중
[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.#LLM#vLLM#Inference#Optimization#Python#PyTorch2026년 3월 18일댓글 수 로딩 중
[논문리뷰] GradMem: Learning to Write Context into Memory with Test-Time Gradient Descentmbur이 arXiv에 게시한 'GradMem: Learning to Write Context into Memory with Test-Time Gradient Descent' 논문에 대한 자세한 리뷰입니다.#Review#GradMem#Test-Time Optimization#Context Removal#Compressive Memory#Meta-learning#Gradient Descent#LLM#KV-retrieval2026년 3월 17일댓글 수 로딩 중
[Axolotl] MXFP4 양자화 지원 추가torchao의 MXFakeQuantizeConfig를 활용한 MXFP4 QAT 지원 구현 분석#Axolotl#Quantization#MXFP4#QAT#LLM2026년 3월 5일댓글 수 로딩 중
[논문리뷰] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in ProductionarXiv에 게시된 'CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Social Chat#Engagement Optimization#Steerability#Reinforcement Learning#Reward Modeling#A/B Testing#Iterative Development2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on AcceleratorsLukasz Heldt이 arXiv에 게시한 'Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators' 논문에 대한 자세한 리뷰입니다.#Review#Generative Retrieval#Constrained Decoding#Trie#Sparse Matrix#TPU#GPU#Recommendation Systems#LLM2026년 3월 1일댓글 수 로딩 중
[논문리뷰] veScale-FSDP: Flexible and High-Performance FSDP at ScaleCong Xie이 arXiv에 게시한 'veScale-FSDP: Flexible and High-Performance FSDP at Scale' 논문에 대한 자세한 리뷰입니다.#Review#FSDP#Distributed Training#LLM#GPU Scaling#Memory Optimization#Performance Optimization#Structure-Aware Training#RaggedShard2026년 2월 26일댓글 수 로딩 중
[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement LearningarXiv에 게시된 'ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Reinforcement Learning#LLM#Policy Optimization#Training Stability#Importance Sampling Clipping#Advantage Design#Dynamic Filtering#ARLArena#SAMPO2026년 2월 25일댓글 수 로딩 중
[논문리뷰] On Data Engineering for Scaling LLM Terminal CapabilitiesarXiv에 게시된 'On Data Engineering for Scaling LLM Terminal Capabilities' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Terminal Agents#Data Engineering#Synthetic Data Generation#Supervised Fine-tuning (SFT)#Terminal-Bench#Nemotron-Terminal#Dataset Adapters2026년 2월 24일댓글 수 로딩 중
[논문리뷰] K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World ModelIon Stoica이 arXiv에 게시한 'K-Search: LLM Kernel Generation via Co-Evolving Intrinsic World Model' 논문에 대한 자세한 리뷰입니다.#Review#LLM#GPU Kernel Optimization#Code Generation#World Model#Evolutionary Search#Program Synthesis#High-Performance Computing2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Intelligent AI DelegationarXiv에 게시된 'Intelligent AI Delegation' 논문에 대한 자세한 리뷰입니다.#Review#AI Delegation#Multi-agent Systems#Task Decomposition#Agentic AI#Trust & Safety#LLM#Adaptive Coordination2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse SupervisionarXiv에 게시된 'Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Scientific Reasoning#Co-evolution#Reinforcement Learning#Sparse Supervision#Geometric Consensus#Self-Play#Verifier2026년 2월 12일댓글 수 로딩 중
[논문리뷰] ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model CompressionarXiv에 게시된 'ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression' 논문에 대한 자세한 리뷰입니다.#Review#Model Compression#LLM#Training-Free#Knapsack Problem#Sparse Matrix Factorization#Dictionary Learning#Post-Training Optimization#Weight Sparsification2026년 2월 11일댓글 수 로딩 중
[Ray Data/LLM] 폐기된 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고 AutoConfig 실패를 비치명적으로 처리transformers 5.0+ 호환성을 위해 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고, HuggingFace 설정 로드 실패 시 텔레메트리 fallback을 적용한 분석.#Ray#Python#Compatibility#HuggingFace#LLM2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Agent Banana: High-Fidelity Image Editing with Agentic Thinking and ToolingarXiv에 게시된 'Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Agentic AI#Multi-turn Interaction#High-Fidelity#Native Resolution#LLM#Context Folding#Layer Decomposition2026년 2월 10일댓글 수 로딩 중
[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the RarearXiv에 게시된 'F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Reward Models#Diversity Preservation#Focal Loss#Group Sampling#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion TransformersarXiv에 게시된 'Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#LLM#Text-to-Image#Transformer#Semantic Routing#Feature Fusion#Dynamic Conditioning#Generative AI2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Rethinking the Trust Region in LLM Reinforcement LearningarXiv에 게시된 'Rethinking the Trust Region in LLM Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Reinforcement Learning#Trust Region#PPO#DPPO#Policy Optimization#Training Stability#Divergence Approximation2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SWE-World: Building Software Engineering Agents in Docker-Free EnvironmentsarXiv에 게시된 'SWE-World: Building Software Engineering Agents in Docker-Free Environments' 논문에 대한 자세한 리뷰입니다.#Review#Software Engineering Agents#LLM#Docker-Free#Execution Simulation#Reinforcement Learning#Supervised Fine-tuning#World Model2026년 2월 3일댓글 수 로딩 중
[논문리뷰] SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-TrainingarXiv에 게시된 'SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training' 논문에 대한 자세한 리뷰입니다.#Review#Software Engineering Agents#Post-Training#Supervised Fine-Tuning#Reinforcement Learning#Language Server Protocol#SWE-bench#Code Navigation#LLM2026년 2월 3일댓글 수 로딩 중
[논문리뷰] SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive LearningarXiv에 게시된 'SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning' 논문에 대한 자세한 리뷰입니다.#Review#Progressive Learning#Width Expansion#Signal Preservation#Symmetry Breaking#LLM#Training Stability#MoE#RMSNorm2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic ReasoningarXiv에 게시된 'Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Visual Metaphor Transfer#Conceptual Blending Theory#Schema Grammar#Multi-Agent Framework#Generative AI#VLM#LLM#Creative AI2026년 2월 2일댓글 수 로딩 중
[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test MaintenanceDaniil Grebenkin이 arXiv에 게시한 'TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Unit Test Maintenance#Software Engineering#Code Generation#Test Repair#Test Updating#Benchmark#Mutation Testing#Code Coverage2026년 2월 1일댓글 수 로딩 중
[논문리뷰] World Craft: Agentic Framework to Create Visualizable Worlds via TextarXiv에 게시된 'World Craft: Agentic Framework to Create Visualizable Worlds via Text' 논문에 대한 자세한 리뷰입니다.#Review#Generative Agents#AI Town#LLM#Environment Creation#Multi-agent System#Spatial Reasoning#Text-to-World#Reverse Synthesis2026년 1월 27일댓글 수 로딩 중
[논문리뷰] FARE: Fast-Slow Agentic Robotic ExplorationJingsong Liang이 arXiv에 게시한 'FARE: Fast-Slow Agentic Robotic Exploration' 논문에 대한 자세한 리뷰입니다.#Review#Robotic Exploration#LLM#Reinforcement Learning#Fast-Slow Thinking#Hierarchical Planning#Agentic AI#Graph Reasoning2026년 1월 21일댓글 수 로딩 중
[논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations CorpusÖzay Ezerceli이 arXiv에 게시한 'A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus' 논문에 대한 자세한 리뷰입니다.#Review#Low-Resource NLP#Semantic Relations#Dataset Generation#Turkish Language#LLM#FastText Embeddings#Agglomerative Clustering#Synonyms#Antonyms#Co-hyponyms2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Distilling Feedback into Memory-as-a-Toolvicgalle이 arXiv에 게시한 'Distilling Feedback into Memory-as-a-Tool' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Continual Learning#Memory-Augmented Agents#Self-Correction#Feedback Distillation#Tool Use#Inference Cost Amortization#Rubric-based Learning2026년 1월 11일댓글 수 로딩 중
[논문리뷰] The Illusion of Specialization: Unveiling the Domain-Invariant 'Standing Committee' in Mixture-of-Experts ModelsarXiv에 게시된 'The Illusion of Specialization: Unveiling the Domain-Invariant 'Standing Committee' in Mixture-of-Experts Models' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts (MoE)#Sparse Routing#Domain Specialization#Load Balancing#Interpretability#Standing Committee#LLM2026년 1월 8일댓글 수 로딩 중
[논문리뷰] RelayLLM: Efficient Reasoning via Collaborative DecodingHaolin Liu이 arXiv에 게시한 'RelayLLM: Efficient Reasoning via Collaborative Decoding' 논문에 대한 자세한 리뷰입니다.#Review#LLM#SLM#Collaborative Decoding#Token-level Intervention#Reinforcement Learning#GRPO#Efficient Reasoning#Resource Efficiency2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Web World ModelsarXiv에 게시된 'Web World Models' 논문에 대한 자세한 리뷰입니다.#Review#Web World Model#LLM#Neuro-symbolic AI#Procedural Generation#Hybrid Architecture#Deterministic Generation#Persistent Environments#TypeScript2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHubKostadin Damevski이 arXiv에 게시한 'Toxicity Ahead: Forecasting Conversational Derailment on GitHub' 논문에 대한 자세한 리뷰입니다.#Review#Conversational AI#Toxicity Detection#LLM#Prompt Engineering#Open Source Software#GitHub#Derailment Forecasting2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Name That Part: 3D Part Segmentation and NamingAlan Yuille이 arXiv에 게시한 'Name That Part: 3D Part Segmentation and Naming' 논문에 대한 자세한 리뷰입니다.#Review#3D Semantic Segmentation#Part Naming#Open-Vocabulary#LLM#Set Alignment#Geometric Deep Learning#Annotation Engine#Affordance Description2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial ScalearXiv에 게시된 'Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale' 논문에 대한 자세한 리뷰입니다.#Review#AI Agent#Software Engineering#Open-Source#LLM#Orchestrator#Context Management#Long-term Memory#Meta-agent2025년 12월 11일댓글 수 로딩 중
[Ray Data] LLM 배치 추론에서 개별 행 실패 시에도 작업을 계속하는 에러 핸들링 추가하나의 잘못된 프롬프트로 전체 배치가 중단되던 문제를 should_continue_on_error 옵션으로 해결하여, 실패 행은 에러 컬럼으로 표시하고 나머지는 정상 처리하는 기능 분석.#Ray#Python#LLM#Batch Inference#Error Handling2025년 12월 10일댓글 수 로딩 중
[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language ModelsXiuyu Li이 arXiv에 게시한 'ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Parallel Reasoning#Inference Latency#Chain-of-Thought#Reinforcement Learning#Adaptive Threading#Mathematical Reasoning#Speedup2025년 12월 9일댓글 수 로딩 중
[논문리뷰] DeepCode: Open Agentic CodingChao Huang이 arXiv에 게시한 'DeepCode: Open Agentic Coding' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Coding#LLM#Code Generation#Repository Synthesis#Information Flow Management#Code Memory#CodeRAG#Automated Verification#Scientific Reproduction2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Computer-Use Agents as Judges for Generative User InterfacearXiv에 게시된 'Computer-Use Agents as Judges for Generative User Interface' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Use Agents#Generative UI#AI-assisted Design#Human-Computer Interaction#LLM#AUI-Gym#Feedback Loop#Agent-centric Design2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction FollowingKarishma Mandyam이 arXiv에 게시한 'Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Instruction Following#Reinforcement Learning#Rubric-based Evaluation#Benchmarking#Reward Shaping#Rubric Verifier#AdvancedIF2025년 11월 13일댓글 수 로딩 중
[논문리뷰] MADD: Multi-Agent Drug Discovery OrchestraarXiv에 게시된 'MADD: Multi-Agent Drug Discovery Orchestra' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Agent System#Drug Discovery#LLM#Hit Identification#Virtual Screening#Generative AI#Property Prediction#Automated Machine Learning2025년 11월 12일댓글 수 로딩 중
[논문리뷰] Adapting Web Agents with Synthetic SupervisionSiwei Han이 arXiv에 게시한 'Adapting Web Agents with Synthetic Supervision' 논문에 대한 자세한 리뷰입니다.#Review#Web Agents#Synthetic Data Generation#LLM#Task Refinement#Trajectory Refinement#Supervised Fine-tuning#Web Automation#Environment Adaptation2025년 11월 12일댓글 수 로딩 중
[논문리뷰] SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy OptimizationarXiv에 게시된 'SofT-GRPO: Surpassing Discrete-Token LLM Reinforcement Learning via Gumbel-Reparameterized Soft-Thinking Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Reinforcement Learning#Soft-Thinking#Gumbel Reparameterization#Policy Optimization#Chain-of-Thought (CoT)#GRPO2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual TasksarXiv에 게시된 'Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Text Embedding#Multilingual#Cross-Lingual#Contrastive Learning#Model Merging#Synthetic Data Generation#Instruction-Tuning#LLM2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Too Good to be Bad: On the Failure of LLMs to Role-Play VillainsarXiv에 게시된 'Too Good to be Bad: On the Failure of LLMs to Role-Play Villains' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Role-playing#Safety Alignment#Villain#Persona Simulation#Moral Alignment#Benchmark#Character Fidelity2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RDMA Point-to-Point Communication for LLM SystemsarXiv에 게시된 'RDMA Point-to-Point Communication for LLM Systems' 논문에 대한 자세한 리뷰입니다.#Review#RDMA#LLM#Point-to-Point Communication#Disaggregated Inference#MoE Routing#KvCache#AWS EFA#NVIDIA ConnectX2025년 11월 9일댓글 수 로딩 중
[pydantic-ai] Validation 에러 재시도 메시지 개선 — Markdown 코드 블록 포맷LLM에게 전달하는 validation 에러 메시지를 Markdown 코드 블록으로 포맷하여 가독성 향상#Python#Pydantic AI#LLM#UX#Bug Fix2025년 11월 4일댓글 수 로딩 중
[Ray] 단일 노드 LLM 배치 추론 성능 기준선 벤치마크 및 회귀 가드 추가Ray Data LLM의 단일 노드 vLLM 배치 추론 벤치마크를 추가하고 환경 변수 기반 회귀 감지 임계값을 설정한 분석.#Ray#Python#Performance#Benchmarking#LLM2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent SupervisionarXiv에 게시된 'Repurposing Synthetic Data for Fine-grained Search Agent Supervision' 논문에 대한 자세한 리뷰입니다.#Review#Search Agents#LLM#Reinforcement Learning#Synthetic Data#Reward Shaping#Entity-aware Reward#Policy Optimization#Knowledge-intensive Tasks2025년 10월 29일댓글 수 로딩 중
[논문리뷰] AgentFold: Long-Horizon Web Agents with Proactive Context ManagementarXiv에 게시된 'AgentFold: Long-Horizon Web Agents with Proactive Context Management' 논문에 대한 자세한 리뷰입니다.#Review#Web Agents#Context Management#Long-Horizon Tasks#LLM#Deep Consolidation#Granular Condensation#ReAct Paradigm2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1arXiv에 게시된 'Human-Agent Collaborative Paper-to-Page Crafting for Under $0.1' 논문에 대한 자세한 리뷰입니다.#Review#Human-Agent Collaboration#Project Page Generation#Multi-Agent System#LLM#VLM#Webpage Automation#PageBench#Scientific Communication#Cost-Effective AI2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward MechanismShuang Gu이 arXiv에 게시한 'Unleashing Scientific Reasoning for Bio-experimental Protocol Generation via Structured Component-based Reward Mechanism' 논문에 대한 자세한 리뷰입니다.#Review#Scientific Reasoning#Bio-experimental Protocol Generation#LLM#Structured Reward#SciRecipe Dataset#Sketch-and-Fill#Reinforcement Learning#Thoth2025년 10월 22일댓글 수 로딩 중
[논문리뷰] QueST: Incentivizing LLMs to Generate Difficult ProblemsarXiv에 게시된 'QueST: Incentivizing LLMs to Generate Difficult Problems' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Problem Generation#Competitive Programming#Synthetic Data#Difficulty Estimation#Rejection Fine-tuning#Graph Sampling2025년 10월 21일댓글 수 로딩 중
[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.#Triton#NVIDIA#FP4#GPU#Optimization#LLM2025년 10월 20일댓글 수 로딩 중
[논문리뷰] LaSeR: Reinforcement Learning with Last-Token Self-RewardingarXiv에 게시된 'LaSeR: Reinforcement Learning with Last-Token Self-Rewarding' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#LLM#Self-Verification#Last-Token#Reward Modeling#Efficiency#Reasoning#RLVR2025년 10월 17일댓글 수 로딩 중
[논문리뷰] LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent TrainingarXiv에 게시된 'LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Digital Agents#UI Simulation#Synthetic Data Generation#Targeted Data Synthesis#World Models2025년 10월 17일댓글 수 로딩 중
[논문리뷰] EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time ScalingAhmet Üstün이 arXiv에 게시한 'EAGER: Entropy-Aware GEneRation for Adaptive Inference-Time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Inference-Time Scaling#Entropy-Aware Generation#Adaptive Budget Allocation#Reasoning Benchmarks#Computational Efficiency#Chain-of-Thought2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCsarXiv에 게시된 'Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCs' 논문에 대한 자세한 리뷰입니다.#Review#LLM#NPC#Game Dialogue#Persona-Grounded Dialogue#Task Execution#Prompt Engineering#Fine-tuning#Deflanderization2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Beyond Outliers: A Study of Optimizers Under QuantizationarXiv에 게시된 'Beyond Outliers: A Study of Optimizers Under Quantization' 논문에 대한 자세한 리뷰입니다.#Review#Quantization#Optimizers#LLM#Post-Training Quantization (PTQ)#Quantization-Aware Training (QAT)#Error Propagation#Scaling Laws#Shampoo2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMsarXiv에 게시된 'Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs' 논문에 대한 자세한 리뷰입니다.#Review#DeepResearch Agents#Tool-integrated Reasoning#Reinforcement Learning#Information Retrieval#Information Synthesis#Multi-agent Self-play#Reward Shaping#LLM2025년 10월 8일댓글 수 로딩 중
[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research ProblemsJose Dolz이 arXiv에 게시한 'AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Scientific Problem Solving#AI Research#Iterative Refinement#Autonomous Agents#Generative AI#Evaluation Framework#Problem Extraction2025년 10월 8일댓글 수 로딩 중
[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQLarXiv에 게시된 'LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-SQL#WikiSQL#LLM#Dataset Curation#Natural Language Processing#Benchmark#SQL Generation#Data Cleaning2025년 10월 7일댓글 수 로딩 중
[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?Shuo Wang이 arXiv에 게시한 'SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?' 논문에 대한 자세한 리뷰입니다.#Review#LLM#LLM Agents#Academic Survey Generation#Evaluation Framework#Benchmark#Quiz-driven Evaluation#Content Quality Metrics2025년 10월 6일댓글 수 로딩 중
[논문리뷰] CoDA: Agentic Systems for Collaborative Data VisualizationarXiv에 게시된 'CoDA: Agentic Systems for Collaborative Data Visualization' 논문에 대한 자세한 리뷰입니다.#Review#Multi-agent Systems#Data Visualization#LLM#Automation#Self-reflection#Code Generation#Natural Language to Visualization2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance GapHengfan Zhang이 arXiv에 게시한 'Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap' 논문에 대한 자세한 리뷰입니다.#Review#Voice AI#LLM#Reasoning#Benchmark#Modality Gap#Latency#Speech Recognition#Generative AI#Real-time Systems#Conversational AI2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Knowledge Homophily in Large Language ModelsNedim Lipka이 arXiv에 게시한 'Knowledge Homophily in Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Knowledge Homophily#Graph Neural Networks#Knowledge Graph#Knowledge Injection#Question Answering#Fine-tuning#Knowledge Retrieval2025년 10월 1일댓글 수 로딩 중
[논문리뷰] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought ReasoningRaghuveer Rao이 arXiv에 게시한 'X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video Retrieval#LLM#Chain-of-Thought#Explainable AI#Multimodal Retrieval#Bradley-Terry Model#Video Annotation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement LearningZhuofan Zong이 arXiv에 게시한 'WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Website Generation#Code Agent#LLM#VLM#Reinforcement Learning#Multi-Level Feedback#GUI Agent#Step-GRPO2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-TrainingarXiv에 게시된 'Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Reinforcement Fine-tuning#Reward Modeling#Reward Over-optimization#Rubric-based Rewards#High-reward Tail#Off-policy Data#LLM Alignment2025년 9월 29일댓글 수 로딩 중
[논문리뷰] SIM-CoT: Supervised Implicit Chain-of-ThoughtYuhang Cao이 arXiv에 게시한 'SIM-CoT: Supervised Implicit Chain-of-Thought' 논문에 대한 자세한 리뷰입니다.#Review#Implicit Reasoning#Chain-of-Thought#LLM#Latent Space#Supervised Learning#Model Stability#Interpretability2025년 9월 25일댓글 수 로딩 중
[논문리뷰] EconProver: Towards More Economical Test-Time Scaling for Automated Theorem ProvingShansan Gong이 arXiv에 게시한 'EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving' 논문에 대한 자세한 리뷰입니다.#Review#Automated Theorem Proving#LLM#Test-Time Scaling#Chain-of-Thought#Reinforcement Learning#Efficiency Optimization#Token Cost#Sampling Cost#Dynamic CoT Switching2025년 9월 17일댓글 수 로딩 중
[논문리뷰] SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset CreationHeshaam Faili이 arXiv에 게시한 'SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Instruction Tuning#Domain Adaptation#Retrieval-Augmented Generation#Dataset Creation#Model Editing#Supervised Fine-Tuning2025년 9월 16일댓글 수 로딩 중
[논문리뷰] HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question AnsweringZhehao Tan이 arXiv에 게시한 'HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering' 논문에 대한 자세한 리뷰입니다.#Review#Retrieval-Augmented Generation#Multi-hop QA#Noise Resistance#LLM#Query Decomposition#Adaptive Retrieval#Heuristic Framework#Revelator2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP EcosystemDamien Sileo이 arXiv에 게시한 'Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem' 논문에 대한 자세한 리뷰입니다.#Review#Automated Theorem Proving#LLM#Mathematical Reasoning#Synthetic Data Generation#TPTP Ecosystem#Saturation Proving#Proof Graph Reconstruction#Data Augmentation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] DCPO: Dynamic Clipping Policy OptimizationKai Lu이 arXiv에 게시한 'DCPO: Dynamic Clipping Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Dynamic Clipping#Advantage Standardization#RLVR#Reasoning2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Baichuan-M2: Scaling Medical Capability with Large Verifier SystemJayok6이 arXiv에 게시한 'Baichuan-M2: Scaling Medical Capability with Large Verifier System' 논문에 대한 자세한 리뷰입니다.#Review#Medical AI#LLM#Reinforcement Learning#Verifier System#Patient Simulator#Clinical Rubrics#Baichuan-M2#HealthBench2025년 9월 3일댓글 수 로딩 중
[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point CloudsJiangmiao이 arXiv에 게시한 'MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Point Clouds#3D Reconstruction#Structured Mesh#Blender Python#Shape Editing#Part-based Representation#Large Language Model2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision MappingTyler Derr이 arXiv에 게시한 'Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Learning#Vision-Language Models#Alignment Pre-training#Text-to-Vision Mapping#Continuous Representations#Computational Efficiency#LLM2025년 8월 19일댓글 수 로딩 중
[논문리뷰] AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem SolvingJinjie Gu이 arXiv에 게시한 'AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem Solving' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Agent System#Agent Stability#LLM#Tool Use#GAIA Benchmark#Robustness#Dynamic Supervision#Maneuvering2025년 8월 14일댓글 수 로딩 중
[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-SeekingYan Gao이 arXiv에 게시한 'WideSearch: Benchmarking Agentic Broad Info-Seeking' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Search#LLM#Benchmark#Information Seeking#Structured Output#Evaluation Metrics#Multi-agent Systems2025년 8월 12일댓글 수 로딩 중
[논문리뷰] OmniEAR: Benchmarking Agent Reasoning in Embodied TasksHongxing Li이 arXiv에 게시한 'OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Agent Reasoning#LLM#Benchmarking#Tool Use#Multi-Agent Systems#Physical Interaction#Constraint Reasoning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Compressing Chain-of-Thought in LLMs via Step EntropyZhijian Xu이 arXiv에 게시한 'Compressing Chain-of-Thought in LLMs via Step Entropy' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Chain-of-Thought#CoT Compression#Step Entropy#Reinforcement Learning#SFT#GRPO2025년 8월 12일댓글 수 로딩 중
[논문리뷰] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward RectificationXinyu Ye이 arXiv에 게시한 'On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification' 논문에 대한 자세한 리뷰입니다.#Review#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Generalization#Reward Rectification#Dynamic Fine-Tuning (DFT)#LLM#Policy Gradient#Mathematical Reasoning2025년 8월 8일댓글 수 로딩 중
[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient DecodingYuqing Yang이 arXiv에 게시한 'LeanK: Learnable K Cache Channel Pruning for Efficient Decoding' 논문에 대한 자세한 리뷰입니다.#Review#LLM#KV Cache Optimization#Model Pruning#Efficient Decoding#Memory Optimization#Static Sparsity#Transformer2025년 8월 7일댓글 수 로딩 중