[논문리뷰] Context Training with Active Information Seeking본 논문은 LLM이 배포 후 새로운 정보나 전문 지식이 필요한 상황에서 겪는 적응력의 한계를 해결하기 위해 제안되었습니다. 기존의 closed-loop Context Training 방식은 모델의 내재된 지식에만 의존하므로, 모델이 모르는 외부 지식을 스스로 발견하거나 수정하는 데 결정적인 한계가 있습니다.#Review#Context Training#Active Information Seeking#Beam Search#Working Memory#LLM Optimization#Context Pollution#Generalization2026년 5월 13일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: FP8 모델을 위한 Inductor 컴파일러 경로 개선Inductor 컴파일러의 커널 퓨전 능력을 극대화하여 FP8 임베딩 성능을 24% 향상시킨 최적화 기법을 소개합니다.#SGLang#PyTorch Inductor#FP8#Kernel Fusion#LLM Optimization2026년 4월 14일댓글 수 로딩 중
[논문리뷰] Weak-Driven Learning: How Weak Agents make Strong Agents Stronger이 논문은 대규모 언어 모델(LLM)의 후처리 최적화 과정에서 발생하는 성능 포화 병목 현상 을 해결하는 것을 목표로 합니다.#Review#Weak-Driven Learning#LLM Optimization#Post-training#Gradient Amplification#Curriculum Learning#Knowledge Distillation#Mathematical Reasoning#Code Generation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Learning to Discover at Test Time본 연구는 AI를 활용하여 과학적 문제에서 새로운 SOTA(State-of-the-Art) 솔루션 을 발견하는 방법을 제시합니다. 특히, 훈련 데이터 범위를 넘어서는 새로운 아이디어 를 요구하는 난제들을 LLM이 테스트 시점에 지속적으로 학습 하며 해결하는 것을 목표로 합니다.#Review#Test-Time Training#Reinforcement Learning#Scientific Discovery#LLM Optimization#GPU Kernel Engineering#Algorithm Design#Single-Cell Analysis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning대규모 추론 모델(LLM)이 불필요하게 긴 사고 과정을 생성하여 컴퓨팅 자원을 낭비하고 때로는 정확도를 저해하는 '과잉 사고(overthinking)' 문제를 해결하고자 합니다.#Review#Early Exit#Confidence Control#Reasoning Models#Conformal Prediction#LLM Optimization#Dynamic Exits#Hidden States#Chain-of-Thought2025년 12월 9일댓글 수 로딩 중
[논문리뷰] LFM2 Technical Report본 논문은 LFM2 라는 Liquid Foundation Models 제품군을 소개하며, 효율적인 온-디바이스 배포 와 강력한 태스크 수행 능력 을 동시에 달성하는 것을 목표로 합니다.#Review#Edge AI#Foundation Models#Hybrid Architecture#Knowledge Distillation#Multimodal AI#On-device Deployment#Efficient Inference#LLM Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Single-stream Policy Optimization본 논문은 LLM을 위한 기존 그룹 기반 정책 최적화 방식( GRPO 등)이 겪는 비효율성(퇴화 그룹으로 인한 학습 신호 손실)과 동기화 장벽으로 인한 확장성 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Optimization#Policy Gradient#Variance Reduction#Adaptive Sampling#Scalability#Agentic Systems#RLVR2025년 9월 17일댓글 수 로딩 중
[논문리뷰] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization본 논문은 대규모 언어 모델(LLMs)의 자기 검증 신뢰성을 높여 비용이 많이 드는 사람의 주석이나 검증 가능한 답변에 대한 외부 의존성 없이 성능을 최적화하는 것을 목표로 합니다.#Review#LLM Optimization#Self-Verification#Dual Learning#Preference Optimization#Self-Supervised Learning#Mathematical Reasoning#Multilingual Translation#RLHF2025년 8월 21일댓글 수 로딩 중