[논문리뷰] The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs본 논문은 LLM의 On-policy Distillation 과정에서 발생하는 reward extrapolation의 한계점을 해결하고자 한다.#Review#On-policy Distillation#Reward Extrapolation#Structured Output#Format Adherence#Importance Sampling#LLM2026년 5월 13일댓글 수 로딩 중
[SGLang] Grammar Manager: 구조화된 출력 생성의 통합 관리SGLang의 Grammar Manager를 분석한다. JSON Schema, Regex, EBNF 등 다양한 제약 조건을 통합 관리하는 구조, 백엔드 디스패치, 토큰 마스킹 과정을 코드와 함께 살펴본다.#sglang#Grammar Manager#Structured Output#JSON Schema#Regex2026년 4월 13일댓글 수 로딩 중
[논문리뷰] Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 순차적 모방 에서 벗어나 진정한 병렬 추론 능력 을 자기 진화할 수 있도록 하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Parallel Reasoning#Self-Distilled Reinforcement Learning#Policy Optimization#Inference Acceleration#Structured Output#Agentic Reasoning2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Artemis: Structured Visual Reasoning for Perception Policy Learning기존 멀티모달 대규모 언어 모델(MLLM)의 시각 지각 정책 학습에서 언어 기반의 추론이 공간적/객체 중심 추론이 필요한 시각 태스크에서 성능 저하를 야기하는 문제를 해결하고자 합니다.#Review#Visual Reasoning#Multimodal Large Language Models (MLLM)#Reinforcement Learning (RL)#Perception Policy Learning#Object Grounding#Object Detection#Structured Output2025년 12월 2일댓글 수 로딩 중
[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.#Review#Agentic Search#LLM#Benchmark#Information Seeking#Structured Output#Evaluation Metrics#Multi-agent Systems2025년 8월 12일댓글 수 로딩 중