#Structured Output

5개의 포스트

[논문리뷰] The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs

본 논문은 LLM의 On-policy Distillation 과정에서 발생하는 reward extrapolation의 한계점을 해결하고자 한다.

#Review #On-policy Distillation #Reward Extrapolation #Structured Output #Format Adherence #Importance Sampling #LLM

2026년 5월 13일

[SGLang] Grammar Manager: 구조화된 출력 생성의 통합 관리

SGLang의 Grammar Manager를 분석한다. JSON Schema, Regex, EBNF 등 다양한 제약 조건을 통합 관리하는 구조, 백엔드 디스패치, 토큰 마스킹 과정을 코드와 함께 살펴본다.

#sglang #Grammar Manager #Structured Output #JSON Schema #Regex

2026년 4월 13일

[논문리뷰] Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 순차적 모방 에서 벗어나 진정한 병렬 추론 능력 을 자기 진화할 수 있도록 하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Parallel Reasoning #Self-Distilled Reinforcement Learning #Policy Optimization #Inference Acceleration #Structured Output #Agentic Reasoning

2025년 12월 8일

[논문리뷰] Artemis: Structured Visual Reasoning for Perception Policy Learning

기존 멀티모달 대규모 언어 모델(MLLM)의 시각 지각 정책 학습에서 언어 기반의 추론이 공간적/객체 중심 추론이 필요한 시각 태스크에서 성능 저하를 야기하는 문제를 해결하고자 합니다.

#Review #Visual Reasoning #Multimodal Large Language Models (MLLM)#Reinforcement Learning (RL)#Perception Policy Learning #Object Grounding #Object Detection #Structured Output

2025년 12월 2일

[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking

본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.

#Review #Agentic Search #LLM #Benchmark #Information Seeking #Structured Output #Evaluation Metrics #Multi-agent Systems

2025년 8월 12일