[논문리뷰] Nexus : An Agentic Framework for Time Series Forecasting본 논문은 기존 TSFM과 LLM 기반 시계열 예측 연구가 가진 구조적 한계를 해결하기 위해 Nexus를 제안한다.#Review#Time Series Forecasting#Large Language Models#Agentic Framework#Multimodal#Reasoning#Temporal Dynamics#Calibration2026년 5월 14일댓글 수 로딩 중
[논문리뷰] FeatCal: Feature Calibration for Post-Merging Models모델 병합(Model Merging)은 공동 학습(joint training)이나 개별 배포 없이 여러 task expert의 능력을 통합할 수 있는 효율적인 방법이지만, 병합된 모델이 원본 expert 모델보다 성능이 떨어지는 현상이 빈번하게 발생한다.#Review#Model Merging#Feature Drift#Calibration#Closed-form Solution#Feature Calibration#Forward-order Schedule2026년 5월 13일댓글 수 로딩 중
[llm-compressor] Dataset Calibration: c4/wikitext/ultrachat 로더datasets 디렉토리와 transformers/data 디렉토리가 캘리브레이션 데이터셋을 로딩하고 토크나이즈하는 구조 분석#llm-compressor#Dataset#Calibration2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Quantization Calibration: update_weight_zp_scale와 observer 등록calibration.py의 update_weight_zp_scale, update_weight_global_scale 같은 헬퍼 함수들이 모듈 단위로 observer를 호출해 스케일을 결정하는 흐름 분석#llm-compressor#Quantization#Calibration2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Sequential Pipeline: 레이어 단위 서브그래프 캘리브레이션SequentialPipeline이 모델을 서브그래프로 쪼개고 중간 활성화를 오프로드하며 GPTQ/SparseGPT를 수행하는 구조 분석#llm-compressor#Pipeline#Sequential#Calibration2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Basic Pipeline: 한 번의 forward로 끝내는 캘리브레이션BasicPipeline이 모델 전체를 단일 forward로 순회하며 캘리브레이션하는 구조와 loss mask, dispatch_model 처리 분석#llm-compressor#Pipeline#Calibration2026년 4월 13일댓글 수 로딩 중
[SGLang] AutoRound: 자동 라운딩 최적화 양자화SGLang의 AutoRound 양자화를 분석한다. 라운딩 오류를 최적화하는 자동 보정 기법, 기존 RTN 대비 정확도 향상을 코드와 함께 살펴본다.#sglang#AutoRound#Rounding Optimization#Calibration2026년 4월 12일댓글 수 로딩 중
[Ultralytics] 캘리브레이션 데이터셋이 배치보다 작을 때 에러 대신 자동 조정INT8 캘리브레이션 데이터셋이 batch 크기보다 작으면 에러를 던지던 동작을 자동 조정 + 경고로 개선합니다.#Ultralytics#YOLO#INT8#Calibration#Export2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Blockwise Advantage Estimation for Multi-Objective RL with Verifiable RewardsGRPO(Group Relative Policy Optimization) 와 같은 기존 RL 방법론이 단일 스칼라 어드밴티지를 사용하여 구조화된 LLM 생성에서 목적 함수 간 간섭과 잘못된 크레딧 할당을 야기하는 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLMs#Credit Assignment#Multi-Objective Optimization#Advantage Estimation#Calibration#Structured Generation#Group Relative Policy Optimization2026년 2월 11일댓글 수 로딩 중
[논문리뷰] The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 신뢰성을 높이기 위해, 도구 사용 환경에서 발생하는 verbalized calibration(언어화된 확신) 의 문제를 분석하고 완화하는 것을 목표로 합니다.#Review#LLM Agents#Calibration#Tool Use#Reinforcement Learning#Miscalibration#Overconfidence#Trustworthy AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Scaling Open-Ended Reasoning to Predict the Future본 연구는 불확실한 미래에 대한 개방형 예측 질문에 대해 언어 모델(LLM)이 정확하고 신뢰할 수 있는 예측을 할 수 있도록 훈련하는 것을 목표로 합니다.#Review#Language Models#Forecasting#Open-Ended Reasoning#Reinforcement Learning (RL)#Data Generation#Calibration#Retrieval-Augmented Generation (RAG)#Future Prediction2025년 12월 31일댓글 수 로딩 중
[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.#Review#Software Engineering Agents#Execution-free Feedback#Reward Model#Reinforcement Learning#Test-Time Scaling#Calibration#AUC#SWE-Bench2025년 12월 28일댓글 수 로딩 중
[논문리뷰] World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty본 논문은 최첨단 제어 가능한 비디오 모델이 흔히 겪는 환각 현상과 불확실성 표현 능력 부족 문제를 해결하고자 합니다.#Review#Controllable Video Generation#Uncertainty Quantification#Video Models#Calibration#Out-of-Distribution Detection#Proper Scoring Rules#Latent Space2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Mitigating Label Length Bias in Large Language Models논문은 대규모 언어 모델(LLMs)이 다중 토큰 클래스 레이블을 예측할 때 발생하는 '레이블 길이 편향(label length bias)' 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Models#Label Bias#Calibration#In-Context Learning#Text Classification#Multi-token Labels#Label Length Bias#Multiple Choice QA2025년 11월 18일댓글 수 로딩 중
[논문리뷰] TabTune: A Unified Library for Inference and Fine-Tuning Tabular Foundation Models본 연구는 테이블 형식 파운데이션 모델(Tabular Foundation Models, TFMs) 의 복잡한 전처리, 분산된 API, 비일관적인 미세 조정 절차 및 표준화되지 않은 평가(특히 보정 및 공정성 지표) 문제로 인해 실용적인 채택이 제한되는 것을 해결하는 것을 목표로 합니다.#Review#Tabular Foundation Models#Fine-Tuning#PEFT#Meta-Learning#Calibration#Fairness#Unified Library#Benchmarking2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs본 논문은 대규모 언어 모델(LLM)의 객관식 질문 답변(MCQA) 평가 시, 답변 레이블 직전의 공백 문자 토큰화 방식이 모델 성능에 미치는 영향을 규명하는 것을 목표로 합니다.#Review#LLM Evaluation#Multiple-Choice QA#Tokenization#Prompt Sensitivity#Accuracy#Calibration#Model Ranking2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Why Language Models Hallucinate본 논문은 대규모 언어 모델(LLM)이 '환각' 현상, 즉 그럴듯하지만 틀린 정보를 자신감 있게 생성하는 이유를 통계적으로 분석하고, 이러한 문제가 최신 모델에서도 지속되는 근본적인 원인을 밝히는 것을 목표로 합니다.#Review#Language Models#Hallucination#Pretraining#Post-training#Evaluation Metrics#Binary Classification#Uncertainty Quantification#Calibration2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation대규모 언어 모델(LLM)이 답변 생성 과정에서 겪는 과신(overconfidence) 문제를 해결하고, 기존의 거친(coarse-grained) 신뢰도 추정 방식의 한계를 극복하는 것을 목표로 합니다.#Review#LLMs#Confidence Estimation#Fine-Grained#Generation Process#Calibration#Monte Carlo Sampling#Backward Confidence Integration2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Judging with Confidence: Calibrating Autoraters to Preference Distributions이 논문은 현재 LLM 기반 자동 평가자(autoraters)가 이진 선호 레이블로만 훈련되어 인간 판단의 주관성과 분포적 특성을 간과하고, 불확실성과 소수 의견을 무시하는 근본적인 한계를 해결하고자 합니다.#Review#Large Language Models#Autoraters#Calibration#Preference Distributions#Reinforcement Learning#Supervised Fine-tuning#Positional Bias2025년 10월 7일댓글 수 로딩 중