#Accuracy

3개의 포스트

[pytorch] Inductor: CycleGAN CPU 벤치마크 expected accuracy 상태 업데이트

PyTorch Inductor의 CPU 벤치마크에서 pytorch_CycleGAN_and_pix2pix 모델의 expected 상태를 pass에서 eager_fail_to_run으로 변경한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #CI #Accuracy

2026년 2월 16일

[pytorch] CI: Inductor 테스트에 IoU 기반 accuracy 체크를 추가하여 segmentation 모델 안정화

PyTorch Inductor 벤치마크에서 segmentation 모델의 boolean mask 출력에 IoU(Intersection over Union) 메트릭을 적용하여, 부동소수점 차이로 인한 false failure를 방지한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #IoU #Segmentation #Accuracy #CI

2026년 1월 12일

[논문리뷰] Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs

본 논문은 대규모 언어 모델(LLM)의 객관식 질문 답변(MCQA) 평가 시, 답변 레이블 직전의 공백 문자 토큰화 방식이 모델 성능에 미치는 영향을 규명하는 것을 목표로 합니다.

#Review #LLM Evaluation #Multiple-Choice QA #Tokenization #Prompt Sensitivity #Accuracy #Calibration #Model Ranking

2025년 9월 19일