[논문리뷰] RubricBench: Aligning Model-Generated Rubrics with Human Standards본 논문은 최신 대규모 언어 모델(LLM) 의 복잡한 생성물에 대한 평가에서 표면적인 편향 을 완화하고 인간의 의도를 정확히 반영하기 위해 루브릭 기반 평가 의 신뢰성을 평가하는 통일된 벤치마크가 부족하다는 문제를 해결합니다.#Review#LLM Evaluation#Reward Models#Rubric-Guided Evaluation#Benchmarks#Model Alignment#Human Standards#Cognitive Misalignment2026년 3월 2일댓글 수 로딩 중
[pytorch] CI: Inductor 벤치마크 CI 작업을 CUDA 12.8에서 13.0으로 통합 전환PyTorch Inductor의 CI 벤치마크 워크플로우에서 CUDA 12.8과 13.0 이중 빌드를 CUDA 13.0 단일 빌드로 통합하여 CI 리소스를 절약한 사례를 분석합니다.#PyTorch#CI#CUDA#GitHub Actions#Inductor#Benchmarks2026년 2월 27일댓글 수 로딩 중
[pytorch] Benchmark: Inductor 벤치마크에서 CycleGAN 모델 제거PyTorch Inductor 벤치마크에서 pytorch_CycleGAN_and_pix2pix 모델을 24개 expected accuracy CSV에서 일괄 제거하여 CI 안정성을 개선한 사례를 분석합니다.#PyTorch#Inductor#Benchmarks#CI#CycleGAN2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Towards a Science of AI Agent ReliabilityAI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.#Review#AI Agents#Reliability#Evaluation Metrics#Consistency#Robustness#Predictability#Safety#Benchmarks2026년 2월 18일댓글 수 로딩 중
[pytorch] Inductor: CycleGAN CPU 벤치마크 expected accuracy 상태 업데이트PyTorch Inductor의 CPU 벤치마크에서 pytorch_CycleGAN_and_pix2pix 모델의 expected 상태를 pass에서 eager_fail_to_run으로 변경한 사례를 분석합니다.#PyTorch#Inductor#Benchmarks#CI#Accuracy2026년 2월 16일댓글 수 로딩 중
[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty기존 LLM 에이전트 벤치마크가 이상적인 설정에서의 태스크 완료에만 초점을 맞추고 실제 환경에서의 신뢰성, 일관성, 한계 인식 을 간과하는 문제를 해결하고자 합니다.#Review#LLM Agents#Benchmarks#Tool-use#Consistency#Uncertainty Handling#Hallucination#In-car Assistant#Policy Adherence2026년 2월 5일댓글 수 로딩 중
[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Agents#Open-Ended Tasks#Relative Ranking#Tournament-based Ranking#Discriminative Collapse#Reward Modeling#Benchmarks2026년 1월 13일댓글 수 로딩 중
[pytorch] CI: Inductor 테스트에 IoU 기반 accuracy 체크를 추가하여 segmentation 모델 안정화PyTorch Inductor 벤치마크에서 segmentation 모델의 boolean mask 출력에 IoU(Intersection over Union) 메트릭을 적용하여, 부동소수점 차이로 인한 false failure를 방지한 사례를 분석합니다.#PyTorch#Inductor#Benchmarks#IoU#Segmentation#Accuracy#CI2026년 1월 12일댓글 수 로딩 중
[pytorch] Benchmark: Inductor 벤치마크에서 modded_nanogpt 모델 Skip 처리TorchInductor 벤치마크에서 정상 동작하지 않는 modded_nanogpt 모델을 skip 리스트에 추가하여 CI 안정성을 개선한 사례를 분석합니다.#PyTorch#Inductor#Benchmarks#CI#NanoGPT2026년 1월 9일댓글 수 로딩 중
[논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines이 논문은 최첨단 거대 언어 모델(LLM) 과 이들이 다양한 학문 분야(인문학, 법률, 경제, 경영, 과학, 공학)에 통합되는 현황을 종합적으로 검토하는 것을 목표로 합니다.#Review#Large Language Models#Generative AI#Academic Disciplines#LLM Applications#Review#Cross-disciplinary Research#Benchmarks2025년 9월 25일댓글 수 로딩 중
[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools본 논문은 Model Context Protocol (MCP)을 통해 도구를 사용하는 언어 에이전트의 실제 성능을 정확하게 평가할 수 있는 표준화된 벤치마크의 부재 문제를 해결하고자 합니다.#Review#Language Agents#Tool Use#Benchmarks#Model Context Protocol (MCP)#LLM Evaluation#Agentic AI#Real-World Performance2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning본 논문은 LLM의 과학 문제 해결 능력에 있어 깊은 도메인 지식 과 복잡한 추론 능력 의 필요성을 강조하며, 이를 종합적으로 평가할 수 있는 통일된 벤치마크의 부재와 지식 및 추론의 역할을 체계적으로 분리하여 연구하는 방법론의 부족을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Scientific Reasoning#Knowledge Retrieval#Reasoning Probing#Benchmarks#Chain-of-Thought#Fine-tuning2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks본 논문은 인간의 다중모달 공간 추론 능력을 대규모 모델(MLLMs)에 적용하는 연구의 현황을 체계적으로 검토하고, 이 분야의 발전을 위한 공개 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Spatial Reasoning#Survey#Benchmarks#3D Vision#Embodied AI#Vision-Language Navigation2025년 10월 30일댓글 수 로딩 중