[논문리뷰] Models That Know How Evaluations Are Designed Score Safer본 연구는 모델이 평가 벤치마크의 구조적 특성을 학습하여 실제 배포 환경보다 평가 환경에서 더 안전한 것처럼 행동하게 만드는 새로운 편향 요인을 규명하고자 한다.#Review#AI Safety#Evaluation Awareness#Meta-Knowledge#Synthetic Document Finetuning#Benchmark Contamination#Alignment Faking#Model Evaluation2026년 5월 27일댓글 수 로딩 중
[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?이 논문은 통합 멀티모달 모델에서 생성(generation) 능력이 이해(understanding) 능력을 향상시키는지, 그리고 언제, 어떤 방식으로 향상시키는지 에 대한 불확실성을 해결하고자 합니다.#Review#Unified Multimodal Models#Multimodal Understanding#Generation-to-Understanding#Benchmark#Vision-Language Models#Generate-then-Answer#Model Evaluation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] INTELLECT-3: Technical Report본 논문은 기존 오픈소스 LLM RL 인프라의 복잡성과 확장성 한계를 해결하고, 106B 파라미터 Mixture-of-Experts (MoE) 모델인 INTELLECT-3 를 통해 최첨단 성능을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Mixture-of-Experts#Asynchronous Training#Distributed Systems#Agentic AI#Code Execution#Model Evaluation2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Revisiting Generalization Across Difficulty Levels: It's Not So Easy이 논문은 대규모 언어 모델(LLM)이 다양한 난이도 수준의 태스크에 대해 얼마나 잘 일반화하는지 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM Generalization#Task Difficulty#Item Response Theory#Cross-Difficulty#Data Curation#Model Evaluation#Supervised Fine-Tuning2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual Shortcuts이 논문은 Multimodal Large Language Model (MLLM)이 시각적 이해 없이 비시각적 단축키(편향, 언어적 선험지식, 피상적인 패턴)를 악용하여 멀티모달 벤치마크에서 높은 점수를 얻는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Benchmark Design#Non-Visual Shortcuts#Test-Set Stress-Test#Bias Mitigation#Model Evaluation#Benchmark Robustness2025년 11월 9일댓글 수 로딩 중
[논문리뷰] What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT본 논문은 대규모 추론 모델(LRMs)에서 효과적인 CoT(Chain-of-Thought) 추론의 특성을 규명하는 것을 목표로 합니다. 특히, 기존의 '길수록 좋다'는 CoT 길이 및 검토(review) 증가 경향에 의문을 제기하고, 추론 과정의 어휘적, 구조적 특성이 정확도에 미치는 영향을 체계적으로 분석하고자 합니다.#Review#Chain-of-Thought#Reasoning Effectiveness#Large Reasoning Models#Failed-Step Fraction#Test-time Scaling#Reasoning Graph#Model Evaluation2025년 9월 24일댓글 수 로딩 중
[논문리뷰] PRvL: Quantifying the Capabilities and Risks of Large Language Models for PII Redaction본 연구는 비정형 텍스트에서 개인 식별 정보(PII) 를 자동 제거하는 문제에 초점을 맞춥니다.#Review#PII Redaction#Large Language Models#Instruction Tuning#Retrieval-Augmented Generation#Privacy Preservation#Model Evaluation#Cross-Domain Generalization#Open-Source LLMs2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Revisiting the Uniform Information Density Hypothesis in LLM Reasoning Traces본 논문은 대규모 언어 모델(LLM)의 CoT(Chain-of-Thought) 추론 과정에서 효과적인 추론이 단순히 피상적인 일관성을 넘어섰는지 판단하는 방법을 모색합니다.#Review#LLM Reasoning#Chain-of-Thought#Uniform Information Density#Information Theory#Reasoning Trace Analysis#Entropy#Mathematical Reasoning#Model Evaluation2025년 10월 9일댓글 수 로딩 중
[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.#Review#Text-to-Image Generation#Semantic Evaluation#Benchmark#Multilingual Evaluation#Fine-grained Assessment#Large Language Models#Model Evaluation#Prompt Engineering2025년 10월 22일댓글 수 로딩 중