[논문리뷰] MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts기존 3D 도시 생성 방법론의 한계인 텍스트 기반 생성의 창의적 유연성과 객체 수준 편집 가능성 및 구조적 일관성 부족 문제를 해결하는 것을 목표로 합니다.#Review#3D City Generation#Natural Language Processing#Aesthetic Adaptation#Controllable Assets#Layout Generation#Interactive Editing#Diffusion Models#Multimodal Dataset2025년 11월 25일댓글 수 로딩 중
[논문리뷰] CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?본 연구는 대규모 언어 모델(LLM)의 자연어 기반 신뢰도 표현(verbalized confidence) 의 정확한 보정(calibration)을 개선하는 것을 목표로 합니다.#Review#LLM Calibration#Confidence Calibration#Uncertainty Estimation#Critique Learning#Supervised Fine-Tuning#Natural Language Processing#Self-Critique2025년 11월 9일댓글 수 로딩 중
[논문리뷰] AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence현재 LLM(Large Language Model) 벤치마크들이 정적 데이터셋에 의존하고 암기 능력을 주로 평가하여 현실적인 CTI(Cyber Threat Intelligence) 추론 능력을 제대로 측정하지 못하는 문제를 해결하고자 합니다.#Review#LLM Benchmarking#Cyber Threat Intelligence (CTI)#Dynamic Evaluation#CTI Reasoning#Vulnerability Prediction#Threat Actor Attribution#Risk Mitigation#Natural Language Processing2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ReviewScore: Misinformed Peer Review Detection with Large Language ModelsAI 학회에서 급증하는 제출 수로 인해 저하되는 동료 검토의 품질 문제를 해결하고자 합니다.#Review#Peer Review#Review Quality#Large Language Models (LLMs)#Misinformed Review#Argument Reconstruction#Factuality Evaluation#Natural Language Processing#Automated Evaluation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Interactive Recommendation Agent with Active User Commands본 논문은 기존 추천 시스템의 수동적 피드백 메커니즘이 사용자의 미묘한 의도와 만족도를 정확히 포착하지 못하여 발생하는 '사용자 의도-시스템 해석' 간의 간극을 해결하고자 합니다.#Review#Interactive Recommendation#Large Language Models#Multi-Agent System#Natural Language Processing#Knowledge Distillation#User Control2025년 9월 26일댓글 수 로딩 중
[논문리뷰] ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation본 논문은 법률 전문가가 아닌 일반인(예: 원고)을 위한 법률 청구 생성(Legal Claim Generation) 문제에 주목하여, 주어진 사건의 사실(fact)을 바탕으로 청구 내용을 자동으로 생성하는 것을 목표로 합니다.#Review#Legal AI#Natural Language Processing#Claim Generation#Chinese Legal Dataset#Factuality#Clarity#Large Language Models#Zero-shot Evaluation2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge본 논문은 팟캐스트와 같은 롱폼 오디오 도메인에서 개인화된 추천 시스템 평가의 어려움(노출 편향, A/B 테스트의 높은 비용 및 제약)을 해결하고자 합니다. 특히, 배포 전 모델 선택 단계에서 확장 가능하고 신뢰할 수 있으며 해석 가능한 평가 방법론의 부재라는 핵심 문제를 다룹니다.#Review#Podcast Recommendation#LLM-as-a-Judge#Offline Evaluation#User Profiling#Recommender Systems#Natural Language Processing2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations기존 비디오 추천 시스템의 한계인 저수준 시각/음성 특징 및 메타데이터의 의미론적 깊이 부족 문제를 해결하는 것이 목표입니다. 사용자의 의도, 유머, 세계 지식과 같은 고수준의 의미를 포착하여 비디오 클립이 시청자에게 공감을 얻는 이유를 파악하고, 이를 통해 개인화된 추천의 질을 향상시키고자 합니다.#Review#Multimodal Large Language Models#Video Recommendation#Zero-Shot Learning#Content-Based Filtering#Natural Language Processing#Foundation Models2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding본 연구는 대규모 언어 모델(LLMs)이 인간과 비교하여 도덕적 차원을 어떻게 이해하는지 평가하는 것을 목표로 합니다. 특히, 기존의 확정론적 정답(ground-truth) 가정에서 벗어나 어노테이터 불일치를 베이지안 방식으로 모델링 하여 인간의 내재된 불확실성과 모델의 도메인 민감도를 포착하고자 합니다.#Review#Large Language Models#Moral Reasoning#Bayesian Evaluation#Uncertainty Quantification#Natural Language Processing#Soft Labels2025년 8월 20일댓글 수 로딩 중
[논문리뷰] X-Node: Self-Explanation is All We Need그래프 신경망(GNN)의 불투명한 의사결정 문제를 해결하고, 특히 신뢰성이 필수적인 고위험 임상 환경에서 개별 노드 수준의 충실한 자체 설명(self-explanation) 을 제공하는 것을 목표로 합니다.#Review#Graph Neural Networks#Explainable AI#Self-Explanation#Node Classification#Medical Imaging#Natural Language Processing#Interpretability2025년 8월 18일댓글 수 로딩 중
[논문리뷰] PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts이 논문은 기존 장문 컨텍스트 이해 벤치마크의 한계(기억력 의존, 얕은 추론, 전역적 의존성 부족 등)를 해결하고, 대규모 언어 모델(LLMs)의 전역적 이해(global comprehension) 및 심층 추론(deep reasoning) 능력을 엄격하게 평가하기 위한 새로운 벤치마크인 PRELUDE 를 제안합니다.#Review#Long-Context Understanding#Reasoning Benchmark#LLMs Evaluation#Natural Language Processing#Global Comprehension#Fluid Intelligence#Prequel Entailment#RAG2025년 8월 15일댓글 수 로딩 중
[논문리뷰] From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms본 논문은 기존의 수동 통역 평가 방식의 한계(편향, 불일치)와 자동 평가 시스템의 불투명성 및 데이터 불균형 문제를 해결하고자 합니다. 특히 모델 예측에 대한 설명 가능성(Explainability) 을 강조하며, 통역 품질 평가를 위한 투명하고 다차원적인 자동화 프레임워크 를 제안합니다.#Review#Automated Interpreting Assessment#Explainable AI#Data Augmentation#Variational Autoencoder#SHAP#Interpreting Quality#Natural Language Processing2025년 8월 15일댓글 수 로딩 중
[논문리뷰] TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation본 논문은 현대 자연어 처리 모델의 평가 도구가 특히 훈련 중 평가 지표(in-training evaluation metrics) 에서 연산 병목 현상을 일으켜 연구 속도를 저해하는 문제를 해결하고자 합니다.#Review#BLEU Score#GPU Acceleration#PyTorch#Natural Language Processing#Reinforcement Learning#Vectorization#In-Training Evaluation#N-gram Counting2025년 10월 8일댓글 수 로딩 중
[논문리뷰] CARE: Cognitive-reasoning Augmented Reinforcement for Emotional Support Conversation감성 지원 대화(ESC) 시스템에서 기존 모델들이 간과했던 심층적인 인지 추론 과정을 강화하여, 대규모 합성 데이터 없이도 논리적으로 일관되고 지지적인 응답을 생성하는 것을 목표로 합니다. 이는 심리적 스트레스를 완화하고 대화를 통해 정서적 가치를 제공하는 데 기여합니다.#Review#Emotional Support Conversation#Cognitive Reasoning#Reinforcement Learning#Dialogue Generation#Natural Language Processing#Large Language Models#Psychological Support2025년 10월 8일댓글 수 로딩 중
[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL본 논문은 기존 WikiSQL 데이터셋이 가진 데이터 타입 불일치, 대소문자 일관성 부족, 구문 오류, 답변 불가 질문 등의 구조적, 주석 관련 문제점을 해결하고자 합니다.#Review#Text-to-SQL#WikiSQL#LLM#Dataset Curation#Natural Language Processing#Benchmark#SQL Generation#Data Cleaning2025년 10월 7일댓글 수 로딩 중
[논문리뷰] The Massive Legal Embedding Benchmark (MLEB)이 논문은 기존 법률 정보 검색(IR) 벤치마크의 한계, 즉 낮은 품질, 부족한 다양성, 그리고 실제 성능 예측 실패 문제를 해결하는 것을 목표로 합니다.#Review#Legal Information Retrieval#Embedding Models#Benchmark Dataset#Natural Language Processing#Retrieval-Augmented Generation#Jurisdictional Diversity#Legal Tech2025년 10월 24일댓글 수 로딩 중