#Natural Language Processing

16개의 포스트

[논문리뷰] MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts

기존 3D 도시 생성 방법론의 한계인 텍스트 기반 생성의 창의적 유연성과 객체 수준 편집 가능성 및 구조적 일관성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #3D City Generation #Natural Language Processing #Aesthetic Adaptation #Controllable Assets #Layout Generation #Interactive Editing #Diffusion Models #Multimodal Dataset

2025년 11월 25일

[논문리뷰] CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?

본 연구는 대규모 언어 모델(LLM)의 자연어 기반 신뢰도 표현(verbalized confidence) 의 정확한 보정(calibration)을 개선하는 것을 목표로 합니다.

#Review #LLM Calibration #Confidence Calibration #Uncertainty Estimation #Critique Learning #Supervised Fine-Tuning #Natural Language Processing #Self-Critique

2025년 11월 9일

[논문리뷰] AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence

현재 LLM(Large Language Model) 벤치마크들이 정적 데이터셋에 의존하고 암기 능력을 주로 평가하여 현실적인 CTI(Cyber Threat Intelligence) 추론 능력을 제대로 측정하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Benchmarking #Cyber Threat Intelligence (CTI)#Dynamic Evaluation #CTI Reasoning #Vulnerability Prediction #Threat Actor Attribution #Risk Mitigation #Natural Language Processing

2025년 11월 9일

[논문리뷰] ReviewScore: Misinformed Peer Review Detection with Large Language Models

AI 학회에서 급증하는 제출 수로 인해 저하되는 동료 검토의 품질 문제를 해결하고자 합니다.

#Review #Peer Review #Review Quality #Large Language Models (LLMs)#Misinformed Review #Argument Reconstruction #Factuality Evaluation #Natural Language Processing #Automated Evaluation

2025년 9월 29일

[논문리뷰] Interactive Recommendation Agent with Active User Commands

본 논문은 기존 추천 시스템의 수동적 피드백 메커니즘이 사용자의 미묘한 의도와 만족도를 정확히 포착하지 못하여 발생하는 '사용자 의도-시스템 해석' 간의 간극을 해결하고자 합니다.

#Review #Interactive Recommendation #Large Language Models #Multi-Agent System #Natural Language Processing #Knowledge Distillation #User Control

2025년 9월 26일

[논문리뷰] ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation

본 논문은 법률 전문가가 아닌 일반인(예: 원고)을 위한 법률 청구 생성(Legal Claim Generation) 문제에 주목하여, 주어진 사건의 사실(fact)을 바탕으로 청구 내용을 자동으로 생성하는 것을 목표로 합니다.

#Review #Legal AI #Natural Language Processing #Claim Generation #Chinese Legal Dataset #Factuality #Clarity #Large Language Models #Zero-shot Evaluation

2025년 8월 27일

[논문리뷰] Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

본 논문은 팟캐스트와 같은 롱폼 오디오 도메인에서 개인화된 추천 시스템 평가의 어려움(노출 편향, A/B 테스트의 높은 비용 및 제약)을 해결하고자 합니다. 특히, 배포 전 모델 선택 단계에서 확장 가능하고 신뢰할 수 있으며 해석 가능한 평가 방법론의 부재라는 핵심 문제를 다룹니다.

#Review #Podcast Recommendation #LLM-as-a-Judge #Offline Evaluation #User Profiling #Recommender Systems #Natural Language Processing

2025년 8월 20일

[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

기존 비디오 추천 시스템의 한계인 저수준 시각/음성 특징 및 메타데이터의 의미론적 깊이 부족 문제를 해결하는 것이 목표입니다. 사용자의 의도, 유머, 세계 지식과 같은 고수준의 의미를 포착하여 비디오 클립이 시청자에게 공감을 얻는 이유를 파악하고, 이를 통해 개인화된 추천의 질을 향상시키고자 합니다.

#Review #Multimodal Large Language Models #Video Recommendation #Zero-Shot Learning #Content-Based Filtering #Natural Language Processing #Foundation Models

2025년 8월 20일

[논문리뷰] Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

본 연구는 대규모 언어 모델(LLMs)이 인간과 비교하여 도덕적 차원을 어떻게 이해하는지 평가하는 것을 목표로 합니다. 특히, 기존의 확정론적 정답(ground-truth) 가정에서 벗어나 어노테이터 불일치를 베이지안 방식으로 모델링 하여 인간의 내재된 불확실성과 모델의 도메인 민감도를 포착하고자 합니다.

#Review #Large Language Models #Moral Reasoning #Bayesian Evaluation #Uncertainty Quantification #Natural Language Processing #Soft Labels

2025년 8월 20일

[논문리뷰] X-Node: Self-Explanation is All We Need

그래프 신경망(GNN)의 불투명한 의사결정 문제를 해결하고, 특히 신뢰성이 필수적인 고위험 임상 환경에서 개별 노드 수준의 충실한 자체 설명(self-explanation) 을 제공하는 것을 목표로 합니다.

#Review #Graph Neural Networks #Explainable AI #Self-Explanation #Node Classification #Medical Imaging #Natural Language Processing #Interpretability

2025년 8월 18일

[논문리뷰] PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

이 논문은 기존 장문 컨텍스트 이해 벤치마크의 한계(기억력 의존, 얕은 추론, 전역적 의존성 부족 등)를 해결하고, 대규모 언어 모델(LLMs)의 전역적 이해(global comprehension) 및 심층 추론(deep reasoning) 능력을 엄격하게 평가하기 위한 새로운 벤치마크인 PRELUDE 를 제안합니다.

#Review #Long-Context Understanding #Reasoning Benchmark #LLMs Evaluation #Natural Language Processing #Global Comprehension #Fluid Intelligence #Prequel Entailment #RAG

2025년 8월 15일

[논문리뷰] From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

본 논문은 기존의 수동 통역 평가 방식의 한계(편향, 불일치)와 자동 평가 시스템의 불투명성 및 데이터 불균형 문제를 해결하고자 합니다. 특히 모델 예측에 대한 설명 가능성(Explainability) 을 강조하며, 통역 품질 평가를 위한 투명하고 다차원적인 자동화 프레임워크 를 제안합니다.

#Review #Automated Interpreting Assessment #Explainable AI #Data Augmentation #Variational Autoencoder #SHAP #Interpreting Quality #Natural Language Processing

2025년 8월 15일

[논문리뷰] TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation

본 논문은 현대 자연어 처리 모델의 평가 도구가 특히 훈련 중 평가 지표(in-training evaluation metrics) 에서 연산 병목 현상을 일으켜 연구 속도를 저해하는 문제를 해결하고자 합니다.

#Review #BLEU Score #GPU Acceleration #PyTorch #Natural Language Processing #Reinforcement Learning #Vectorization #In-Training Evaluation #N-gram Counting

2025년 10월 8일

[논문리뷰] CARE: Cognitive-reasoning Augmented Reinforcement for Emotional Support Conversation

감성 지원 대화(ESC) 시스템에서 기존 모델들이 간과했던 심층적인 인지 추론 과정을 강화하여, 대규모 합성 데이터 없이도 논리적으로 일관되고 지지적인 응답을 생성하는 것을 목표로 합니다. 이는 심리적 스트레스를 완화하고 대화를 통해 정서적 가치를 제공하는 데 기여합니다.

#Review #Emotional Support Conversation #Cognitive Reasoning #Reinforcement Learning #Dialogue Generation #Natural Language Processing #Large Language Models #Psychological Support

2025년 10월 8일

[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL

본 논문은 기존 WikiSQL 데이터셋이 가진 데이터 타입 불일치, 대소문자 일관성 부족, 구문 오류, 답변 불가 질문 등의 구조적, 주석 관련 문제점을 해결하고자 합니다.

#Review #Text-to-SQL #WikiSQL #LLM #Dataset Curation #Natural Language Processing #Benchmark #SQL Generation #Data Cleaning

2025년 10월 7일

[논문리뷰] The Massive Legal Embedding Benchmark (MLEB)

이 논문은 기존 법률 정보 검색(IR) 벤치마크의 한계, 즉 낮은 품질, 부족한 다양성, 그리고 실제 성능 예측 실패 문제를 해결하는 것을 목표로 합니다.

#Review #Legal Information Retrieval #Embedding Models #Benchmark Dataset #Natural Language Processing #Retrieval-Augmented Generation #Jurisdictional Diversity #Legal Tech

2025년 10월 24일