[논문리뷰] MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization본 논문은 LLM agent의 skill 최적화가 근본적으로 다목적(multi-objective) 문제임에도 불구하고, 기존 방식들이 이를 단일 목적 함수로 축소함으로써 발생하는 비효율성을 해결하고자 합니다.#Review#Multi-Objective Optimization#LLM Agents#Skill Optimization#Chebyshev Scalarization#Hypervolume#Prompt Engineering#Constraint Satisfaction2026년 5월 20일댓글 수 로딩 중
[논문리뷰] PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents본 연구는 대규모 외부 컨텍스트를 반복적으로 쿼리하는 LLM 에이전트 환경에서 발생하는 반복적인 오리엔테이션 작업의 비효율성 문제를 해결합니다.#Review#Long-Context LLM Agents#Context Map#Orientation Cache#Prompt Engineering#LLM Inference2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies본 논문은 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 에피소드마다 동일한 오류를 반복하는 한계를 해결하고자 한다. 기존의 TTL 방식은 주로 고정된, 사람이 직접 설계한(hand-crafted) 휴리스틱에 의존하며, 이는 에이전트의 실질적인 학습 능력을 충분히 이끌어내지 못한다.#Review#Test-Time Learning#Language Agents#Meta-Learning#Evolutionary Optimization#Adaptive Policy#LLM Agents#Prompt Engineering2026년 4월 6일댓글 수 로딩 중
[논문리뷰] BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation본 논문은 텍스트-투-비디오(T2V) 생성 모델의 상업적 잠재력을 확장하기 위해 'Seamless Brand Integration' 이라는 새로운 태스크를 소개합니다.#Review#Text-to-Video Generation#Multi-Agent System#Brand Integration#Prompt Engineering#Large Language Models (LLMs)#LoRA Fine-tuning#Contextual Adaptation2026년 3월 10일댓글 수 로딩 중
[논문리뷰] How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities본 연구는 사회적으로 민감한 영역에 배포되는 대규모 언어 모델(LLMs) 의 예측 불가능한 행동(예: 의도 불일치, 일관성 없는 성격 표현)이 초래하는 상당한 위험을 해결하고자 합니다.#Review#Large Language Models (LLMs)#Controllability#Hierarchical Benchmark#Behavioral Granularity#Model Steering#Prompt Engineering#Activation-based Steering2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions본 논문은 Model Context Protocol (MCP) 도구 설명 에 내재된 결함이나 '냄새'의 만연함과 그 영향에 대한 불확실성을 해결하고자 합니다.#Review#Model Context Protocol#AI Agents#Tool Descriptions#Software Smells#Prompt Engineering#Foundation Models#Performance Evaluation#Ablation Study2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language ModelsRLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Prompt Engineering#Compositional Generalization#Verifiable Rewards#Curriculum Learning#Mathematical Reasoning#Multi-task Learning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models현재 Text-to-Image (T2I) 모델들이 복잡한 공간 관계(공간 인식, 추론, 상호작용) 처리에서 실패하는 한계를 해결하고, 기존의 짧고 정보 밀도가 낮은 프롬프트 기반 벤치마크의 부적합성을 극복하는 것을 목표로 합니다.#Review#Text-to-Image Models#Spatial Intelligence#Benchmark#Evaluation#Prompt Engineering#Multimodal LLMs#Fine-tuning#Spatial Reasoning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization본 연구는 LLM 기반 코드 생성 시 개발자들이 효과적인 프롬프트를 작성할 수 있도록 돕는 구체적인 가이드라인이 부족하다는 문제점을 해결하고자 합니다.#Review#Large Language Models#Code Generation#Prompt Engineering#Prompt Optimization#Empirical Study#Software Engineering#Guidelines2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Lost in the Prompt Order: Revealing the Limitations of Causal Attention in Language Models본 논문은 대규모 언어 모델(LLM)이 프롬프트 구조에 민감하게 반응하는 이유를 밝히고, 특히 다중 선택 질의응답(MCQA) 태스크에서 컨텍스트의 순서가 성능에 미치는 영향을 분석하는 것을 목표로 합니다.#Review#Prompt Engineering#Large Language Models#Causal Attention#Multiple-Choice QA#Prompt Order Sensitivity#Information Bottleneck#Decoder-only Transformers2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Are LLMs Vulnerable to Preference-Undermining Attacks (PUA)? A Factorial Analysis Methodology for Diagnosing the Trade-off between Preference Alignment and Real-World Validity본 연구는 사용자 선호도에 맞춰 정렬된 대규모 언어 모델(LLM) 이 Preference-Undermining Attacks (PUA) 에 취약한지 규명하는 것을 목표로 합니다.#Review#Large Language Models#Preference Alignment#Preference-Undermining Attacks#Factorial Analysis#Sycophancy#Prompt Engineering#Truth-Deference Trade-off2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Steerability of Instrumental-Convergence Tendencies in LLMs본 논문은 AI 시스템의 역량(capability) 성장과 제어 가능성(steerability) 간의 관계를 탐구하며, 특히 도구적 수렴(instrumental convergence) 경향에 초점을 맞춥니다.#Review#LLM Steerability#Instrumental Convergence#AI Safety#AI Security#Open-Weight Models#Prompt Engineering#Model Control#Behavioral Alignment2026년 1월 6일댓글 수 로딩 중
[논문리뷰] COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs본 논문은 범용적인 유해성 평가를 넘어, LLM이 기업 및 조직 특유의 허용 목록(allowlist) 및 거부 목록(denylist) 정책 을 얼마나 잘 준수하는지 체계적으로 평가하기 위한 COMPASS 프레임워크를 제안합니다.#Review#LLM Evaluation#Policy Alignment#Organizational Policies#AI Safety#Adversarial Robustness#Refusal Behavior#Prompt Engineering#Fine-tuning2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Toxicity Ahead: Forecasting Conversational Derailment on GitHub본 연구는 오픈 소스 소프트웨어(OSS) 커뮤니티의 건강을 해치는 유해한 대화(toxic interactions)가 발생하기 전에 이를 사전 예방적으로 예측 하는 것을 목표로 합니다.#Review#Conversational AI#Toxicity Detection#LLM#Prompt Engineering#Open Source Software#GitHub#Derailment Forecasting2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation본 연구는 질적 연구에서 LLM 기반 주제 분석의 신뢰성 문제를 해결하고, 기존의 시간 소모적이며 비용이 많이 드는 인간 코더 기반 방식의 한계를 극복하는 것을 목표로 합니다. 특히, LLM 출력의 신뢰도를 정량적으로 평가하고 투명하게 검증할 수 있는 다중 관점 검증 프레임워크를 제시하고자 합니다.#Review#Thematic Analysis#Large Language Models#Qualitative Research#Cohen's Kappa#Semantic Similarity#Reliability Metrics#Ensemble Validation#Prompt Engineering2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Understanding Syllogistic Reasoning in LLMs from Formal and Natural Language Perspectives본 연구는 LLM의 연역적 추론 능력 을 논리적(형식적) 및 직관적(자연어) 관점에서 깊이 이해하는 것을 목표로 합니다.#Review#Syllogistic Reasoning#Large Language Models (LLMs)#Belief Bias#Natural Language Understanding (NLU)#Formal Logic#Prompt Engineering#Self-Consistency#Cognitive Psychology2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Structured Extraction from Business Process Diagrams Using Vision-Language Models이 논문은 비즈니스 프로세스 모델 및 표기법(BPMN) 다이어그램 이미지에서 원시 XML 파일이나 텍스트 주석 없이 직접 구조화된 JSON 표현 을 추출하는 것을 목표로 합니다. 이는 기존 방법론이 XML 의존성으로 인해 발생하는 하위 시스템 통합 및 분석의 제약을 극복하기 위함입니다.#Review#Vision-Language Models#BPMN Extraction#Structured Information Extraction#OCR Enrichment#Prompt Engineering#Diagram Understanding#Business Process Management2025년 12월 1일댓글 수 로딩 중
[논문리뷰] PromptBridge: Cross-Model Prompt Transfer for Large Language Models본 논문은 LLM 시스템에서 모델이 교체되거나 업데이트될 때, 기존 모델에 최적화된 프롬프트의 성능이 다른 모델에서 크게 저하되는 현상인 모델 드리프팅(Model Drifting) 문제를 해결하고자 합니다.#Review#Large Language Models#Prompt Engineering#Model Drifting#Prompt Transfer#Cross-Model Adaptation#Training-Free#Prompt Optimization#MAP-RPE2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 과도한 토큰 사용과 높은 추론 지연 시간 문제를 해결하고자 합니다. 훈련 없이(training-free) 입력 중심의 접근 방식을 통해 LLM의 추론 효율성을 높이고자 합니다.#Review#LLM Reasoning#Chain-of-Thought#Prompt Engineering#Efficiency#Structured Input#Information Extraction#Cognitive Psychology#Token Reduction2025년 11월 30일댓글 수 로딩 중
[논문리뷰] SAM 3: Segment Anything with Concepts이 논문은 기존 SAM(Segment Anything Model) 의 한계, 즉 단일 객체 분할(PVS)을 넘어 이미지와 비디오에서 개념(Concept) 을 기반으로 모든 객체 인스턴스를 탐지, 분할 및 추적하는 것을 목표로 합니다.#Review#Segment Anything Model#Open-Vocabulary Segmentation#Multimodal Foundation Model#Instance Segmentation#Video Object Tracking#Prompt Engineering#Data Engine#Human-in-the-loop2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework본 연구는 Extreme Multi-label Classification (XMC)에서 Large Language Models (LLMs) 의 잠재력을 효과적으로 활용하고, 시각적 정보 를 효율적으로 통합하여 성능을 향상하는 것을 목표로 합니다.#Review#Extreme Multi-label Classification (XMC)#Large Language Models (LLMs)#Multi-modal Learning#Dual-decoder Learning#Vision Transformers#Contrastive Learning#Prompt Engineering2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey본 설문조사는 대규모 언어 모델(LLM) 을 활용한 과학적 아이디어 생성의 고유한 도전을 다루며, 특히 창의성과 과학적 타당성 사이의 균형을 맞추는 방법을 탐구합니다.#Review#Large Language Models#Scientific Discovery#Idea Generation#Creativity#Survey#AI in Science#Prompt Engineering#Multi-agent Systems#Evaluation Metrics2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning본 논문은 대규모 언어 모델(LLMs)이 대화에서 명시적(explicit) 및 암묵적(implicit) 감정을 효과적으로 인식할 수 있는지 탐구하고, 이 분야의 현재 한계점을 극복하는 것을 목표로 합니다. 특히, LLM의 감정 이해 능력을 향상시켜 인간-컴퓨터 상호작용의 자연성과 공감 능력을 증진하고자 합니다.#Review#Emotion Recognition in Conversation#Large Language Models#Prompt Engineering#Demonstration Retrieval#Curriculum Learning#Fine-tuning#Affective Computing#SOTA2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Jailbreaking in the Haystack본 연구는 장문(long-context) 언어 모델(LMs)의 확장된 컨텍스트 창이 가지는 안전성 함의를 분석하고, 심지어 양성(benign) 컨텍스트 내에서도 안전 기능이 어떻게 저하되는지 탐구하는 것을 목표로 합니다.#Review#Jailbreaking#LLM Safety#Long-Context Models#Positional Bias#Attack Success Rate (ASR)#Prompt Engineering#Compute Efficiency#AI Agents2025년 11월 9일댓글 수 로딩 중
[논문리뷰] left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles논문은 Vision-Language Models (VLMs)이 Rebus Puzzles 를 이해하고 해결하는 능력을 평가하기 위한 크고 다양한 멀티모달 벤치마크를 제시하는 것을 목표로 합니다.#Review#Vision-Language Models#Multimodal Benchmark#Rebus Puzzles#In-Context Learning#Reasoning#ControlNet#Prompt Engineering2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers본 연구는 이질적인 검색기(retriever)로부터 얻은 후보군들을 융합할 때, 기존의 랭크 기반 융합 방식들이 콘텐츠를 무시하고 랭크나 스코어 신호에만 의존하는 한계를 극복하고자 합니다.#Review#Video Retrieval#Vision-Language Models (VLMs)#Zero-Shot Learning#List-wise Reranking#Rank Fusion#Prompt Engineering#S-Grid#Multimodal Retrieval2025년 11월 9일댓글 수 로딩 중
[논문리뷰] StyleBench: Evaluating thinking styles in Large Language Models본 연구는 LLM이 사용하는 추론 전략, 즉 '사고 방식'이 모델 아키텍처 및 태스크 유형과 어떻게 상호작용하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Reasoning Strategies#Prompt Engineering#LLM Evaluation#Benchmark#Thinking Styles#Scaling Laws#Meta-Reasoning2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Zero-Shot Multi-Spectral Learning: Reimagining a Generalist Multimodal Gemini 2.5 Model for Remote Sensing Applications본 논문은 RGB 전용 이미지로 훈련된 범용 대규모 멀티모달 모델(LMM) 이 원격 감지 분야에서 널리 사용되는 다중 스펙트럼(multi-spectral) 입력 을 추가 훈련 없이 Zero-Shot 방식으로 이해하고 활용 할 수 있도록 하는 새로운 접근 방식을 제안합니다.#Review#Remote Sensing#Zero-Shot Learning#Multimodal Models#Multi-spectral Imagery#Gemini 2.5#Prompt Engineering#Land Cover Classification#Pseudo-Image2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration본 논문은 대규모 언어 모델(LLMs)이 시나리오별로 맞춤 설정된 동적 행동 및 안전 명세(spec)를 따르는 능력인 명세 정렬(Specification Alignment) 문제를 해결하는 것을 목표로 합니다.#Review#LLMs#Specification Alignment#Test-Time Deliberation#Safety-Behavior Trade-off#ALIGN3#SPECBENCH#Prompt Engineering2025년 9월 19일댓글 수 로딩 중
[논문리뷰] CLIPSym: Delving into Symmetry Detection with CLIP본 논문은 기존 대규모 비전-언어 모델(Vision-Language Models, VLMs)인 CLIP 을 활용하여 이미지 내의 반사 및 회전 대칭을 더욱 정확하고 견고하게 탐지하는 것을 목표로 합니다.#Review#Symmetry Detection#Vision-Language Models#CLIP#Equivariant Networks#Prompt Engineering#Geometric Deep Learning2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Prompt Orchestration Markup Language이 논문은 대규모 언어 모델(LLM) 프롬프트의 구조화, 데이터 통합, 형식 민감성 및 개발 도구의 부족이라는 현재의 과제를 해결하고자 합니다.#Review#Prompt Engineering#Large Language Models#Markup Language#Structured Prompting#IDE Support#Multimodal Data#Styling System#Development Toolkit2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Leveraging Large Language Models for Predictive Analysis of Human Misery본 연구는 자연어 시나리오 설명으로부터 인간이 인지하는 불행 점수를 예측하는 것을 목표로 합니다. 이는 0에서 100까지의 척도 를 사용하는 회귀 문제로, 대규모 언어 모델(LLM)의 주관적인 감정 추론 능력과 피드백 기반 적응성을 평가하고자 합니다.#Review#Large Language Models (LLMs)#Affective Computing#Misery Score Prediction#Prompt Engineering#Few-shot Learning#Gamified Evaluation#Feedback-driven Adaptation2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Democratizing Diplomacy: A Harness for Evaluating Any Large Language Model on Full-Press Diplomacy본 연구는 복잡한 전략적 추론 능력 을 요구하는 외교(Diplomacy) 게임에서 LLM을 평가하는 기존 방식의 높은 복잡성과 한계를 해결하고자 합니다.#Review#Large Language Models#Diplomacy Game#Multi-agent Systems#Strategic Reasoning#LLM Evaluation#Prompt Engineering#Behavioral Analysis#Game AI2025년 8월 13일댓글 수 로딩 중
[논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems이 논문은 대규모 언어 모델(LLMs) 기반 AI 에이전트의 정적인 구성 한계 를 극복하고, 동적이고 진화하는 환경에 적응할 수 있는 자기 진화(Self-Evolving) 및 평생 학습(Lifelong Learning) 에이전트 시스템 패러다임을 종합적으로 조망하는 것을 목표로 합니다.#Review#Self-Evolving AI Agents#Lifelong Learning#Foundation Models#Multi-Agent Systems#Agent Optimization#Prompt Engineering#Tool Use#AI Safety#Survey2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation텍스트-3D(T23D) 생성 과정에서 발생하는 '블라인드 시행착오' 프롬프트 문제와 그로 인한 예측 불가능한 결과 및 비효율적인 워크플로우를 해결하는 것이 주 목표입니다.#Review#Text-to-3D Generation#Prompt Engineering#Visual Analytics#Human-Computer Interaction#Multi-modal Large Language Models#3D Model Evaluation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding본 논문은 기존 특허 텍스트 임베딩 벤치마크가 특허 고유의 복잡한 특징(긴 문서, 비대칭 매칭, 도메인 간 이해)을 충분히 반영하지 못하는 문제를 해결합니다.#Review#Patent Text Embedding#Benchmark#Multi-task Learning#Patent Retrieval#Sentence Embeddings#Knowledge Distillation#Cross-Domain Retrieval#Prompt Engineering2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Deflanderization for Game Dialogue: Balancing Character Authenticity with Task Execution in LLM-based NPCsLLM 기반 비플레이어 캐릭터(NPC)가 게임 내에서 기능적 작업 실행과 페르소나 일관성 있는 대화 생성을 동시에 수행할 때 발생하는 'Flanderization' (과도한 역할극) 문제를 해결하는 것을 목표로 합니다. 이를 통해 캐릭터의 진정성 과 작업 실행의 정확성 사이의 균형을 효과적으로 맞추는 방안을 모색합니다.#Review#LLM#NPC#Game Dialogue#Persona-Grounded Dialogue#Task Execution#Prompt Engineering#Fine-tuning#Deflanderization2025년 10월 16일댓글 수 로딩 중
[논문리뷰] LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens대규모 추론 모델(LRM)의 '사고 토큰' 생성이 기계 번역(MT) 성능에 미치는 영향을 탐구하고, 표준 CoT 증류 방식과 MT 특정 모듈식 프롬프트 전략을 비교하여 어떤 형태의 중간 정보가 MT에 유익한지 밝히는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Machine Translation (MT)#Chain-of-Thought (CoT)#Knowledge Distillation#Fine-tuning#Prompt Engineering#Synthetic Data2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Temporal Prompting Matters: Rethinking Referring Video Object Segmentation논문은 Referring Video Object Segmentation (RVOS) 의 높은 계산 비용과 확장성 문제를 해결하고자 합니다.#Review#Referring Video Object Segmentation#Foundation Models#Prompt Engineering#Object Tracking#SAM#Video Analysis#Prompt Preference Learning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs본 논문은 기존 프롬프트 최적화 방법론이 텍스트 모달리티에만 국한되어 Multimodal Large Language Models (MLLMs) 의 잠재력을 완전히 활용하지 못하는 한계를 해결하고자 합니다.#Review#Multimodal AI#Prompt Optimization#MLLMs#Bayesian Optimization#Cross-modal Alignment#Prompt Engineering#Generative AI#Exploration-Exploitation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks본 연구는 기존 벤치마크들이 산점도(scatterplot) 관련 태스크를 충분히 다루지 못하여 AI 모델의 성능을 평가하는 데 한계가 있다는 문제점을 해결하고자 합니다.#Review#Scatterplot Analysis#AI Benchmarking#Multimodal LLMs#Synthetic Data Generation#Cluster Detection#Outlier Detection#Data Visualization#Prompt Engineering2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models이 논문은 기존 대규모 언어 모델(LLM)의 컨텍스트 적응 방법론이 가지는 '간결성 편향(brevity bias)'과 '컨텍스트 붕괴(context collapse)' 문제를 해결하는 것을 목표로 합니다.#Review#LLM Context Adaptation#Agentic AI#Self-Improving Systems#Prompt Engineering#Context Management#Dynamic Playbooks#Incremental Learning2025년 10월 7일댓글 수 로딩 중
[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases이 논문은 대규모 언어 모델(LLMs)이 테스트 케이스를 '악용'하여 작업을 완수하는 경향, 즉 리워드 해킹(reward hacking) 을 체계적으로 측정하고 이해하는 프레임워크인 ImpossibleBench 를 소개합니다.#Review#LLM Evaluation#Reward Hacking#Benchmark Reliability#Test Exploitation#Prompt Engineering#LLM Safety#Code Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing본 논문은 대규모, 고품질, 공개적으로 접근 가능한 텍스트 기반 이미지 편집 데이터셋의 부족으로 인해 제한되었던 연구 발전을 해소하는 것을 목표로 합니다. 실제 이미지를 기반으로 한 포괄적이고 다양한 데이터셋을 제공하여 차세대 텍스트 기반 이미지 편집 모델의 훈련 및 벤치마킹을 위한 견고한 기반을 구축하고자 합니다.#Review#Text-Guided Image Editing#Large-Scale Dataset#Multimodal Models#Dataset Curation#Quality Control#Prompt Engineering#Preference Learning#Multi-Turn Editing2025년 10월 23일댓글 수 로딩 중
[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.#Review#Text-to-Image Generation#Semantic Evaluation#Benchmark#Multilingual Evaluation#Fine-grained Assessment#Large Language Models#Model Evaluation#Prompt Engineering2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs본 논문은 기존 파인튜닝(fine-tuning) 및 활성화 조종(activation steering)에서 관찰된 ' emergent misalignment (EM)' 현상이 인컨텍스트 학습(In-Context Learning, ICL) 환경에서도 발생하는지 여부를 탐구합니다.#Review#Emergent Misalignment#In-Context Learning#LLM Safety#Persona Rationalization#Prompt Engineering#Model Alignment2025년 10월 20일댓글 수 로딩 중
[논문리뷰] ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models논문은 다중 턴 대화에서 Large Language Models (LLMs) 의 성능이 저하되는 문제를 해결하는 것을 목표로 합니다. 특히, 정보가 점진적으로 주어질 때 LLM이 대화 맥락을 '잃어버려' 발생하는 정확도 감소 및 신뢰성 하락을 개선하고자 합니다.#Review#Multi-turn Conversation#Large Language Models (LLMs)#Context Management#Entropy-guided Resetting#Uncertainty Quantification#Performance Degradation#Prompt Engineering#Conversational AI2025년 10월 20일댓글 수 로딩 중
[논문리뷰] BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses본 연구는 대규모 언어 모델(LLM)의 편향 완화(bias mitigation) 기법들에 대한 기존 연구들의 일관성 없는 평가 방식 과 모델 내부 확률에 기반한 평가와 실제 사용자 응답 간의 격차 를 해결하고자 합니다.#Review#LLM Bias Mitigation#Benchmark#Evaluation Metrics#Prompt Engineering#Fine-tuning#Bias-Free Score#Fairness2025년 10월 2일댓글 수 로딩 중