Review

[논문리뷰] RubricBench: Aligning Model-Generated Rubrics with Human Standards

본 논문은 최신 대규모 언어 모델(LLM) 의 복잡한 생성물에 대한 평가에서 표면적인 편향 을 완화하고 인간의 의도를 정확히 반영하기 위해 루브릭 기반 평가 의 신뢰성을 평가하는 통일된 벤치마크가 부족하다는 문제를 해결합니다.

#Review #LLM Evaluation #Reward Models #Rubric-Guided Evaluation #Benchmarks #Model Alignment #Human Standards #Cognitive Misalignment

2026년 3월 2일

[논문리뷰] Recursive Think-Answer Process for LLMs and VLMs

현재 Think-Answer 모델 들은 단일 패스(single-pass) 추론에 의존하여 'Oops!'와 같은 불확실성 신호를 보여도 자체 수정을 수행하지 못하고 오류에 취약합니다.

#Review #LLMs #VLMs #Reasoning #Self-Correction #Reinforcement Learning #Confidence Estimation #Iterative Refinement #Think-Answer

2026년 3월 2일

[논문리뷰] Reasoning Core: A Scalable Procedural Data Generation Suite for Symbolic Pre-training and Post-Training

이 논문은 대규모 언어 모델(LLM)의 추론 능력 확장을 위해 기존 생성 방식의 분포적 다양성 부족 문제를 해결하고자 합니다.

#Review #Procedural Data Generation #Symbolic Reasoning #Language Model Pre-training #Reinforcement Learning with Verifiable Rewards #Formal Logic #PDDL Planning #Context-Free Grammars

2026년 3월 2일

[논문리뷰] OpenAutoNLU: Open Source AutoML Library for NLU

OpenAutoNLU는 텍스트 분류 및 NER(Named Entity Recognition)을 포함한 NLU(Natural Language Understanding) 태스크를 위한 오픈 소스 AutoML 라이브러리 를 개발하는 것을 목표로 합니다.

#Review #AutoML #Natural Language Understanding #Text Classification #Named Entity Recognition #Out-of-Distribution Detection #Few-Shot Learning #Data Quality #Low-Code API

2026년 3월 2일

[논문리뷰] OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

이 논문은 편집 용이성, 플랫폼 호환성, 해상도 독립성이 부족한 기존 래스터 비디오 애니메이션 생성 방식의 한계를 극복하고자 합니다.

#Review #Vector Animation Generation #Lottie #Multimodal Instructions #Tokenizer #Vision-Language Models #Generative AI #Dataset

2026년 3월 2일

[논문리뷰] MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

본 논문은 실생활 시나리오에서 멀티모달 대규모 언어 모델(MLLM) 의 다양한 다중 이미지 추론 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Multi-Image Analysis #Real-life Scenarios #Benchmark #MLLMs Evaluation #Chain-of-Thought #Reasoning Types

2026년 3월 2일

[논문리뷰] Legal RAG Bench: an end-to-end benchmark for legal RAG

법률 RAG 시스템의 종단 간(end-to-end) 성능을 평가하기 위한 고품질 벤치마크 및 평가 방법론이 부족하다는 문제점을 해결하고자 합니다.

#Review #Retrieval-Augmented Generation (RAG)#Legal AI #Benchmark #Evaluation Methodology #Embedding Models #Large Language Models (LLMs)#Error Decomposition #Information Retrieval

2026년 3월 2일

[논문리뷰] Learn Hard Problems During RL with Reference Guided Fine-tuning

이 논문은 수학적 추론을 위한 강화 학습(RL)에서 발생하는 보상 희소성(reward sparsity) 문제를 해결하는 것을 목표로 합니다. 특히, 대규모 언어 모델(LLM)이 어려운 문제에 대한 정확한 추론 궤적을 생성하지 못하여 유의미한 보상 신호를 받지 못하는 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Reward Sparsity #Fine-tuning #Large Language Models #Reference-Guided Learning #DAPO

2026년 3월 2일

[논문리뷰] LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval

본 논문은 강력한 추론 능력을 가진 LLM 기반 dense retriever 가 복잡한 쿼리에 대해 높은 지연 시간 없이 추론 능력을 활용하지 못하는 문제를 해결하고자 합니다.

#Review #Dense Retrieval #LLMs #Reasoning #Knowledge Distillation #Latent Space #Self-Distillation #Chain-of-Thought

2026년 3월 2일

[논문리뷰] LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

본 논문은 멀티모달 이해 및 생성 분야에서 확산 언어 모델의 잠재력을 탐구하며, 텍스트와 이미지라는 근본적으로 다른 확산 역학을 통합하는 데 따르는 비효율성과 고정된 출력 길이의 한계를 해결하고자 합니다.

#Review #Omni Diffusion Model #Multimodal AI #Length Adaptation #Mixture of Diffusion #Discrete Diffusion #Continuous Diffusion #Text-to-Image Generation

2026년 3월 2일

[논문리뷰] Half-Truths Break Similarity-Based Retrieval

본 논문은 CLIP-스타일 이중 인코더 가 '하프 트루스(half-truths)'에 취약하여, 이미지에 대해 정확하지만 짧은 설명보다 그럴듯하지만 오류가 추가된 긴 설명(half-truth) 에 더 높은 유사도를 부여하는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #CLIP #Compositional Reasoning #Image-Text Retrieval #Fine-tuning #Hard Negatives #Unit-level Supervision #Half-Truths

2026년 3월 2일

[논문리뷰] From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

본 논문은 이미지 편집 작업의 고유한 특성(목표 지향적, 소스 이미지 및 지침에 의한 제약)을 고려하여, 기존 텍스트-투-이미지(T2I) 중심의 Image Chain-of-Thought (Image-CoT) 방법론의 비효율성을 해결 하는 것을 목표로 합니다.

#Review #Image Editing #Test-Time Scaling #Chain-of-Thought #Diffusion Models #Adaptive Resource Allocation #Edit-Specific Verification #Opportunistic Stopping

2026년 3월 2일

[논문리뷰] Efficient RLVR Training via Weighted Mutual Information Data Selection

본 논문은 대규모 언어 모델(LLMs)의 강화 학습(RL) 훈련 과정에서 발생하는 데이터 선택의 비효율성 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Data Selection #Mutual Information #Epistemic Uncertainty #LLMs #RLVR #Training Efficiency

2026년 3월 2일

[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

본 논문은 실제 사용자 요구가 복잡하고 모호함에도 불구하고, 에이전트가 정확한 도구 실행을 통해 이를 충족해야 하는 다중 턴 대화형 도구 사용 에이전트 개발의 근본적인 과제를 해결하고자 합니다.

#Review #Tool-Use Agents #Multi-turn Interaction #Data Synthesis #Constraint-Guided Verification #Large Language Models #Supervised Fine-tuning #Reinforcement Learning

2026년 3월 2일

[논문리뷰] CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

본 논문은 Instagram, WhatsApp, Messenger와 같은 프로덕션 환경의 소셜 챗 애플리케이션에서 LLM 의 사용자 참여도와 조종성(steerability)을 반복적으로 개선하는 CharacterFlywheel 이라는 이터레이션 프로세스를 제시합니다.

#Review #LLM #Social Chat #Engagement Optimization #Steerability #Reinforcement Learning #Reward Modeling #A/B Testing #Iterative Development

2026년 3월 2일

[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

본 논문은 LLM의 추론 후속 훈련 과정에서 발생하는 콜드 스타트 문제, 제한된 도메인 커버리지, 주석 병목 현상 이라는 세 가지 핵심 데이터 관련 문제를 해결하는 것을 목표로 합니다. 특히, 인간 주석 없이 컴팩트하면서도 일반화 가능한 고품질 합성 추론 데이터셋 을 구축하여 이 문제를 해결하고자 합니다.

#Review #Synthetic Data #LLM Reasoning #Chain-of-Thought #Data Efficiency #Post-training #Generalization #Quality Control #Domain Coverage

2026년 3월 2일

[논문리뷰] dLLM: Simple Diffusion Language Modeling

이 논문은 확산 언어 모델(DLM) 의 훈련, 추론, 평가를 아우르는 통합된 오픈소스 프레임워크인 dLLM 을 제공하는 것을 목표로 합니다. DLM 연구의 진입 장벽을 낮추고, 기존 모델의 재현, 파인튜닝, 비교를 용이하게 하며, 새로운 DLM 설계 통합을 단순화하고자 합니다.

#Review #Diffusion Language Models #Open-source Framework #Modular Design #Masked Diffusion #Block Diffusion #Language Model Finetuning #Efficient Inference #Evaluation Pipeline

2026년 3월 1일

[논문리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

LLM 기반 생성형 검색(Generative Retrieval)은 추천 시스템의 강력한 패러다임이지만, 산업 환경에서 요구되는 출력 공간 제약(constrained output space) 을 기본 자기회귀 디코딩(autoregressive decoding) 이 지원하지 못하는 문제가 있습니다.

#Review #Generative Retrieval #Constrained Decoding #Trie #Sparse Matrix #TPU #GPU #Recommendation Systems #LLM

2026년 3월 1일

[논문리뷰] SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

확산 모델의 추론 과정을 가속화하는 것이 목표입니다. 특히, 기존의 휴리스틱 기반 캐싱 방법들이 가진 이론적 근거 부족과 정적 캐싱 스케줄의 한계를 극복하고, 모델 출력 품질을 유지하면서 계산 비용을 줄일 수 있는 원칙적인(principled) 민감도 기반 캐싱 프레임워크 를 제안합니다.

#Review #Diffusion Models #Inference Acceleration #Caching #Sensitivity Analysis #Dynamic Caching #Video Generation #Denoising

2026년 3월 1일

[논문리뷰] Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

본 연구는 기존 참조 표현 이해(REC) 벤치마크( RefCOCO/+/g )가 짧은 표현, 적은 방해물, 중복 설명으로 인한 grounding shortcut 등으로 MLLM 의 진정한 시각적 추론 및 접지 능력을 제대로 평가하지 못한다는 문제점을 해결하고자 합니다.

#Review #Referring Expression Comprehension #MLLM #Visual Reasoning #Benchmark Dataset #Hard Distractors #Grounding Shortcuts #Chain-of-Thought #Negation

2026년 3월 1일