Review

[논문리뷰] Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation

본 논문은 대규모 언어 모델(LLM)을 요약 평가 심사관으로 활용할 때 발생하는 overlap bias 를 심층적으로 분석하는 것을 목표로 합니다.

#Review #LLM-as-a-judge #Summarization Evaluation #Overlap Bias #Position Bias #N-gram Metrics #Gemma #Llama #Evaluation Bias

2026년 2월 16일

[논문리뷰] BitDance: Scaling Autoregressive Generative Models with Binary Tokens

본 논문은 기존 Autoregressive (AR) 모델의 제한된 토큰 표현력과 비효율적인 샘플링 문제를 해결하여, 고품질 이미지 생성을 위한 확장 가능한 AR 프레임워크인 BitDance 를 제안합니다.

#Review #Autoregressive Models #Binary Tokens #Diffusion Head #Image Generation #Tokenizer #Parallel Prediction #High-Resolution

2026년 2월 16일

[논문리뷰] Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

이 연구는 Retrieval-Augmented Generation (RAG) 시스템에서 발생하는 지식 추출 공격(Knowledge Extraction Attack) 으로 인한 민감 정보 유출 및 지적 재산권 침해 문제를 해결하고자 합니다.

#Review #RAG Security #Knowledge Extraction Attack #Benchmarking #Privacy Leakage #Defense Mechanisms #Large Language Models #Retrieval Augmented Generation

2026년 2월 16일

[논문리뷰] Acoustivision Pro: An Open-Source Interactive Platform for Room Impulse Response Analysis and Acoustic Characterization

이 논문은 전문적인 룸 음향 분석(Room Acoustics Analysis) 도구의 높은 비용과 기술적 복잡성을 해결하고자 합니다.

#Review #Room Acoustics #Room Impulse Response #Acoustic Analysis #Open-Source Platform #Web Application #Data Visualization #Acoustic Metrics #Standards Compliance

2026년 2월 16일

[논문리뷰] AIDev: Studying AI Coding Agents on GitHub

AI 코딩 에이전트가 실제 소프트웨어 프로젝트에서 어떻게 활용되는지에 대한 포괄적인 데이터셋의 부재를 해결하는 것이 이 연구의 핵심 목표입니다. AIDev 라는 대규모 데이터셋을 구축하여 AI 도입, 개발자 생산성, 그리고 인간-AI 협업이라는 새로운 소프트웨어 엔지니어링 시대의 연구를 위한 기반을 마련하고자 합니다.

#Review #AI Coding Agents #GitHub Data #Software Engineering #Pull Request Analysis #Human-AI Collaboration #Developer Productivity #Large Language Models

2026년 2월 16일

[논문리뷰] A Critical Look at Targeted Instruction Selection: Disentangling What Matters (and What Doesn't)

대규모 언어 모델(LLMs)의 표적 명령어 선택(targeted instruction selection) 연구 분야가 파편화되어 있고 명확한 지침이 부족하다는 문제점을 해결하고자 합니다.

#Review #Instruction Tuning #Data Selection #Large Language Models (LLMs)#Gradient-based Representations #Optimal Transport #Generalization Bounds #Data Representation

2026년 2월 16일

[논문리뷰] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

논문은 멀티모달 대규모 언어 모델(MLLMs)이 미세한 시각 정보를 인식하는 데 겪는 어려움, 즉 전역적 컨텍스트에 의해 중요한 세부 정보가 가려지는 문제를 해결하고자 합니다.

#Review #Multimodal Perception #Fine-Grained Analysis #Knowledge Distillation #Region-to-Image #MLLMs #ZoomBench #Reinforcement Learning

2026년 2월 15일

[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Real-Time Robotics #Diffusion Transformer #Flow Matching #Asynchronous Execution #Robot Manipulation #Pre-training #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

본 논문은 시각적 추론을 위한 Vision-Language Model (VLM)에서 강화 학습(RL)이 실제로 어떤 능력을 향상시키는지에 대한 모호함을 해결하고자 합니다.

#Review #Reinforcement Learning #Visual Reasoning #Vision-Language Models #Causal Probing #Model Merging #Parameter Analysis #Transformer Layers #Functional Localization

2026년 2월 15일

[논문리뷰] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

이 연구는 기존 비디오-명령어 데이터가 불완전하고 세분화된 정보 및 신뢰성 있는 주석이 부족하여 범용적인 비디오 이해 MLLM 의 성능을 제약하는 문제를 해결하고자 합니다.

#Review #Video Understanding #Multimodal Large Language Models (MLLMs)#Instruction Tuning #Data Curation #Attribute-Structured Data #Quality Verification #Temporal Grounding #Video Captioning

2026년 2월 15일

[논문리뷰] Self-EvolveRec: Self-Evolving Recommender Systems with LLM-based Directional Feedback

기존 추천 시스템 코드 진화 프레임워크들이 스칼라 지표(NDCG, Hit Ratio)에만 의존하여 진단적 통찰력을 제공하지 못하고, 고정된 검색 공간에 갇혀 혁신을 제한한다는 문제를 해결하고자 합니다.

#Review #Recommender System #LLM-based Code Evolution #Directional Feedback #User Simulator #Model Diagnosis Tool #Agentic AI #AutoML

2026년 2월 15일

[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #LLM Agents #Tool-use #Scientific Reasoning #Benchmarking #Interactive Environment #Data Synthesis #Error Recovery #Multi-step Tasks

2026년 2월 15일

[논문리뷰] RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

본 논문은 Vision-Language-Action (VLA) 모델 훈련 시, 시뮬레이션을 정적 데이터 소스로만 활용하고 폐쇄 루프 인터랙션을 충분히 활용하지 못하는 기존 Supervised Fine-Tuning (SFT) 기반 sim-real co-training의 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Sim-to-Real #Co-training #VLA Models #Robotic Manipulation #Supervised Fine-tuning #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

본 논문은 현대 비전 아키텍처가 시각 신호의 본질적인 중복성과 변별 정보의 희소성을 효율적으로 다루지 못한다는 문제의식에서 출발합니다.

#Review #Multimodal AI #Video Understanding #Sparse Attention #Vision Transformer #Codec-Aligned Processing #Self-Supervised Learning #Predictive Coding #Efficient AI

2026년 2월 15일

[논문리뷰] On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

본 논문은 강화 학습(RL)으로 파인튜닝된 비전 언어 모델(VLM) 의 강건성(robustness) 및 사고 과정(Chain-of-Thought, CoT) 일관성 을 평가하는 것을 목표로 합니다.

#Review #VLM #RL Fine-tuning #Chain-of-Thought #Robustness #Faithfulness #Textual Perturbations #Visual Grounding #Uncertainty Calibration

2026년 2월 15일

[논문리뷰] MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

본 논문은 실세계 임상 애플리케이션에서 일반 목적의 의료 이해 및 추론을 발전시키기 위한 MedXIAOHE 라는 의료 비전-언어 파운데이션 모델을 제안합니다.

#Review #Medical LLMs #Multimodal Foundation Models #Continual Pre-training #Entity-Aware Learning #Reinforcement Learning #Medical Diagnosis #Instruction Following #Unified Benchmarking

2026년 2월 15일

[논문리뷰] Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

대규모 언어 모델(LLM)의 후처리 훈련에서 데이터 다양성이 중요함에도 불구하고, 기존 텍스트 기반 또는 일반 임베딩 기반 다양성 지표는 태스크 관련 특징을 제대로 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Data Synthesis #LLMs #Feature Space #Sparse Autoencoders #Diversity Metrics #Post-Training #Instruction Tuning #Feature Activation Coverage

2026년 2월 15일

[논문리뷰] Learning Image-based Tree Crown Segmentation from Enhanced Lidar-based Pseudo-labels

본 연구는 항공 이미지에서 나무 수관을 자동으로 분할하고 구분하는 데 있어 텍스처 및 부분적 겹침으로 인한 어려움을 해결하고자 합니다.

#Review #Instance Segmentation #Tree Crown Delineation #Remote Sensing #Lidar Data #Multispectral Imagery #Pseudo-labeling #Segment Anything Model (SAM)#Deep Learning

2026년 2월 15일

[논문리뷰] Intelligent AI Delegation

본 논문은 기존 AI 태스크 분해 및 위임 방식의 한계(단순한 휴리스틱, 환경 변화에 대한 취약성)를 극복하고자 합니다.

#Review #AI Delegation #Multi-agent Systems #Task Decomposition #Agentic AI #Trust & Safety #LLM #Adaptive Coordination

2026년 2월 15일

[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

기존 VLLM 기반 지리 위치 추정(geolocation) 모델이 AI 생성 CoT 데이터의 불완전성, 비합리적인 학습 전략, 지역적 편향, 그리고 미세한 위치 주석 부족으로 인해 겪는 한계를 해결하고자 합니다.

#Review #Geolocation #Reinforcement Learning #Vision-Language Models #Chain-of-Thought #Geospatial AI #Dataset #Reward Function

2026년 2월 15일