Review

[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?

본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.

#Review #LLM #LLM Agents #Academic Survey Generation #Evaluation Framework #Benchmark #Quiz-driven Evaluation #Content Quality Metrics

2025년 10월 6일

[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

본 연구는 전 세계적으로 척추 질환 유병률이 높음에도 불구하고, 레벨 인식 멀티모달 데이터셋 과 표준화된 척추 특정 벤치마크 의 부족으로 AI 기반 진단 발전이 제한되는 문제를 해결하고자 합니다.

#Review #Medical AI #Spine Diagnosis #Multimodal LLM #Benchmark #Dataset #Clinical Reasoning #Spine Surgery #Vision-Language Model

2025년 10월 6일

[논문리뷰] Self-Improvement in Multimodal Large Language Models: A Survey

이 논문은 Multimodal Large Language Models (MLLMs)의 자기 개선(self-improvement) 분야에 대한 최초의 포괄적인 개요를 제공하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Self-Improvement #Data Collection #Data Organization #Model Optimization #Survey #Reinforcement Learning #Direct Preference Optimization

2025년 10월 6일

[논문리뷰] Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces

본 논문은 대규모 언어 모델(LLM)이 인간 전문가처럼 정책 준수 여부를 평가하는 데 필요한 체계적인 추론 과정을 모방하는 능력을 향상시키는 것을 목표로 합니다.

#Review #Policy Compliance #Large Language Models (LLMs)#Reasoning Traces #In-Context Learning (ICL)#Supervised Finetuning (SFT)#HIPAA #GDPR #ModelSpec

2025년 10월 6일

[논문리뷰] REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration

본 논문은 대규모 언어 모델(LLMs)의 사후 훈련 과정에서 발생하는 높은 비용, 의도치 않은 부작용, 순차적 편집의 불안정성 및 제한된 일반화 문제들을 해결하고자 합니다.

#Review #Model Editing #Lifelong Learning #LLMs #Continual Learning #Knowledge Distillation #Error Feedback #Memory Management #Parameter Merging

2025년 10월 6일

[논문리뷰] OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features

본 논문은 기존 Sparse Autoencoders (SAEs)가 겪는 피쳐 흡수(feature absorption) 및 피쳐 구성(feature composition) 문제를 해결하여, LLM 내부 활성화에서 추출되는 피쳐의 해석 가능성과 원자성을 높이는 것을 목표로 합니다.

#Review #Sparse Autoencoders #Mechanistic Interpretability #Feature Disentanglement #Orthogonality #LLM Features #Feature Absorption #Feature Composition

2025년 10월 6일

[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving

본 논문은 자율주행 시나리오에서 기존 Vision Language Models (VLMs)이 정성적 판단에 그치고 정량적 시공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Visual Question Answering (VQA)#Autonomous Driving #Risk Assessment #Spatio-Temporal Reasoning #Large Vision Models (VLMs)#Dataset #Bird-Eye-View (BEV)#Fine-tuning

2025년 10월 6일

[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning

대규모 언어 모델(LLM) 추론 태스크에서 RLVR (Reinforcement Learning with Verifiable Rewards) 훈련의 효율성을 넘어, 최종 모델의 효과성(정확도)을 개선하는 것을 목표로 합니다.

#Review #LLM Reasoning #RLVR #Dynamic Sampling #Policy Optimization #Response Length #Meta-RL #Overthinking

2025년 10월 6일

[논문리뷰] LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

본 논문은 제한된 레이블 데이터와 풍부한 비레이블 이미지를 활용하여 Multimodal Large Language Models (MLLMs) 가 의료 영상이나 기술 콘텐츠와 같은 Out-of-Distribution (OOD) 특화 도메인 의 시각 질의응답 (VQA) 태스크에 효율적으로 적응하도록 하는 것을 목표로 합니다.

#Review #Multimodal LLM #OOD Adaptation #Label Efficiency #VQA #Semi-Supervised Learning #Neuron Distillation #Pseudo Labeling #Medical Imaging

2025년 10월 6일

[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.

#Review #GUI Grounding #Vision-Language Models #Positional Embedding #UI Automation #Coordinate Prediction #Resolution Generalization #Transformer Architecture

2025년 10월 6일

[논문리뷰] How Confident are Video Models? Empowering Video Models to Express their Uncertainty

비디오 생성 모델이 텍스트 프롬프트에 기반하여 부정확하거나 사실과 다른(hallucinate) 비디오를 생성할 때, 그 예측에 대한 불확실성을 표현하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Uncertainty Quantification #Aleatoric Uncertainty #Epistemic Uncertainty #Model Calibration #Text-to-Video #Generative AI #VMF Distribution

2025년 10월 6일

[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs

본 연구는 확산 기반 Text-to-Image (T2I) 모델의 텍스트-이미지 정렬(alignment)을 개선하는 것을 목표로 합니다.

#Review #Text-to-Image Models #Diffusion Models #Preference Optimization #LLMs #RLHF #Prompt Editing #Free Lunch Alignment #TDPO #TKTO

2025년 10월 6일

[논문리뷰] FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents

대규모 언어 모델(LLM) 기반 웹 에이전트가 긴 웹 페이지 관찰(수만 개의 토큰)로 인해 발생하는 컨텍스트 한계, 높은 계산 비용, 그리고 프롬프트 주입 공격과 같은 보안 위험을 해결하는 것을 목표로 합니다.

#Review #Web Agents #LLM Context Pruning #Accessibility Tree #Prompt Injection #Retrieval Augmented Generation #Web Navigation #Agent Security #Efficient LLM

2025년 10월 6일

[논문리뷰] Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

본 논문은 멀티모달 대규모 언어 모델(MLLMs)에서 시각 토큰이 소모하는 막대한 계산 자원으로 인한 효율성 저하 문제를 해결하고자 합니다. 특히, 시각 토큰 압축 과정에서 발생하는 학습 난이도 증가 와 특징 공간 교란 문제를 해결하여, 효율성을 높이면서도 성능 저하를 최소화하는 것을 목표로 합니다.

#Review #Multi-modal LLMs #Token Compression #Efficiency #Knowledge Distillation #Progressive Learning #Consistency Distillation #MLLM Training

2025년 10월 6일

[논문리뷰] DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern

본 논문은 확산형 대규모 언어 모델(dLLM)을 이용한 단위 테스트 생성(UTG) 과정에서 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Unit Test Generation #Acceleration #Repetitive Patterns #Abstract Syntax Tree #Software Testing #Code Generation

2025년 10월 6일

[논문리뷰] Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

본 논문의 핵심 목표는 추가적인 모델 훈련 없이 확산(diffusion) 또는 플로우(flow) 기반 로봇 정책의 성능을 향상시키는 것입니다.

#Review #Diffusion Models #Flow-based Models #Robotics Control #Policy Composition #Test-time Optimization #Score-based Models #Training-free

2025년 10월 6일

[논문리뷰] CoDA: Agentic Systems for Collaborative Data Visualization

본 논문은 복잡한 데이터셋, 반복적인 개선, 코드 오류 및 최종 시각화 품질 문제로 인해 기존 시스템이 어려움을 겪는 자연어 기반 데이터 시각화 자동화의 한계를 해결하는 것을 목표로 합니다.

#Review #Multi-agent Systems #Data Visualization #LLM #Automation #Self-reflection #Code Generation #Natural Language to Visualization

2025년 10월 6일

[논문리뷰] Apriel-1.5-15b-Thinker

본 연구는 대규모 언어 모델(LLM)의 성능과 접근성 사이의 근본적인 한계를 극복하고, 150억 개 파라미터 의 비교적 작은 오픈-웨이트 모델인 Apriel-1.5-15B-Thinker 가 순수한 규모 대신 훈련 디자인 을 통해 최첨단 멀티모달 추론 성능을 달성하는 것을 목표로 합니다.

#Review #Multimodal Reasoning Model #Open-Weights Model #Continual Pretraining (CPT)#Supervised Fine-Tuning (SFT)#Training Design #Efficiency #Frontier Performance

2025년 10월 6일

[논문리뷰] Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents

본 연구는 Consistency Models (CMs) 의 느린 수렴 문제와 높은 배치 사이즈 요구 사항을 해결하는 것을 목표로 합니다.

#Review #Consistency Models #Generative Models #Manifold Learning #Tangent Alignment #Diffusion Models #Training Dynamics #Manifold Feature Distance

2025년 10월 6일

[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #LLM Agents #Text-based Environments #Reward Shaping #Policy Optimization #Supervised Fine-tuning (SFT)#Generalization #Environment Complexity

2025년 10월 6일