[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.#Review#LLM#LLM Agents#Academic Survey Generation#Evaluation Framework#Benchmark#Quiz-driven Evaluation#Content Quality Metrics2025년 10월 6일댓글 수 로딩 중
[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus본 연구는 전 세계적으로 척추 질환 유병률이 높음에도 불구하고, 레벨 인식 멀티모달 데이터셋 과 표준화된 척추 특정 벤치마크 의 부족으로 AI 기반 진단 발전이 제한되는 문제를 해결하고자 합니다.#Review#Medical AI#Spine Diagnosis#Multimodal LLM#Benchmark#Dataset#Clinical Reasoning#Spine Surgery#Vision-Language Model2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Self-Improvement in Multimodal Large Language Models: A Survey이 논문은 Multimodal Large Language Models (MLLMs)의 자기 개선(self-improvement) 분야에 대한 최초의 포괄적인 개요를 제공하는 것을 목표로 합니다.#Review#Multimodal Large Language Models (MLLMs)#Self-Improvement#Data Collection#Data Organization#Model Optimization#Survey#Reinforcement Learning#Direct Preference Optimization2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces본 논문은 대규모 언어 모델(LLM)이 인간 전문가처럼 정책 준수 여부를 평가하는 데 필요한 체계적인 추론 과정을 모방하는 능력을 향상시키는 것을 목표로 합니다.#Review#Policy Compliance#Large Language Models (LLMs)#Reasoning Traces#In-Context Learning (ICL)#Supervised Finetuning (SFT)#HIPAA#GDPR#ModelSpec2025년 10월 6일댓글 수 로딩 중
[논문리뷰] REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration본 논문은 대규모 언어 모델(LLMs)의 사후 훈련 과정에서 발생하는 높은 비용, 의도치 않은 부작용, 순차적 편집의 불안정성 및 제한된 일반화 문제들을 해결하고자 합니다.#Review#Model Editing#Lifelong Learning#LLMs#Continual Learning#Knowledge Distillation#Error Feedback#Memory Management#Parameter Merging2025년 10월 6일댓글 수 로딩 중
[논문리뷰] OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features본 논문은 기존 Sparse Autoencoders (SAEs)가 겪는 피쳐 흡수(feature absorption) 및 피쳐 구성(feature composition) 문제를 해결하여, LLM 내부 활성화에서 추출되는 피쳐의 해석 가능성과 원자성을 높이는 것을 목표로 합니다.#Review#Sparse Autoencoders#Mechanistic Interpretability#Feature Disentanglement#Orthogonality#LLM Features#Feature Absorption#Feature Composition2025년 10월 6일댓글 수 로딩 중
[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving본 논문은 자율주행 시나리오에서 기존 Vision Language Models (VLMs)이 정성적 판단에 그치고 정량적 시공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Visual Question Answering (VQA)#Autonomous Driving#Risk Assessment#Spatio-Temporal Reasoning#Large Vision Models (VLMs)#Dataset#Bird-Eye-View (BEV)#Fine-tuning2025년 10월 6일댓글 수 로딩 중
[논문리뷰] LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning대규모 언어 모델(LLM) 추론 태스크에서 RLVR (Reinforcement Learning with Verifiable Rewards) 훈련의 효율성을 넘어, 최종 모델의 효과성(정확도)을 개선하는 것을 목표로 합니다.#Review#LLM Reasoning#RLVR#Dynamic Sampling#Policy Optimization#Response Length#Meta-RL#Overthinking2025년 10월 6일댓글 수 로딩 중
[논문리뷰] LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models본 논문은 제한된 레이블 데이터와 풍부한 비레이블 이미지를 활용하여 Multimodal Large Language Models (MLLMs) 가 의료 영상이나 기술 콘텐츠와 같은 Out-of-Distribution (OOD) 특화 도메인 의 시각 질의응답 (VQA) 태스크에 효율적으로 적응하도록 하는 것을 목표로 합니다.#Review#Multimodal LLM#OOD Adaptation#Label Efficiency#VQA#Semi-Supervised Learning#Neuron Distillation#Pseudo Labeling#Medical Imaging2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.#Review#GUI Grounding#Vision-Language Models#Positional Embedding#UI Automation#Coordinate Prediction#Resolution Generalization#Transformer Architecture2025년 10월 6일댓글 수 로딩 중
[논문리뷰] How Confident are Video Models? Empowering Video Models to Express their Uncertainty비디오 생성 모델이 텍스트 프롬프트에 기반하여 부정확하거나 사실과 다른(hallucinate) 비디오를 생성할 때, 그 예측에 대한 불확실성을 표현하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Video Generation#Uncertainty Quantification#Aleatoric Uncertainty#Epistemic Uncertainty#Model Calibration#Text-to-Video#Generative AI#VMF Distribution2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Free Lunch Alignment of Text-to-Image Diffusion Models without Preference Image Pairs본 연구는 확산 기반 Text-to-Image (T2I) 모델의 텍스트-이미지 정렬(alignment)을 개선하는 것을 목표로 합니다.#Review#Text-to-Image Models#Diffusion Models#Preference Optimization#LLMs#RLHF#Prompt Editing#Free Lunch Alignment#TDPO#TKTO2025년 10월 6일댓글 수 로딩 중
[논문리뷰] FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents대규모 언어 모델(LLM) 기반 웹 에이전트가 긴 웹 페이지 관찰(수만 개의 토큰)로 인해 발생하는 컨텍스트 한계, 높은 계산 비용, 그리고 프롬프트 주입 공격과 같은 보안 위험을 해결하는 것을 목표로 합니다.#Review#Web Agents#LLM Context Pruning#Accessibility Tree#Prompt Injection#Retrieval Augmented Generation#Web Navigation#Agent Security#Efficient LLM2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Efficient Multi-modal Large Language Models via Progressive Consistency Distillation본 논문은 멀티모달 대규모 언어 모델(MLLMs)에서 시각 토큰이 소모하는 막대한 계산 자원으로 인한 효율성 저하 문제를 해결하고자 합니다. 특히, 시각 토큰 압축 과정에서 발생하는 학습 난이도 증가 와 특징 공간 교란 문제를 해결하여, 효율성을 높이면서도 성능 저하를 최소화하는 것을 목표로 합니다.#Review#Multi-modal LLMs#Token Compression#Efficiency#Knowledge Distillation#Progressive Learning#Consistency Distillation#MLLM Training2025년 10월 6일댓글 수 로딩 중
[논문리뷰] DiffTester: Accelerating Unit Test Generation for Diffusion LLMs via Repetitive Pattern본 논문은 확산형 대규모 언어 모델(dLLM)을 이용한 단위 테스트 생성(UTG) 과정에서 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion LLMs#Unit Test Generation#Acceleration#Repetitive Patterns#Abstract Syntax Tree#Software Testing#Code Generation2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition본 논문의 핵심 목표는 추가적인 모델 훈련 없이 확산(diffusion) 또는 플로우(flow) 기반 로봇 정책의 성능을 향상시키는 것입니다.#Review#Diffusion Models#Flow-based Models#Robotics Control#Policy Composition#Test-time Optimization#Score-based Models#Training-free2025년 10월 6일댓글 수 로딩 중
[논문리뷰] CoDA: Agentic Systems for Collaborative Data Visualization본 논문은 복잡한 데이터셋, 반복적인 개선, 코드 오류 및 최종 시각화 품질 문제로 인해 기존 시스템이 어려움을 겪는 자연어 기반 데이터 시각화 자동화의 한계를 해결하는 것을 목표로 합니다.#Review#Multi-agent Systems#Data Visualization#LLM#Automation#Self-reflection#Code Generation#Natural Language to Visualization2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Apriel-1.5-15b-Thinker본 연구는 대규모 언어 모델(LLM)의 성능과 접근성 사이의 근본적인 한계를 극복하고, 150억 개 파라미터 의 비교적 작은 오픈-웨이트 모델인 Apriel-1.5-15B-Thinker 가 순수한 규모 대신 훈련 디자인 을 통해 최첨단 멀티모달 추론 성능을 달성하는 것을 목표로 합니다.#Review#Multimodal Reasoning Model#Open-Weights Model#Continual Pretraining (CPT)#Supervised Fine-Tuning (SFT)#Training Design#Efficiency#Frontier Performance2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Align Your Tangent: Training Better Consistency Models via Manifold-Aligned Tangents본 연구는 Consistency Models (CMs) 의 느린 수렴 문제와 높은 배치 사이즈 요구 사항을 해결하는 것을 목표로 합니다.#Review#Consistency Models#Generative Models#Manifold Learning#Tangent Alignment#Diffusion Models#Training Dynamics#Manifold Feature Distance2025년 10월 6일댓글 수 로딩 중
[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.#Review#Multi-turn Reinforcement Learning#LLM Agents#Text-based Environments#Reward Shaping#Policy Optimization#Supervised Fine-tuning (SFT)#Generalization#Environment Complexity2025년 10월 6일댓글 수 로딩 중