최신 포스트

[논문리뷰] Instruction-Following Evaluation in Function Calling for Large Language Models

이 논문은 기존의 함수 호출 벤치마크(BFCL, τ²-Bench, ACEBench 등)가 인수의 정확성만을 평가하고, 매개변수 설명에 포함된 형식 지정 지침(예: 이중 따옴표, ISO 날짜 형식) 준수 여부를 테스트하지 않는 문제를 해결하고자 합니다.

#Review #Function Calling #LLMs #Instruction Following #Benchmarking #JSON Schema #AI Agents #Evaluation Metrics

2025년 9월 29일

[논문리뷰] HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

확산 모델이 적은 NFEs(Neural Function Evaluations) 또는 낮은 guidance scale에서 비현실적인 출력과 세부 정보 부족을 보이는 문제를 해결하고, 확산 샘플링의 품질과 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Models #Sampling #Generative AI #Image Generation #Plug-and-Play #Training-Free #Guidance #Momentum-Based Methods

2025년 9월 29일

[논문리뷰] FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

이 논문은 확산 모델을 활용한 텍스트 기반 이미지 편집에서 발생하는 과도한 지연 시간, 배경 불안정성, 의미론적 얽힘 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 연구의 궁극적인 목적은 속도와 품질 사이의 기존 트레이드오프를 극복하고 고품질의 실시간 이미지 편집 을 가능하게 하는 것입니다.

#Review #Text-Guided Image Editing #Diffusion Models #Real-Time Editing #One-Step Inversion #Attention Control #Background Preservation #Semantic Disentanglement

2025년 9월 29일

[논문리뷰] Fine-tuning Done Right in Model Editing

이 논문은 대규모 언어 모델(LLM) 모델 편집에서 fine-tuning이 비효율적이라는 오랜 통념에 도전하고, 그 실패의 원인이 fine-tuning 자체의 한계가 아닌 부적절한 구현 방식에 있음을 밝힙니다.

#Review #Model Editing #Fine-tuning #Large Language Models #Catastrophic Forgetting #Breadth-First Pipeline #Depth-First Pipeline #Localized Tuning #Lifelong Learning

2025년 9월 29일

[논문리뷰] Finding 3D Positions of Distant Objects from Noisy Camera Movement and Semantic Segmentation Sequences

본 연구는 노이즈가 있는 카메라 움직임과 시맨틱 세그멘테이션 시퀀스로부터 원거리 객체의 3D 위치를 찾는 문제를 해결하는 것을 목표로 합니다. 특히, 드론 기반 산불 모니터링과 같이 컴퓨팅 자원이 제한적이거나 객체가 멀리 떨어져 있는 시나리오에서 기존의 3D 재구성 또는 깊이 추정 방법의 한계를 극복하고자 합니다.

#Review #3D Object Localization #Particle Filter #Multi-target Tracking #Drone Surveillance #Wildfire Monitoring #Semantic Segmentation #Camera Pose Estimation

2025년 9월 29일

[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.

#Review #High-Resolution Vision #Vision-Language Models #Efficient Reasoning #Coarse-to-Fine #Reinforcement Learning #Visual Understanding #Attention Mechanism

2025년 9월 29일

[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Entropy Regularization #Policy Optimization #Sparse Rewards #Multi-turn Environments #Exploration-Exploitation

2025년 9월 29일

[논문리뷰] D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

본 논문은 기존 GUI 에이전트의 데이터 병목 현상, 지연된 오류 탐지의 높은 비용, 모순된 지침 등의 문제점을 해결하고자 합니다.

#Review #Mobile GUI Automation #Multi-Agent System #Cognitive Architecture #Pre-execution Alignment #Post-execution Reflection #Retrieval-Augmented Generation #Multimodal LLM #Deliberative AI

2025년 9월 29일

[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

본 논문은 LLM(Large Language Model) 포스트 트레이닝 과정에서 발생하는 보상 과적합(reward over-optimization) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Fine-tuning #Reward Modeling #Reward Over-optimization #Rubric-based Rewards #High-reward Tail #Off-policy Data #LLM Alignment

2025년 9월 29일

[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

본 연구는 기존 SFT(Supervised Fine-Tuning) 기반 이미지 캡셔닝 모델의 한계(고비용 데이터, 제한된 일반화 및 다양성)를 극복하고자 합니다.

#Review #Image Captioning #Reinforcement Learning #Verifiable Rewards #LVLMs #VQA #Data Curation #Caption Quality

2025년 9월 29일

[논문리뷰] CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition

본 연구는 역사 문서의 텍스트 인식 정확도를 높이고 비용을 절감하기 위해 오픈-웨이트 대규모 비전-언어 모델(VLM) 인 CHURRO 를 개발하는 것을 목표로 합니다.

#Review #Historical Text Recognition #Vision-Language Model #Open-Weight Model #OCR #Cultural Heritage #Low-Cost AI #Dataset Curation #Fine-tuning

2025년 9월 29일

[논문리뷰] When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity

본 논문은 LLM Judge 벤치마크 설계에서 발생하는 근본적인 결함이 평가 유효성을 침묵적으로 저해 하는 문제를 다룹니다. 특히, 명확한 목표와 검증 가능한 구성 없이 고신뢰도처럼 보이는 랭킹이 실제로는 대부분 노이즈 일 수 있음을 진단하고, 이를 해결하기 위한 진단 메커니즘과 개선 원칙을 제시하는 것을 목표로 합니다.

#Review #LLM Judge #Benchmark Evaluation #Validity #Reliability #Psychometrics #Factor Analysis #Schema Adherence #ELO Ranking

2025년 9월 26일

[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models

기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.

#Review #Reinforcement Learning #Curriculum Learning #Large Language Models #Mathematical Reasoning #Variance-based Sampling #Replay Learning #Policy Optimization

2025년 9월 26일

[논문리뷰] V-GameGym: Visual Game Generation for Code Large Language Models

본 연구는 코드 대규모 언어 모델(Code LLM)의 알고리즘 문제 해결 능력과 실제 게임 개발의 포괄적인 요구사항 간의 격차를 해소하고자 합니다.

#Review #Code Large Language Models #Visual Game Generation #Benchmark #Pygame #Multimodal Evaluation #Software Engineering #AI-assisted Game Development

2025년 9월 26일

[논문리뷰] Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory

본 논문은 Large Reasoning Models (LRMs) 이 생성하는 Chain-of-Thought (CoT) 추론 과정의 내부 구조와 사고 패턴을 체계적으로 이해하는 데 필요한 프레임워크의 부재 문제를 해결합니다.

#Review #Large Reasoning Models #Cognitive Science #Schoenfeld's Episode Theory #Math Problem Solving #Chain-of-Thought #Behavioral Analysis #Dataset Annotation

2025년 9월 26일

[논문리뷰] TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

본 논문은 LLM-as-a-judge 평가 프레임워크에서 발생하는 핵심적인 불일치 문제 를 해결하는 것을 목표로 합니다.

#Review #LLM-as-a-Judge #Evaluation Frameworks #Inconsistency Reduction #Probabilistic Scoring #Transitivity #Information Loss #Perplexity #Large Language Models

2025년 9월 26일

[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Tree Search #Policy Optimization #Preference Learning #Sparse Rewards #Multi-turn Tasks

2025년 9월 26일

[논문리뷰] Thinking While Listening: Simple Test Time Scaling For Audio Classification

본 논문은 오디오 분류 성능 향상을 위해 신경망 모델이 '듣는 동안 생각하는(thinking while listening)' 능력을 갖추도록 하는 프레임워크를 제안합니다.

#Review #Audio Classification #Test-Time Scaling #Reasoning Traces #Large Language Models (LLMs)#Transformer Architectures #Zero-shot Reasoning #Computational Efficiency

2025년 9월 26일

[논문리뷰] Thinking Augmented Pre-training

본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Pre-training #Data Augmentation #Reasoning #Data Efficiency #Thinking Trajectories

2025년 9월 26일

[논문리뷰] The Unanticipated Asymmetry Between Perceptual Optimization and Assessment

본 논문은 지각적 최적화(perceptual optimization)를 위한 손실 함수와 이미지 품질 평가(IQA) 지표 간의 상관관계 및 GAN(Generative Adversarial Network) Discriminator의 표현 전이 가능성(transferability)을 체계적으로 분석하여, 이들 역할 사이에 예상치 못한 비대칭성이 존재함을 밝히는 것을 목표로 합니다.

#Review #Perceptual Optimization #Image Quality Assessment (IQA)#Adversarial Training #Discriminators #Super-Resolution #Fidelity Metrics #Deep Learning

2025년 9월 26일