[논문리뷰] Language Models Can Learn from Verbal Feedback Without Scalar Rewards기존 RLHF(Reinforcement Learning from Human Feedback) 방식이 구두 피드백을 스칼라 보상으로 압축하여 발생하는 정보 손실, 모호성, 보상 스케일 불균형 문제를 해결하는 것을 목표로 합니다.#Review#Verbal Feedback#Conditional Generation#Large Language Models#Feedback-Conditional Policy#Offline-Online Learning#Reward Hypothesis Bypass2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Instruction-Following Evaluation in Function Calling for Large Language Models이 논문은 기존의 함수 호출 벤치마크(BFCL, τ²-Bench, ACEBench 등)가 인수의 정확성만을 평가하고, 매개변수 설명에 포함된 형식 지정 지침(예: 이중 따옴표, ISO 날짜 형식) 준수 여부를 테스트하지 않는 문제를 해결하고자 합니다.#Review#Function Calling#LLMs#Instruction Following#Benchmarking#JSON Schema#AI Agents#Evaluation Metrics2025년 9월 29일댓글 수 로딩 중
[논문리뷰] HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models확산 모델이 적은 NFEs(Neural Function Evaluations) 또는 낮은 guidance scale에서 비현실적인 출력과 세부 정보 부족을 보이는 문제를 해결하고, 확산 샘플링의 품질과 효율성을 향상시키는 것을 목표로 합니다.#Review#Diffusion Models#Sampling#Generative AI#Image Generation#Plug-and-Play#Training-Free#Guidance#Momentum-Based Methods2025년 9월 29일댓글 수 로딩 중
[논문리뷰] FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing이 논문은 확산 모델을 활용한 텍스트 기반 이미지 편집에서 발생하는 과도한 지연 시간, 배경 불안정성, 의미론적 얽힘 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 연구의 궁극적인 목적은 속도와 품질 사이의 기존 트레이드오프를 극복하고 고품질의 실시간 이미지 편집 을 가능하게 하는 것입니다.#Review#Text-Guided Image Editing#Diffusion Models#Real-Time Editing#One-Step Inversion#Attention Control#Background Preservation#Semantic Disentanglement2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Fine-tuning Done Right in Model Editing이 논문은 대규모 언어 모델(LLM) 모델 편집에서 fine-tuning이 비효율적이라는 오랜 통념에 도전하고, 그 실패의 원인이 fine-tuning 자체의 한계가 아닌 부적절한 구현 방식에 있음을 밝힙니다.#Review#Model Editing#Fine-tuning#Large Language Models#Catastrophic Forgetting#Breadth-First Pipeline#Depth-First Pipeline#Localized Tuning#Lifelong Learning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Finding 3D Positions of Distant Objects from Noisy Camera Movement and Semantic Segmentation Sequences본 연구는 노이즈가 있는 카메라 움직임과 시맨틱 세그멘테이션 시퀀스로부터 원거리 객체의 3D 위치를 찾는 문제를 해결하는 것을 목표로 합니다. 특히, 드론 기반 산불 모니터링과 같이 컴퓨팅 자원이 제한적이거나 객체가 멀리 떨어져 있는 시나리오에서 기존의 3D 재구성 또는 깊이 추정 방법의 한계를 극복하고자 합니다.#Review#3D Object Localization#Particle Filter#Multi-target Tracking#Drone Surveillance#Wildfire Monitoring#Semantic Segmentation#Camera Pose Estimation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models논문은 대규모 시각-언어 모델(LVLMs)의 고해상도 이미지 처리 시 발생하는 과도한 계산 오버헤드 문제를 해결하고, 실제 애플리케이션에서 효율적인 시각 이해를 가능하게 하는 것을 목표로 합니다.#Review#High-Resolution Vision#Vision-Language Models#Efficient Reasoning#Coarse-to-Fine#Reinforcement Learning#Visual Understanding#Attention Mechanism2025년 9월 29일댓글 수 로딩 중
[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Entropy Regularization#Policy Optimization#Sparse Rewards#Multi-turn Environments#Exploration-Exploitation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents본 논문은 기존 GUI 에이전트의 데이터 병목 현상, 지연된 오류 탐지의 높은 비용, 모순된 지침 등의 문제점을 해결하고자 합니다.#Review#Mobile GUI Automation#Multi-Agent System#Cognitive Architecture#Pre-execution Alignment#Post-execution Reflection#Retrieval-Augmented Generation#Multimodal LLM#Deliberative AI2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training본 논문은 LLM(Large Language Model) 포스트 트레이닝 과정에서 발생하는 보상 과적합(reward over-optimization) 문제를 해결하는 것을 목표로 합니다.#Review#LLM#Reinforcement Fine-tuning#Reward Modeling#Reward Over-optimization#Rubric-based Rewards#High-reward Tail#Off-policy Data#LLM Alignment2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning본 연구는 기존 SFT(Supervised Fine-Tuning) 기반 이미지 캡셔닝 모델의 한계(고비용 데이터, 제한된 일반화 및 다양성)를 극복하고자 합니다.#Review#Image Captioning#Reinforcement Learning#Verifiable Rewards#LVLMs#VQA#Data Curation#Caption Quality2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition본 연구는 역사 문서의 텍스트 인식 정확도를 높이고 비용을 절감하기 위해 오픈-웨이트 대규모 비전-언어 모델(VLM) 인 CHURRO 를 개발하는 것을 목표로 합니다.#Review#Historical Text Recognition#Vision-Language Model#Open-Weight Model#OCR#Cultural Heritage#Low-Cost AI#Dataset Curation#Fine-tuning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity본 논문은 LLM Judge 벤치마크 설계에서 발생하는 근본적인 결함이 평가 유효성을 침묵적으로 저해 하는 문제를 다룹니다. 특히, 명확한 목표와 검증 가능한 구성 없이 고신뢰도처럼 보이는 랭킹이 실제로는 대부분 노이즈 일 수 있음을 진단하고, 이를 해결하기 위한 진단 메커니즘과 개선 원칙을 제시하는 것을 목표로 합니다.#Review#LLM Judge#Benchmark Evaluation#Validity#Reliability#Psychometrics#Factor Analysis#Schema Adherence#ELO Ranking2025년 9월 26일댓글 수 로딩 중
[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.#Review#Reinforcement Learning#Curriculum Learning#Large Language Models#Mathematical Reasoning#Variance-based Sampling#Replay Learning#Policy Optimization2025년 9월 26일댓글 수 로딩 중
[논문리뷰] V-GameGym: Visual Game Generation for Code Large Language Models본 연구는 코드 대규모 언어 모델(Code LLM)의 알고리즘 문제 해결 능력과 실제 게임 개발의 포괄적인 요구사항 간의 격차를 해소하고자 합니다.#Review#Code Large Language Models#Visual Game Generation#Benchmark#Pygame#Multimodal Evaluation#Software Engineering#AI-assisted Game Development2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Understanding the Thinking Process of Reasoning Models: A Perspective from Schoenfeld's Episode Theory본 논문은 Large Reasoning Models (LRMs) 이 생성하는 Chain-of-Thought (CoT) 추론 과정의 내부 구조와 사고 패턴을 체계적으로 이해하는 데 필요한 프레임워크의 부재 문제를 해결합니다.#Review#Large Reasoning Models#Cognitive Science#Schoenfeld's Episode Theory#Math Problem Solving#Chain-of-Thought#Behavioral Analysis#Dataset Annotation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them본 논문은 LLM-as-a-judge 평가 프레임워크에서 발생하는 핵심적인 불일치 문제 를 해결하는 것을 목표로 합니다.#Review#LLM-as-a-Judge#Evaluation Frameworks#Inconsistency Reduction#Probabilistic Scoring#Transitivity#Information Loss#Perplexity#Large Language Models2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Tree Search for LLM Agent Reinforcement Learning본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.#Review#LLM Agents#Reinforcement Learning#Tree Search#Policy Optimization#Preference Learning#Sparse Rewards#Multi-turn Tasks2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Thinking While Listening: Simple Test Time Scaling For Audio Classification본 논문은 오디오 분류 성능 향상을 위해 신경망 모델이 '듣는 동안 생각하는(thinking while listening)' 능력을 갖추도록 하는 프레임워크를 제안합니다.#Review#Audio Classification#Test-Time Scaling#Reasoning Traces#Large Language Models (LLMs)#Transformer Architectures#Zero-shot Reasoning#Computational Efficiency2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Thinking Augmented Pre-training본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Pre-training#Data Augmentation#Reasoning#Data Efficiency#Thinking Trajectories2025년 9월 26일댓글 수 로딩 중