Review

[논문리뷰] TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them

본 논문은 LLM-as-a-judge 평가 프레임워크에서 발생하는 핵심적인 불일치 문제 를 해결하는 것을 목표로 합니다.

#Review #LLM-as-a-Judge #Evaluation Frameworks #Inconsistency Reduction #Probabilistic Scoring #Transitivity #Information Loss #Perplexity #Large Language Models

2025년 9월 26일

[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Tree Search #Policy Optimization #Preference Learning #Sparse Rewards #Multi-turn Tasks

2025년 9월 26일

[논문리뷰] Thinking While Listening: Simple Test Time Scaling For Audio Classification

본 논문은 오디오 분류 성능 향상을 위해 신경망 모델이 '듣는 동안 생각하는(thinking while listening)' 능력을 갖추도록 하는 프레임워크를 제안합니다.

#Review #Audio Classification #Test-Time Scaling #Reasoning Traces #Large Language Models (LLMs)#Transformer Architectures #Zero-shot Reasoning #Computational Efficiency

2025년 9월 26일

[논문리뷰] Thinking Augmented Pre-training

본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Pre-training #Data Augmentation #Reasoning #Data Efficiency #Thinking Trajectories

2025년 9월 26일

[논문리뷰] The Unanticipated Asymmetry Between Perceptual Optimization and Assessment

본 논문은 지각적 최적화(perceptual optimization)를 위한 손실 함수와 이미지 품질 평가(IQA) 지표 간의 상관관계 및 GAN(Generative Adversarial Network) Discriminator의 표현 전이 가능성(transferability)을 체계적으로 분석하여, 이들 역할 사이에 예상치 못한 비대칭성이 존재함을 밝히는 것을 목표로 합니다.

#Review #Perceptual Optimization #Image Quality Assessment (IQA)#Adversarial Training #Discriminators #Super-Resolution #Fidelity Metrics #Deep Learning

2025년 9월 26일

[논문리뷰] StyleBench: Evaluating thinking styles in Large Language Models

본 연구는 LLM이 사용하는 추론 전략, 즉 '사고 방식'이 모델 아키텍처 및 태스크 유형과 어떻게 상호작용하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning Strategies #Prompt Engineering #LLM Evaluation #Benchmark #Thinking Styles #Scaling Laws #Meta-Reasoning

2025년 9월 26일

[논문리뷰] Seedream 4.0: Toward Next-generation Multimodal Image Generation

본 논문은 텍스트-투-이미지(T2I) 합성, 이미지 편집, 다중 이미지 합성 기능을 단일 프레임워크 내에서 통합하는 효율적이고 고성능의 차세대 멀티모달 이미지 생성 시스템 Seedream 4.0 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Image Generation #Diffusion Transformer #VAE #Image Editing #Text-to-Image #Model Acceleration #Human Evaluation

2025년 9월 26일

[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines

이 논문은 이질적인 과학적 표현과 자연어를 통합하여 다양한 과학 분야에 걸친 복잡한 과학적 추론을 수행하는 최초의 과학 추론 대규모 언어 모델(LLM) 인 SciReasoner 를 제안합니다.

#Review #Scientific Reasoning #Foundation Models #Multi-modal Learning #Cross-domain Generalization #Chain-of-Thought #Reinforcement Learning #Scientific Discovery #Molecular Design

2025년 9월 26일

[논문리뷰] SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent

이 논문은 기존 3D 장면 합성 방법론들이 고정된 카테고리, 부족한 객체 디테일, 물리적 불일치, 복잡한 사용자 지시와의 낮은 정합성 등의 한계를 가지는 문제를 해결하고자 합니다.

#Review #3D Scene Synthesis #Agentic Framework #LLMs #Self-Reflection #Tool-Use #Physical Plausibility #Iterative Refinement #Embodied AI

2025년 9월 26일

[논문리뷰] ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

본 논문은 복잡한 추론 능력을 향상시키기 위해 어려운 수학 문제 의 생성을 확장하는 효율적인 파이프라인인 ScaleDiff 를 제안합니다. 기존의 문제 생성 방식이 높은 비용, 복잡한 프롬프트 엔지니어링, 그리고 제한적인 난이도 수준으로 인해 확장성이 부족하다는 한계를 극복하고자 합니다.

#Review #Mathematical Reasoning #Large Reasoning Models (LRMs)#Difficulty Scaling #Data Augmentation #Supervised Fine-Tuning (SFT)#Problem Generation #Solution Distillation

2025년 9월 26일

[논문리뷰] SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

본 논문은 최첨단 생성 모델, 특히 Rectified Flow 모델 의 높은 연산 요구량으로 인해 발생하는 접근성 문제를 해결하고자 합니다.

#Review #Generative AI #Image Generation #Diffusion Models #Rectified Flow #Model Distillation #Few-Step Generation #Computational Efficiency #Prompt Alignment

2025년 9월 26일

[논문리뷰] Residual Off-Policy RL for Finetuning Behavior Cloning Policies

본 논문은 행동 복제(BC) 기반 정책의 한계(데이터 품질, 수동 데이터 수집, 성능 포화)와 실제 로봇에서의 직접적인 강화 학습(RL)의 어려움(샘플 비효율성, 안전성, 희소 보상)을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Behavior Cloning (BC)#Residual Learning #Off-Policy RL #Robot Manipulation #Real-World Robotics #High-DoF Systems #Sample Efficiency

2025년 9월 26일

[논문리뷰] Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution

본 논문은 실세계 웹 페이지에서 멀티턴, 장기적 궤적(long-horizon trajectories) 을 따르는 작업 수행 시 기존 브라우저 에이전트의 행동 시퀀싱 혼란 과 과도한 시행착오 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent System #Browser Automation #Web Reconnaissance #Tool Generation #Task Execution #Self-Evolving AI #LLM/VLM #VisualWebArena

2025년 9월 26일

[논문리뷰] Quantized Visual Geometry Grounded Transformer

대규모 Visual Geometry Grounded Transformers (VGGTs) 모델의 과도한 연산 및 메모리 비용 문제를 해결하고, 실세계 배포를 위한 효율적인 저비트 양자화 프레임워크를 개발하는 것이 목표입니다.

#Review #Quantization #Post-Training Quantization #3D Reconstruction #Visual Transformer #Model Compression #Efficient Inference #Hadamard Rotation #Calibration Sampling

2025년 9월 26일

[논문리뷰] MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning

비디오 기반 MLLM(Multimodal Large Language Models)에서 발생하는 프로세스 불일치(process inconsistency) 문제를 해결하여, 모델이 올바른 최종 답변을 도출하더라도 중간 추론 과정이 비디오의 시간적 역동성에서 벗어나는 한계를 극복하는 것을 목표로 합니다.

#Review #Video Temporal Reasoning #Reinforcement Learning #Process Supervision #Dynamic Time Warping #Multimodal Large Language Models #Video State Prediction #Reward Hacking

2025년 9월 26일

[논문리뷰] MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

본 논문은 대규모 multimodal 추론 모델의 발전을 저해하는 두 가지 주요 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Reinforcement Learning #Variance-Aware Sampling #Gradient Vanishing #Data Curation #Chain-of-Thought #GRPO

2025년 9월 26일

[논문리뷰] MI-Fuse: Label Fusion for Unsupervised Domain Adaptation with Closed-Source Large-Audio Language Model

논문은 소스 도메인 데이터가 없고, 강력한 LALM(Large Audio-Language Model) 이 API 를 통해서만 접근 가능한 현실적인 SFUDA(Source-Free Unsupervised Domain Adaptation) 시나리오를 해결하는 것을 목표로 합니다.

#Review #Speech Emotion Recognition #Source-Free Unsupervised Domain Adaptation #Large Audio-Language Models #Label Fusion #Mutual Information #API-Only Models #Domain Mismatch

2025년 9월 26일

[논문리뷰] Interactive Recommendation Agent with Active User Commands

본 논문은 기존 추천 시스템의 수동적 피드백 메커니즘이 사용자의 미묘한 의도와 만족도를 정확히 포착하지 못하여 발생하는 '사용자 의도-시스템 해석' 간의 간극을 해결하고자 합니다.

#Review #Interactive Recommendation #Large Language Models #Multi-Agent System #Natural Language Processing #Knowledge Distillation #User Control

2025년 9월 26일

[논문리뷰] Hunyuan3D-Omni: A Unified Framework for Controllable Generation of 3D Assets

기존 3D 생성 모델이 이미지 또는 텍스트 조건화에 주로 의존하며 세분화된 크로스-모달 제어가 부족 하여 실용적 적용이 제한되는 문제를 해결하고자 합니다. 다양한 형태의 제어 신호 를 통합하는 통일된 프레임워크를 통해 3D 에셋 생성의 제어 가능성 과 기하학적 정확도 를 향상시키는 것을 목표로 합니다.

#Review #3D Generation #Controllable Generation #Multi-modal Conditioning #Diffusion Models #Point Clouds #Voxels #Bounding Boxes #Skeletons #Hunyuan3D

2025년 9월 26일

[논문리뷰] Does FLUX Already Know How to Perform Physically Plausible Image Composition?

본 연구는 복잡한 조명, 그림자, 물 반사 등 물리적으로 사실적인 이미지 합성 을 사전 훈련된 텍스트-투-이미지(T2I) 확산 모델 을 활용하여 훈련 없이 수행하는 것을 목표로 합니다. 기존 모델들이 가진 객체 포즈 고정, 부적절한 해상도 처리, 그리고 컨텍스트에 맞지 않는 조명 생성 등의 한계를 극복하고자 합니다.

#Review #Image Composition #Diffusion Models #Training-Free #Physically Plausible #FLUX #Adapter #Guidance #Benchmark

2025년 9월 26일