Review

[논문리뷰] AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

언어 모델(LLMs)이 오디오 입력 없이 텍스트만으로 청각적 상식과 추론 능력을 이해하는 데 부족함을 해결하고자 합니다. 이 격차를 해소하기 위해 청각 지식을 평가하는 AuditoryBench++ 벤치마크를 제시하고, LLM이 청각 정보를 '상상'하여 추론하는 AIR-CoT 방법론을 개발하는 것을 목표로 합니다.

#Review #Auditory Knowledge #Large Language Models #Multimodal Reasoning #Benchmark #Chain-of-Thought #Auditory Imagination #Text-only Reasoning

2025년 9월 23일

[논문리뷰] Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels

본 논문은 LLM에서 SFT가 모델의 지식에 미치는 영향 이 충분히 이해되지 않고 있다는 문제의식에서 출발합니다.

#Review #Supervised Fine-Tuning (SFT)#Large Language Models (LLMs)#Model Knowledge #Closed-Book Question Answering (CBQA)#Parameter Restoration #Kullback-Leibler Divergence #Knowledge Forgetting

2025년 9월 23일

[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations

논문은 AI 에이전트 개발 및 평가를 위한 확장 가능한 연구 플랫폼인 Meta Agents Research Environments (ARE) 를 소개하고, 이를 기반으로 일반 에이전트 역량을 측정하는 벤치마크인 Gaia2 를 제시합니다.

#Review #Agent Environments #Agent Evaluation #LLM Agents #Asynchronous Systems #Reinforcement Learning #Tool Use #Multi-agent Collaboration #Benchmark

2025년 9월 23일

[논문리뷰] WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers

본 논문은 Whisper 와 같은 사전 훈련된 최신 ASR(Automatic Speech Recognition) 모델이 미지의 도메인 어휘와 발화를 처리할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #ASR #Domain Adaptation #Text-Only Training #Transformer #Variational Autoencoder #Deep Supervision #Whisper #Encoder-Decoder Models

2025년 9월 22일

[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

기존 Role-playing Agents (RPAs) 가 정적인 역할 프로필에만 의존하여 인간의 동적인 지각 능력을 포착하지 못하는 한계를 극복하는 것입니다. 비디오 모달리티를 RPAs 에 통합하여 동적 역할 프로필 개념을 도입하고, 이를 통해 더욱 몰입감 있고 표현력 있는 역할극 경험을 제공하고자 합니다.

#Review #Role-playing Agents (RPAs)#Multimodal AI #Video Understanding #Large Language Models (LLMs)#Dataset Creation #Dynamic Role Profiles #Adaptive Temporal Sampling #Fine-tuning

2025년 9월 22일

[논문리뷰] SPATIALGEN: Layout-guided 3D Indoor Scene Generation

고품질의 3D 실내 환경 모델을 생성하는 기존 방식의 시간 소모성 및 제한된 다양성 문제를 해결하고, 시각적 품질, 다양성, 의미론적 일관성 및 사용자 제어 사이의 균형을 맞추기 위한 연구입니다.

#Review #3D Scene Generation #Layout Guidance #Diffusion Models #Multi-view Synthesis #Synthetic Dataset #Indoor Environments #Gaussian Splatting #Semantic Consistency

2025년 9월 22일

[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

대규모 언어 모델(LLMs)이 함수 및 파일 수준 코드 생성에는 뛰어나지만, 완전한 저장소(repository)를 처음부터 생성 하는 데는 한계가 있습니다. 이는 제안 및 구현 단계 전반에 걸친 일관되고 신뢰할 수 있는 계획의 부재와 복잡한 소프트웨어 구조를 자연어가 모호하고 비구조적으로 표현하는 데서 비롯됩니다.

#Review #Code Generation #LLMs #Repository Planning #Graph-based Representation #Software Engineering #Agent Frameworks #Scalable Codebase

2025년 9월 22일

[논문리뷰] RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

본 연구는 동적 장면에서 카메라 파라미터(초점 거리, 회전, 번역)를 효율적이고 정확하게 최적화하는 것을 목표로 합니다. 기존 COLMAP 방법의 긴 런타임과 동적 장면에서의 GT(Ground Truth) 모션 마스크 의존성 한계를 극복하고, 오직 RGB 영상 만을 감독 정보로 사용하여 이 문제를 해결하고자 합니다.

#Review #Camera Parameter Optimization #Dynamic Scenes #RGB-Only Supervision #Structure from Motion #Outlier Robustness #3D Gaussian Splatting #Two-stage Optimization #Point Tracking

2025년 9월 22일

[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

기존 통합 멀티모달 LLM이 시각적 이해와 생성 능력 사이의 성능 트레이드오프, 특히 텍스트가 풍부한 벤치마크에서의 저하를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Hybrid Tokenizer #Text-to-Image Generation #Visual Question Answering #Autoregressive Model #Diffusion Decoder #Unified Architecture #Model Scaling

2025년 9월 22일

[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation

본 논문은 단일 입력 이미지로부터 고품질의 개인화된 비디오를 합성 하는 모델인 Lynx를 제시하며, 특히 높은 신원 보존 을 목표로 합니다. 기존 비디오 생성 모델의 한계인 대상의 신원 불일치 문제를 해결하고, 시간적 일관성과 시각적 사실성을 유지하는 비디오 생성을 목표로 합니다.

#Review #Personalized Video Generation #Diffusion Transformer #Identity Preservation #Video Synthesis #Adapter Networks #Facial Recognition #Cross-Attention

2025년 9월 22일

[논문리뷰] Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

본 논문은 생성 모델링(Generative Modeling) , 표현 학습(Representation Learning) , 분류(Classification) 라는 세 가지 핵심 ML 태스크를 단일 통합 원칙으로 해결하는 것을 목표로 합니다.

#Review #Generative Modeling #Representation Learning #Classification #Unified Framework #Latent Space #Flow Matching #Deep Learning #Image Generation

2025년 9월 22일

[논문리뷰] Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems

이 논문은 ITTS (Instruction-Guided Text-to-Speech) 시스템에서 사용자의 자연어 명령(natural language prompts)과 청취자의 음성 지각(listener perception) 간의 불일치를 정량적으로 분석하는 것을 목표로 합니다.

#Review #Instruction-Guided TTS #Expressive Speech Synthesis #Human Perception #Subjective Evaluation #Controllability #Instruction Following #Evaluation Metrics

2025년 9월 22일

[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model

본 연구는 고성능 멀티모달 보상 모델(MRM) 구축을 위한 체계적인 지침('레시피')을 제공하는 것을 목표로 합니다.

#Review #Multimodal Reward Model #MLLM Alignment #RLHF #Reward Head Architecture #Data Curation #Ensemble Methods #BaseReward

2025년 9월 22일

[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

AI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.

#Review #GUI Agent #Human-GUI Interaction #Cognitive Modeling #Reinforcement Learning #Multimodal Large Language Models #Attention Mechanisms #Action Planning

2025년 9월 22일

[논문리뷰] Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

현재 VLA(Vision-Language-Action) 기반 로봇 이 모호한 지시를 처리하지 못하고 수동적으로 명령을 실행하는 한계를 해결하는 것이 목표입니다.

#Review #Embodied AI #Human-Robot Interaction #Multi-turn Dialogue #Instruction Following #Vision-Language Models #Diffusion Models #Ambiguity Resolution #Low-level Actions

2025년 9월 22일

[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Robotics #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Reward Modeling #Human-in-the-Loop #Dense Rewards #Generalization #Autoregressive Models

2025년 9월 22일

[논문리뷰] WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

본 연구는 기존 비디오 확산 모델(VDM)이 3D/4D 작업에서 겪는 제어 가능성, 시공간 일관성, 기하학적 충실도의 한계를 해결하고자 합니다.

#Review #Video Diffusion Models #3D/4D Generation #Training-Free Guidance #Camera Trajectory Control #Novel View Synthesis #Geometric Consistency #Inference-Time Optimization

2025년 9월 19일

[논문리뷰] Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

본 논문은 입력 텍스트 질의를 기반으로 비디오 내에서 대상의 시공간 튜브(spatio-temporal tube)를 찾아내는 시공간 비디오 그라운딩(STVG) 태스크에서, MLLM(Multimodal Large Language Models) 의 잠재력을 활용하여 제로샷(zero-shot) 해결책 을 제시하는 것을 목표로 합니다.

#Review #Spatio-Temporal Video Grounding #Multimodal Large Language Models #Zero-Shot Learning #Visual Grounding #Decomposed Spatio-Temporal Highlighting #Logit-Guided Re-attention #Temporal-Augmented Assembling

2025년 9월 19일

[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

본 논문은 자연어 처리에서 성공적인 자기회귀(Autoregressive, AR) 모델이 이미지 생성 시 고수준 시각적 의미 학습에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autoregressive Models #Image Generation #Self-Supervised Learning #Visual Understanding #Masked Image Modeling #Contrastive Learning #Next-Token Prediction #LlamaGen

2025년 9월 19일

[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.

#Review #Computer Use Agents #Vision-Language Models #Cross-Platform Data #GUI Automation #Data Scaling #Open-Source #Task Completion #GUI Grounding

2025년 9월 19일