최신 포스트

[논문리뷰] SPATIALGEN: Layout-guided 3D Indoor Scene Generation

고품질의 3D 실내 환경 모델을 생성하는 기존 방식의 시간 소모성 및 제한된 다양성 문제를 해결하고, 시각적 품질, 다양성, 의미론적 일관성 및 사용자 제어 사이의 균형을 맞추기 위한 연구입니다.

#Review #3D Scene Generation #Layout Guidance #Diffusion Models #Multi-view Synthesis #Synthetic Dataset #Indoor Environments #Gaussian Splatting #Semantic Consistency

2025년 9월 22일

[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation

대규모 언어 모델(LLMs)이 함수 및 파일 수준 코드 생성에는 뛰어나지만, 완전한 저장소(repository)를 처음부터 생성 하는 데는 한계가 있습니다. 이는 제안 및 구현 단계 전반에 걸친 일관되고 신뢰할 수 있는 계획의 부재와 복잡한 소프트웨어 구조를 자연어가 모호하고 비구조적으로 표현하는 데서 비롯됩니다.

#Review #Code Generation #LLMs #Repository Planning #Graph-based Representation #Software Engineering #Agent Frameworks #Scalable Codebase

2025년 9월 22일

[논문리뷰] RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes

본 연구는 동적 장면에서 카메라 파라미터(초점 거리, 회전, 번역)를 효율적이고 정확하게 최적화하는 것을 목표로 합니다. 기존 COLMAP 방법의 긴 런타임과 동적 장면에서의 GT(Ground Truth) 모션 마스크 의존성 한계를 극복하고, 오직 RGB 영상 만을 감독 정보로 사용하여 이 문제를 해결하고자 합니다.

#Review #Camera Parameter Optimization #Dynamic Scenes #RGB-Only Supervision #Structure from Motion #Outlier Robustness #3D Gaussian Splatting #Two-stage Optimization #Point Tracking

2025년 9월 22일

[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

기존 통합 멀티모달 LLM이 시각적 이해와 생성 능력 사이의 성능 트레이드오프, 특히 텍스트가 풍부한 벤치마크에서의 저하를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Hybrid Tokenizer #Text-to-Image Generation #Visual Question Answering #Autoregressive Model #Diffusion Decoder #Unified Architecture #Model Scaling

2025년 9월 22일

[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation

본 논문은 단일 입력 이미지로부터 고품질의 개인화된 비디오를 합성 하는 모델인 Lynx를 제시하며, 특히 높은 신원 보존 을 목표로 합니다. 기존 비디오 생성 모델의 한계인 대상의 신원 불일치 문제를 해결하고, 시간적 일관성과 시각적 사실성을 유지하는 비디오 생성을 목표로 합니다.

#Review #Personalized Video Generation #Diffusion Transformer #Identity Preservation #Video Synthesis #Adapter Networks #Facial Recognition #Cross-Attention

2025년 9월 22일

[논문리뷰] Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

본 논문은 생성 모델링(Generative Modeling) , 표현 학습(Representation Learning) , 분류(Classification) 라는 세 가지 핵심 ML 태스크를 단일 통합 원칙으로 해결하는 것을 목표로 합니다.

#Review #Generative Modeling #Representation Learning #Classification #Unified Framework #Latent Space #Flow Matching #Deep Learning #Image Generation

2025년 9월 22일

[논문리뷰] Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems

이 논문은 ITTS (Instruction-Guided Text-to-Speech) 시스템에서 사용자의 자연어 명령(natural language prompts)과 청취자의 음성 지각(listener perception) 간의 불일치를 정량적으로 분석하는 것을 목표로 합니다.

#Review #Instruction-Guided TTS #Expressive Speech Synthesis #Human Perception #Subjective Evaluation #Controllability #Instruction Following #Evaluation Metrics

2025년 9월 22일

[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model

본 연구는 고성능 멀티모달 보상 모델(MRM) 구축을 위한 체계적인 지침('레시피')을 제공하는 것을 목표로 합니다.

#Review #Multimodal Reward Model #MLLM Alignment #RLHF #Reward Head Architecture #Data Curation #Ensemble Methods #BaseReward

2025년 9월 22일

[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent

AI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.

#Review #GUI Agent #Human-GUI Interaction #Cognitive Modeling #Reinforcement Learning #Multimodal Large Language Models #Attention Mechanisms #Action Planning

2025년 9월 22일

[논문리뷰] Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

현재 VLA(Vision-Language-Action) 기반 로봇 이 모호한 지시를 처리하지 못하고 수동적으로 명령을 실행하는 한계를 해결하는 것이 목표입니다.

#Review #Embodied AI #Human-Robot Interaction #Multi-turn Dialogue #Instruction Following #Vision-Language Models #Diffusion Models #Ambiguity Resolution #Low-level Actions

2025년 9월 22일

[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Robotics #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Reward Modeling #Human-in-the-Loop #Dense Rewards #Generalization #Autoregressive Models

2025년 9월 22일

[논문리뷰] WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance

본 연구는 기존 비디오 확산 모델(VDM)이 3D/4D 작업에서 겪는 제어 가능성, 시공간 일관성, 기하학적 충실도의 한계를 해결하고자 합니다.

#Review #Video Diffusion Models #3D/4D Generation #Training-Free Guidance #Camera Trajectory Control #Novel View Synthesis #Geometric Consistency #Inference-Time Optimization

2025년 9월 19일

[논문리뷰] Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding

본 논문은 입력 텍스트 질의를 기반으로 비디오 내에서 대상의 시공간 튜브(spatio-temporal tube)를 찾아내는 시공간 비디오 그라운딩(STVG) 태스크에서, MLLM(Multimodal Large Language Models) 의 잠재력을 활용하여 제로샷(zero-shot) 해결책 을 제시하는 것을 목표로 합니다.

#Review #Spatio-Temporal Video Grounding #Multimodal Large Language Models #Zero-Shot Learning #Visual Grounding #Decomposed Spatio-Temporal Highlighting #Logit-Guided Re-attention #Temporal-Augmented Assembling

2025년 9월 19일

[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation

본 논문은 자연어 처리에서 성공적인 자기회귀(Autoregressive, AR) 모델이 이미지 생성 시 고수준 시각적 의미 학습에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autoregressive Models #Image Generation #Self-Supervised Learning #Visual Understanding #Masked Image Modeling #Contrastive Learning #Next-Token Prediction #LlamaGen

2025년 9월 19일

[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data

컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.

#Review #Computer Use Agents #Vision-Language Models #Cross-Platform Data #GUI Automation #Data Scaling #Open-Source #Task Completion #GUI Grounding

2025년 9월 19일

[논문리뷰] RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation

본 논문은 대규모 로봇 조작 데이터 부족 문제와 시각적 역학 모델링의 한계로 인해 기존 Vision-Language-Action (VLA) 모델의 성능이 제약받는 문제를 해결하고자 합니다. 인간 시연 영상으로부터 조작 기술을 암묵적으로 전이하여 로봇 조작 성능을 개선하는 것을 궁극적인 목표로 합니다.

#Review #Vision-Language-Action (VLA) Model #Robot Manipulation #Human Demonstrations #Video Generative Pretraining #Ego-Centric Video #Trajectory Prediction #ActionVAE #Transformer

2025년 9월 19일

[논문리뷰] RecoWorld: Building Simulated Environments for Agentic Recommender Systems

본 논문은 에이전트 기반 추천 시스템(agentic recommender systems) 을 위한 시뮬레이션 환경인 RECOWORLD 의 청사진을 제시하여, 실제 사용자에게 영향을 주지 않고 추천 시스템이 오류로부터 학습하고 전략을 개선할 수 있는 훈련 공간을 제공하는 것을 목표로 합니다.

#Review #Agentic Recommender Systems #Simulated Environments #LLM-driven Simulation #Multi-turn Interaction #Reinforcement Learning #User Retention #Instruction Following #Multi-agent Systems

2025년 9월 19일

[논문리뷰] Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration

본 논문은 대규모 언어 모델(LLMs)이 시나리오별로 맞춤 설정된 동적 행동 및 안전 명세(spec)를 따르는 능력인 명세 정렬(Specification Alignment) 문제를 해결하는 것을 목표로 합니다.

#Review #LLMs #Specification Alignment #Test-Time Deliberation #Safety-Behavior Trade-off #ALIGN3 #SPECBENCH #Prompt Engineering

2025년 9월 19일

[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

본 연구는 기존 지시 기반 이미지 편집(IBIE) 방법론의 한계, 특히 제한된 데이터셋 다양성과 품질로 인한 복잡한 편집 태스크에서의 성능 저하 문제를 해결하고자 합니다.

#Review #Instruction-based Image Editing #Dataset #Multi-modal LLM #Image Generation #Style Transfer #Multi-task Learning #Fine-tuning

2025년 9월 19일

[논문리뷰] Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs

본 논문은 대규모 언어 모델(LLM)의 객관식 질문 답변(MCQA) 평가 시, 답변 레이블 직전의 공백 문자 토큰화 방식이 모델 성능에 미치는 영향을 규명하는 것을 목표로 합니다.

#Review #LLM Evaluation #Multiple-Choice QA #Tokenization #Prompt Sensitivity #Accuracy #Calibration #Model Ranking

2025년 9월 19일