[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents기존 Role-playing Agents (RPAs) 가 정적인 역할 프로필에만 의존하여 인간의 동적인 지각 능력을 포착하지 못하는 한계를 극복하는 것입니다. 비디오 모달리티를 RPAs 에 통합하여 동적 역할 프로필 개념을 도입하고, 이를 통해 더욱 몰입감 있고 표현력 있는 역할극 경험을 제공하고자 합니다.#Review#Role-playing Agents (RPAs)#Multimodal AI#Video Understanding#Large Language Models (LLMs)#Dataset Creation#Dynamic Role Profiles#Adaptive Temporal Sampling#Fine-tuning2025년 9월 22일댓글 수 로딩 중
[논문리뷰] SPATIALGEN: Layout-guided 3D Indoor Scene Generation고품질의 3D 실내 환경 모델을 생성하는 기존 방식의 시간 소모성 및 제한된 다양성 문제를 해결하고, 시각적 품질, 다양성, 의미론적 일관성 및 사용자 제어 사이의 균형을 맞추기 위한 연구입니다.#Review#3D Scene Generation#Layout Guidance#Diffusion Models#Multi-view Synthesis#Synthetic Dataset#Indoor Environments#Gaussian Splatting#Semantic Consistency2025년 9월 22일댓글 수 로딩 중
[논문리뷰] RPG: A Repository Planning Graph for Unified and Scalable Codebase Generation대규모 언어 모델(LLMs)이 함수 및 파일 수준 코드 생성에는 뛰어나지만, 완전한 저장소(repository)를 처음부터 생성 하는 데는 한계가 있습니다. 이는 제안 및 구현 단계 전반에 걸친 일관되고 신뢰할 수 있는 계획의 부재와 복잡한 소프트웨어 구조를 자연어가 모호하고 비구조적으로 표현하는 데서 비롯됩니다.#Review#Code Generation#LLMs#Repository Planning#Graph-based Representation#Software Engineering#Agent Frameworks#Scalable Codebase2025년 9월 22일댓글 수 로딩 중
[논문리뷰] RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes본 연구는 동적 장면에서 카메라 파라미터(초점 거리, 회전, 번역)를 효율적이고 정확하게 최적화하는 것을 목표로 합니다. 기존 COLMAP 방법의 긴 런타임과 동적 장면에서의 GT(Ground Truth) 모션 마스크 의존성 한계를 극복하고, 오직 RGB 영상 만을 감독 정보로 사용하여 이 문제를 해결하고자 합니다.#Review#Camera Parameter Optimization#Dynamic Scenes#RGB-Only Supervision#Structure from Motion#Outlier Robustness#3D Gaussian Splatting#Two-stage Optimization#Point Tracking2025년 9월 22일댓글 수 로딩 중
[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer기존 통합 멀티모달 LLM이 시각적 이해와 생성 능력 사이의 성능 트레이드오프, 특히 텍스트가 풍부한 벤치마크에서의 저하를 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal LLM#Hybrid Tokenizer#Text-to-Image Generation#Visual Question Answering#Autoregressive Model#Diffusion Decoder#Unified Architecture#Model Scaling2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation본 논문은 단일 입력 이미지로부터 고품질의 개인화된 비디오를 합성 하는 모델인 Lynx를 제시하며, 특히 높은 신원 보존 을 목표로 합니다. 기존 비디오 생성 모델의 한계인 대상의 신원 불일치 문제를 해결하고, 시간적 일관성과 시각적 사실성을 유지하는 비디오 생성을 목표로 합니다.#Review#Personalized Video Generation#Diffusion Transformer#Identity Preservation#Video Synthesis#Adapter Networks#Facial Recognition#Cross-Attention2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification본 논문은 생성 모델링(Generative Modeling) , 표현 학습(Representation Learning) , 분류(Classification) 라는 세 가지 핵심 ML 태스크를 단일 통합 원칙으로 해결하는 것을 목표로 합니다.#Review#Generative Modeling#Representation Learning#Classification#Unified Framework#Latent Space#Flow Matching#Deep Learning#Image Generation2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems이 논문은 ITTS (Instruction-Guided Text-to-Speech) 시스템에서 사용자의 자연어 명령(natural language prompts)과 청취자의 음성 지각(listener perception) 간의 불일치를 정량적으로 분석하는 것을 목표로 합니다.#Review#Instruction-Guided TTS#Expressive Speech Synthesis#Human Perception#Subjective Evaluation#Controllability#Instruction Following#Evaluation Metrics2025년 9월 22일댓글 수 로딩 중
[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model본 연구는 고성능 멀티모달 보상 모델(MRM) 구축을 위한 체계적인 지침('레시피')을 제공하는 것을 목표로 합니다.#Review#Multimodal Reward Model#MLLM Alignment#RLHF#Reward Head Architecture#Data Curation#Ensemble Methods#BaseReward2025년 9월 22일댓글 수 로딩 중
[논문리뷰] BTL-UI: Blink-Think-Link Reasoning Model for GUI AgentAI 기반 GUI 에이전트의 상호작용 논리가 인간의 자연스러운 GUI 소통 패턴과 현저히 다르다는 근본적인 문제를 해결하고자 합니다.#Review#GUI Agent#Human-GUI Interaction#Cognitive Modeling#Reinforcement Learning#Multimodal Large Language Models#Attention Mechanisms#Action Planning2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue현재 VLA(Vision-Language-Action) 기반 로봇 이 모호한 지시를 처리하지 못하고 수동적으로 명령을 실행하는 한계를 해결하는 것이 목표입니다.#Review#Embodied AI#Human-Robot Interaction#Multi-turn Dialogue#Instruction Following#Vision-Language Models#Diffusion Models#Ambiguity Resolution#Low-level Actions2025년 9월 22일댓글 수 로딩 중
[논문리뷰] A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning로봇의 실세계 강화 학습(RL)에서 희소하고 수작업으로 제작된 보상 및 비효율적인 탐색 으로 인한 병목 현상을 해결하는 것을 목표로 합니다.#Review#Robotics#Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models#Reward Modeling#Human-in-the-Loop#Dense Rewards#Generalization#Autoregressive Models2025년 9월 22일댓글 수 로딩 중
[논문리뷰] WorldForge: Unlocking Emergent 3D/4D Generation in Video Diffusion Model via Training-Free Guidance본 연구는 기존 비디오 확산 모델(VDM)이 3D/4D 작업에서 겪는 제어 가능성, 시공간 일관성, 기하학적 충실도의 한계를 해결하고자 합니다.#Review#Video Diffusion Models#3D/4D Generation#Training-Free Guidance#Camera Trajectory Control#Novel View Synthesis#Geometric Consistency#Inference-Time Optimization2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding본 논문은 입력 텍스트 질의를 기반으로 비디오 내에서 대상의 시공간 튜브(spatio-temporal tube)를 찾아내는 시공간 비디오 그라운딩(STVG) 태스크에서, MLLM(Multimodal Large Language Models) 의 잠재력을 활용하여 제로샷(zero-shot) 해결책 을 제시하는 것을 목표로 합니다.#Review#Spatio-Temporal Video Grounding#Multimodal Large Language Models#Zero-Shot Learning#Visual Grounding#Decomposed Spatio-Temporal Highlighting#Logit-Guided Re-attention#Temporal-Augmented Assembling2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation본 논문은 자연어 처리에서 성공적인 자기회귀(Autoregressive, AR) 모델이 이미지 생성 시 고수준 시각적 의미 학습에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Autoregressive Models#Image Generation#Self-Supervised Learning#Visual Understanding#Masked Image Modeling#Contrastive Learning#Next-Token Prediction#LlamaGen2025년 9월 19일댓글 수 로딩 중
[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.#Review#Computer Use Agents#Vision-Language Models#Cross-Platform Data#GUI Automation#Data Scaling#Open-Source#Task Completion#GUI Grounding2025년 9월 19일댓글 수 로딩 중
[논문리뷰] RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation본 논문은 대규모 로봇 조작 데이터 부족 문제와 시각적 역학 모델링의 한계로 인해 기존 Vision-Language-Action (VLA) 모델의 성능이 제약받는 문제를 해결하고자 합니다. 인간 시연 영상으로부터 조작 기술을 암묵적으로 전이하여 로봇 조작 성능을 개선하는 것을 궁극적인 목표로 합니다.#Review#Vision-Language-Action (VLA) Model#Robot Manipulation#Human Demonstrations#Video Generative Pretraining#Ego-Centric Video#Trajectory Prediction#ActionVAE#Transformer2025년 9월 19일댓글 수 로딩 중
[논문리뷰] RecoWorld: Building Simulated Environments for Agentic Recommender Systems본 논문은 에이전트 기반 추천 시스템(agentic recommender systems) 을 위한 시뮬레이션 환경인 RECOWORLD 의 청사진을 제시하여, 실제 사용자에게 영향을 주지 않고 추천 시스템이 오류로부터 학습하고 전략을 개선할 수 있는 훈련 공간을 제공하는 것을 목표로 합니다.#Review#Agentic Recommender Systems#Simulated Environments#LLM-driven Simulation#Multi-turn Interaction#Reinforcement Learning#User Retention#Instruction Following#Multi-agent Systems2025년 9월 19일댓글 수 로딩 중
[논문리뷰] Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration본 논문은 대규모 언어 모델(LLMs)이 시나리오별로 맞춤 설정된 동적 행동 및 안전 명세(spec)를 따르는 능력인 명세 정렬(Specification Alignment) 문제를 해결하는 것을 목표로 합니다.#Review#LLMs#Specification Alignment#Test-Time Deliberation#Safety-Behavior Trade-off#ALIGN3#SPECBENCH#Prompt Engineering2025년 9월 19일댓글 수 로딩 중
[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks본 연구는 기존 지시 기반 이미지 편집(IBIE) 방법론의 한계, 특히 제한된 데이터셋 다양성과 품질로 인한 복잡한 편집 태스크에서의 성능 저하 문제를 해결하고자 합니다.#Review#Instruction-based Image Editing#Dataset#Multi-modal LLM#Image Generation#Style Transfer#Multi-task Learning#Fine-tuning2025년 9월 19일댓글 수 로딩 중