[논문리뷰] MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings본 논문은 MLLM의 강력한 시맨틱 추론 능력과 확산 모델의 고품질 이미지 생성 능력을 통합하면서도 학습 효율성을 극대화하는 것을 핵심 문제로 다룹니다.#Review#Multimodal Generation#Vision-Language Model#Latent Embeddings#Diffusion Model#Representation Alignment#Unified Framework2026년 4월 22일댓글 수 로딩 중
[논문리뷰] OneHOI: Unifying Human-Object Interaction Generation and Editing본 논문은 HOI(Human-Object Interaction)의 생성과 편집이 서로 분리된 연구 흐름으로 발전해 온 비효율성을 해결하기 위해 통합 프레임워크인 OneHOI를 제안합니다.#Review#Human-Object Interaction#Diffusion Transformer#Image Editing#Unified Framework#Relational Modeling#Spatial Control2026년 4월 16일댓글 수 로딩 중
[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .#Review#Diffusion Large Language Models#Post-Training#Reinforcement Learning#Unified Framework#Systems Optimization2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks현재 단편적인 방식으로 세계 지식을 주입하는 AI 연구의 한계를 극복하고, 통합적이고 총체적인 세계 이해 를 가능하게 하는 세계 모델(World Models) 을 위한 통합 설계 프레임워크 를 제안하는 것이 목표입니다.#Review#World Models#Unified Framework#Multimodal AI#Embodied AI#Physical Understanding#Long-term Consistency#AI Agents#Generative Models2026년 2월 3일댓글 수 로딩 중
[논문리뷰] UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing본 논문은 복잡한 추론과 세계 지식이 필요한 이미지 합성 태스크에서 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Image Generation#Image Editing#World Knowledge#Self-Reflection#Unified Framework#Text-to-Image2026년 2월 2일댓글 수 로딩 중
[논문리뷰] DreamStyle: A Unified Framework for Video Stylization본 논문은 텍스트, 스타일 이미지, 스타일이 적용된 첫 프레임 등 단일 모달리티 조건에 국한된 기존 비디오 스타일 변환 방법론의 한계를 해결하고, 고품질 데이터 부족 및 시간적 일관성 문제를 극복하여 다중 모달리티 스타일 가이드를 지원하는 통합 프레임워크 를 제안하는 것을 목표로 합니다.#Review#Video Stylization#Unified Framework#Diffusion Models#LoRA#Data Curation#Multi-modal Input#Image-to-Video2026년 1월 6일댓글 수 로딩 중
[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image GenerationiMontage는 사전 훈련된 비디오 모델을 재활용하여 고도로 동적인 다대다 이미지 생성을 위한 통합 프레임워크를 제시합니다.#Review#Image Generation#Video Models#Diffusion Models#Many-to-many#Unified Framework#Temporal Consistency#Image Editing#Positional Embedding2025년 11월 25일댓글 수 로딩 중
[논문리뷰] RynnVLA-002: A Unified Vision-Language-Action and World Model본 논문은 기존 VLA 모델(액션 다이내믹스 이해 부족, 상상력 및 물리 지식 결여)과 월드 모델(직접적인 액션 생성 불가)의 한계를 극복하기 위해, VLA 모델과 월드 모델을 단일 프레임워크로 통합 하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA) Model#World Model#Robotics#Unified Framework#Multi-modal Learning#Action Generation#Attention Mask#Continuous Control2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification본 논문은 생성 모델링(Generative Modeling) , 표현 학습(Representation Learning) , 분류(Classification) 라는 세 가지 핵심 ML 태스크를 단일 통합 원칙으로 해결하는 것을 목표로 합니다.#Review#Generative Modeling#Representation Learning#Classification#Unified Framework#Latent Space#Flow Matching#Deep Learning#Image Generation2025년 9월 22일댓글 수 로딩 중
[논문리뷰] Towards a Unified View of Large Language Model Post-Training본 논문은 LLM의 포스트 트레이닝 과정에서 Supervised Fine-Tuning (SFT) 과 Reinforcement Learning (RL) 이 별개의 목표가 아니라, 단일 최적화 프로세스의 인스턴스임을 이론적으로 통합하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Post-Training#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Policy Gradient#Unified Framework#Hybrid Algorithms#Bias-Variance Tradeoff2025년 9월 5일댓글 수 로딩 중
[논문리뷰] USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning본 논문은 스타일 기반 생성(style-driven generation)과 주제 기반 생성(subject-driven generation)이 기존에 별개의 태스크로 다뤄져 상충되는 문제를 해결하고자 합니다.#Review#Style-Driven Generation#Subject-Driven Generation#Disentangled Representation#Reward Learning#Cross-Task Learning#Diffusion Models#Image Customization#Unified Framework2025년 8월 29일댓글 수 로딩 중
[논문리뷰] VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning본 논문은 사용자가 지정한 임의의 공간 및 시간 위치에 패치를 배치하여 비디오를 생성하는 '임의의 시공간 비디오 완성(arbitrary spatio-temporal video completion)' 이라는 새로운 태스크를 제안합니다.#Review#Video Completion#Spatio-Temporal Control#In-Context Conditioning#Video Diffusion Models#RoPE Interpolation#VAE#Unified Framework#Video Generation2025년 10월 10일댓글 수 로딩 중
[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM Guidance컴퓨터 비전 분야에서 Multimodal Large Language Models (MLLM) 의 강력한 시각 이해 및 추론 능력을 활용하여 확산 모델(diffusion models) 의 편집 성능을 향상시키는 것을 목표로 합니다.#Review#Visual Editing#MLLM Guidance#Diffusion Models#Image Editing#Video Editing#Unified Framework#Multimodal AI#Instruction-based Editing2025년 10월 10일댓글 수 로딩 중