#Generative AI

87개의 포스트

[논문리뷰] From Human-Centric to Agentic Code Review: The Impact of Different Generations of Generative AI Technology on Review Quality

본 논문은 Generative AI 기술이 소프트웨어 개발 생태계에 깊숙이 침투함에 따라, 기존의 Human-Centric 코드 리뷰가 LLM 및 AI Agent가 결합된 형태로 변화하면서 발생하는 리뷰 품질 및 효율성 변화를 규명하고자 합니다 .

#Review #Generative AI #Code Review #LLM #AI Agents #Review Quality #Human-AI Collaboration #Software Engineering

2026년 7월 19일

[논문리뷰] ResearchStudio-Reel: Automate the Last Mile of Research from Paper to Poster, Video, and Blog

본 논문은 학술 논문을 포스터, 영상, 블로그 글로 변환하는 이른바 'Last Mile' 연구 확산 과정의 비효율성을 해결하기 위해 ResearchStudio-Reel을 제안한다 . 기존 연구(Baseline) 시스템들은 다음과 같은 3가지 주요 한계점을 가진다.

#Review #Generative AI #Research Dissemination #Automated Poster Generation #Agent Framework #Multi-modal Workflow #Scientific Communication

2026년 7월 6일

[논문리뷰] Artificial Intelligence Index Report 2026

본 보고서는 AI 기술이 전례 없는 속도로 확산됨에 따라, 기술 발전 속도와 이를 관리하기 위한 거버넌스 및 평가 프레임워크 간의 격차가 심화되는 문제를 제기한다.

#Review #Generative AI #AI Sovereignty #Technical Benchmarks #AI Adoption #Responsible AI

2026년 6월 15일

[논문리뷰] Score-Control for Hallucination Reduction in Diffusion Models

본 논문은 현대 Diffusion Model에서 발생하는 Hallucination 문제가 학습된 Score Function의 지나친 Smoothness에서 기인한다는 점을 이론적으로 규명합니다.

#Review #Diffusion Models #Hallucination Reduction #Score Smoothness #Variance-Guided Score Modulation (VSM)#Lipschitz Constant #Generative AI #Jacobian

2026년 6월 3일

[논문리뷰] Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

본 논문은 EAVAE라는 2단계 학습 프레임워크를 제안한다. 첫 번째 단계에서는 대규모 authorship 데이터에 대해 supervised contrastive learning을 수행하여 기초적인 저자 스타일 표현을 사전 학습한다.

#Review #Authorship Attribution #Disentangled Representation Learning #Variational Autoencoder #Explainable AI #Generative AI #Content-Style Entanglement

2026년 4월 23일

[논문리뷰] Seedance 2.0: Advancing Video Generation for World Complexity

본 연구는 기존 비디오 생성 모델이 가졌던 짧은 클립 생성 위주의 한계와 제한적인 제어 능력을 극복하고, 복잡한 실세계 시나리오에 대응하는 강력하고 조작 가능한(controllable) 비디오 합성 기술을 구현하는 데 목적이 있습니다.

#Review #Video Generation #Multimodal Foundation Model #Audio-Video Joint Generation #Controllability #Generative AI #Real-world Complexity

2026년 4월 15일

[논문리뷰] Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

최근 Multimodal Large Language Models (MLLMs)는 인상적인 Semantic Capability를 보여주지만, Fine-grained geometric reasoning 및 Physical dynamics와 관련된 'Spatial blindness' 문제를 겪고 있습니다.

#Review #Video Generation Models #3D Priors #Scene Understanding #Spatial Reasoning #Multimodal Large Language Models (MLLMs)#Latent World Simulator #Adaptive Gated Fusion #Generative AI

2026년 3월 19일

[논문리뷰] LLM2Vec-Gen: Generative Embeddings from Large Language Models

기존 입력 중심의 텍스트 임베딩 방식은 다양한 입력이 유사한 출력으로 매핑되어야 하는 '입력-출력 격차' 문제와 LLM의 안전성 및 추론 능력 전이의 한계를 가집니다.

#Review #Large Language Models #Text Embeddings #Generative AI #Self-Supervised Learning #Knowledge Distillation #Semantic Search #Retrieval-Augmented Generation

2026년 3월 11일

[논문리뷰] Just-in-Time: Training-Free Spatial Acceleration for Diffusion Transformers

Diffusion Transformers(DiT)의 높은 계산 비용, 특히 공간적 중복성으로 인한 실용적 배포의 어려움을 해결하는 것이 주요 목표입니다.

#Review #Diffusion Transformers #Spatial Acceleration #Training-Free #Generative AI #Flow Matching #ODE Solvers #Inference Speedup #Resource Allocation

2026년 3월 11일

[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

기존 Classifier-Free Guidance (CFG)가 선형 제어에 의존하여 높은 가이던스 스케일에서 발생하는 불안정성, 오버슈팅, 의미 충실도 저하 문제를 해결하는 것입니다.

#Review #Diffusion Models #Classifier-Free Guidance #Control Theory #Sliding Mode Control #Text-to-Image Generation #Flow Matching #Generative AI #Robustness

2026년 3월 3일

[논문리뷰] OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

이 논문은 편집 용이성, 플랫폼 호환성, 해상도 독립성이 부족한 기존 래스터 비디오 애니메이션 생성 방식의 한계를 극복하고자 합니다.

#Review #Vector Animation Generation #Lottie #Multimodal Instructions #Tokenizer #Vision-Language Models #Generative AI #Dataset

2026년 3월 2일

[논문리뷰] Accelerating Diffusion via Hybrid Data-Pipeline Parallelism Based on Conditional Guidance Scheduling

확산 모델(Diffusion Models)의 높은 계산 비용으로 인한 추론 지연 문제를 해결하고, 기존 분산 병렬화 방식에서 발생하는 생성 아티팩트 및 비례적 가속 한계를 극복하는 것을 목표로 합니다. 특히, 조건부 확산 모델에서 이미지 품질 저하 없이 선형적 가속을 뛰어넘는 추론 속도 향상 을 달성하고자 합니다.

#Review #Diffusion Models #Distributed Parallelism #Conditional Guidance #Adaptive Scheduling #Generative AI #Latency Reduction #Multi-GPU

2026년 2월 26일

[논문리뷰] SeaCache: Spectral-Evolution-Aware Cache for Accelerating Diffusion Models

확산 모델의 느린 추론 속도를 개선하기 위해 기존 캐싱 방법론이 원시 특징(raw feature) 차이 에만 의존하여 콘텐츠와 노이즈를 혼합하고, 이로 인해 스펙트럼 진화(spectral evolution) 를 간과하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #Model Acceleration #Feature Caching #Spectral Analysis #Generative AI #Image Generation #Video Generation #Latency Reduction

2026년 2월 25일

[논문리뷰] AAVGen: Precision Engineering of Adeno-associated Viral Capsids for Renal Selective Targeting

유전자 치료 벡터로 사용되는 아데노-관련 바이러스(AAV)는 조직 특이성, 면역 회피, 생산 효율성에서 한계를 가지며, 특히 신장 표적화는 난제로 남아있습니다.

#Review #Generative AI #Protein Language Model #Reinforcement Learning #AAV Capsid Engineering #Multi-objective Optimization #Renal Targeting #AlphaFold3 #ESM-2

2026년 2월 23일

[논문리뷰] Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

멀티모달 모델에서 생성 능력과 이해 능력 향상이 서로 상충되는 '최적화 딜레마'를 해결하는 것을 목표로 합니다. 생성과 이해가 경쟁적 목표가 아닌 시너지를 발휘하도록 하여, 강력한 생성 성능과 개선된 이해 능력을 동시에 달성하는 통합 프레임워크를 제시합니다.

#Review #Multimodal Models #Generative AI #Understanding #Reason-Reflect-Refine (R3)#Reinforcement Learning (RL)#Text-to-Image Generation #Optimization Dilemma #Image Editing

2026년 2월 17일

[논문리뷰] Geometry-Aware Rotary Position Embedding for Consistent Video World Model

본 논문은 카메라 제어가 가능한 시각적 월드 모델(predictive visual world models)이 긴 궤적(long trajectories)에서 안정적인 장면 구조를 유지하지 못하고 기하학적 표류(geometric drift)를 겪는 문제 를 해결하는 것을 목표로 합니다.

#Review #Video World Model #Generative AI #Transformer #Positional Encoding #3D Consistency #View Synthesis #Sparse Attention #Loop Closure

2026년 2월 17일

[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report

본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.

#Review #Image Editing #Diffusion Transformer #Instruction-based Editing #Data Curation #Reinforcement Learning #Multimodal Models #REDEdit-Bench #Generative AI

2026년 2월 16일

[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.

#Review #Large Language Models #Prefill Attacks #AI Safety #Red Teaming #Vulnerability #Open-Weight Models #Jailbreaking #Generative AI

2026년 2월 16일

[논문리뷰] QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search

기존 검색 엔진의 쿼리 처리(QP) 시스템은 여러 개의 분리된 차별 모델 파이프라인으로 구성되어 제한적인 의미 이해 능력 과 높은 유지보수 오버헤드 를 겪습니다.

#Review #Large Language Models (LLMs)#Query Understanding #Multi-Task Learning #Generative AI #Reinforcement Learning (RL)#Social Network Services (SNS)#Xiaohongshu #Search Engines

2026년 2월 11일

[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

본 논문은 LLM을 텍스트 인코더로 사용하는 DiT 기반 텍스트-이미지 모델에서, 정적인 텍스트 컨디셔닝이 LLM의 의미론적 계층 구조와 DiT의 동적인 denoising 과정을 충분히 활용하지 못하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #LLM #Text-to-Image #Transformer #Semantic Routing #Feature Fusion #Dynamic Conditioning #Generative AI

2026년 2월 4일

[논문리뷰] Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning

본 논문은 기존 생성형 AI 모델이 픽셀 수준의 지침과 표면적 외관 유지에만 머물러 진정한 은유적 생성을 위한 추상적 논리를 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Visual Metaphor Transfer #Conceptual Blending Theory #Schema Grammar #Multi-Agent Framework #Generative AI #VLM #LLM #Creative AI

2026년 2월 2일

[논문리뷰] UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

본 연구는 사전 훈련된 비전 백본으로부터 밀도 높은 특징(dense features)을 효율적으로 생성하는 과정에서 발생하는 계산 비용 문제 를 해결하고자 합니다.

#Review #Feature Upsampling #Local Attender #Pixel-Dense Features #Iterative Upsampling #Vision Transformer #Efficiency #Generative AI #Semantic Segmentation

2026년 1월 28일

[논문리뷰] DRPG (Decompose, Retrieve, Plan, Generate): An Agentic Framework for Academic Rebuttal

본 논문은 학술적 동료 심사 과정에서 중요한 단계인 학술 리버탈(rebuttal)에 대한 자동화된 지원이 부족하고, 기존 LLM 기반 접근 방식이 긴 컨텍스트 이해와 설득력 있는 응답 생성에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Academic Rebuttal #LLM Agents #Peer Review Automation #Generative AI #Retrieval-Augmented Generation (RAG)#Strategic Planning #Persuasion

2026년 1월 26일

[논문리뷰] DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

현재 Multimodal Large Language Models (MLLMs)이 겪는 텍스트 중심 추론의 한계와 복잡한 장기 시각 중심 태스크에서의 비효율성을 해결하고, 확산 모델을 활용한 새로운 '생성형 멀티모달 추론' 패러다임을 확립하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Diffusion Models #Image-to-Image Generation #Vision-centric AI #Generative AI #Spatial Planning #Constraint Satisfaction

2026년 1월 1일

[논문리뷰] Guiding a Diffusion Transformer with the Internal Dynamics of Itself

확산 트랜스포머(Diffusion Transformer) 모델이 저확률 데이터 영역에서 고품질 이미지를 생성하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Transformer #Generative AI #Image Generation #Guidance Strategy #Internal Guidance #Auxiliary Loss #Classifier-Free Guidance

2025년 12월 31일

[논문리뷰] SemanticGen: Video Generation in Semantic Space

기존 비디오 생성 모델의 느린 수렴 속도 와 긴 비디오 생성 시 높은 계산 비용 이라는 한계를 해결하는 것을 목표로 합니다. 비디오의 내재된 중복성을 활용하여 컴팩트하고 높은 수준의 의미 공간(semantic space) 에서 비디오를 생성함으로써 효율성과 품질을 동시에 개선하고자 합니다.

#Review #Video Generation #Semantic Space #Diffusion Models #VAE Latents #Long Video Generation #Semantic Encoders #Generative AI

2025년 12월 23일

[논문리뷰] Active Intelligence in Video Avatars via Closed-loop World Modeling

기존 비디오 아바타 생성 방식이 단순한 애니메이션을 넘어 자율적인 에이전시 를 가지지 못하고 장기 목표를 달성할 수 없는 한계를 해결하는 것이 목표입니다.

#Review #Video Avatars #Active Intelligence #World Models #Closed-loop Reasoning #POMDP #Generative AI #Hierarchical Planning #Cognitive Architecture

2025년 12월 23일

[논문리뷰] Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

본 논문은 멀티턴 LLM 에이전트 학습에서 기존 GRPO(Group Relative Policy Optimization) 의 불안정성과 비효율성을 해결하고자 합니다. 특히 긴 추론이 필요한 시나리오에서 샘플링 분산이 높고, 턴별 기여도가 불균등하여 불정확한 어드밴티지 추정이 발생하는 문제를 개선하는 것을 목표로 합니다.

#Review #Multi-Turn Reinforcement Learning #LLM Agents #Proximal Policy Optimization (PPO)#Turn-Level MDP #Advantage Estimation #Generative AI #Deep Reinforcement Learning

2025년 12월 21일

[논문리뷰] 3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework

본 논문은 단일 2D 이미지로부터 시각 효과(VFX) 및 게임 개발에 즉시 활용 가능한, 수정 가능한 생산 준비 완료(production-ready) 3D 텍스처 메시 장면 을 재구성하는 것을 목표로 합니다.

#Review #3D Reconstruction #Generative AI #Indoor Scenes #Compositional Framework #Differentiable Rendering #Image-to-3D #VFX #Game Development

2025년 12월 21일

[논문리뷰] Kling-Omni Technical Report

논문은 단편적인 비디오 생성, 편집, 추론 태스크들을 통합하여 멀티모달 시각 언어(MVL) 입력 으로부터 고품질 비디오를 직접 합성하는 범용 생성 프레임워크인 Kling-Omni 를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Multimodal Visual Language #Generative AI #Video Editing #Reasoning-enhanced Generation #Diffusion Transformer #Multi-modal World Simulators

2025년 12월 18일

[논문리뷰] Generative Refocusing: Flexible Defocus Control from a Single Image

본 논문은 단일 이미지로부터 촬영 후 유연한 초점 및 심도 제어를 가능하게 하는 생성적 리포커싱(Generative Refocusing) 시스템을 개발하는 것을 목표로 합니다.

#Review #Generative AI #Image Refocusing #Defocus Deblurring #Bokeh Synthesis #Depth of Field Control #Semi-Supervised Learning #Diffusion Models #Aperture Shape Control

2025년 12월 18일

[논문리뷰] Learning Unmasking Policies for Diffusion Language Models

마스킹된 이산 확산 언어 모델(dLLMs)에서 토큰 마스킹 해제(unmasking) 방식이 추론 효율성과 생성 품질에 중요한 영향을 미칩니다.

#Review #Diffusion Language Models #Reinforcement Learning #Masked Diffusion #Sampling Policy #Inference Optimization #Markov Decision Process #Generative AI #Text Generation

2025년 12월 10일

[논문리뷰] NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

기존 확산 모델이 데이터의 공간적 구조를 파괴하는 문제를 해결하고, 아키텍처 변경이나 추가 파라미터 없이 이미지의 위상을 보존하여 구조 정렬 생성(structure-aligned generation) 을 가능하게 하는 새로운 확산 프로세스를 제안합니다.

#Review #Diffusion Models #Phase Preservation #Frequency Domain #Structure-Aligned Generation #Image-to-Image Translation #Sim-to-Real #Generative AI

2025년 12월 4일

[논문리뷰] Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

본 연구는 최근 LVLM(Large Vision-Language Model) 기반 텍스트-투-이미지(T2I) 모델 이 이미지 생성에서 높은 품질을 달성했음에도 불구하고, 사회적 편향을 얼마나 증폭시키는지에 대한 이해가 부족하다는 문제의식을 제기합니다.

#Review #Text-to-Image #LVLM #Social Bias #System Prompts #Bias Mitigation #Meta-Prompting #Fairness #Generative AI

2025년 12월 4일

[논문리뷰] MRI Super-Resolution with Deep Learning: A Comprehensive Survey

본 조사는 딥러닝(DL) 기반 자기공명영상(MRI) 초해상화(SR) 기술의 최신 발전을 포괄적으로 검토하고 체계적으로 분류하는 것을 목표로 합니다. 컴퓨터 비전, 계산 영상학, 역문제 및 MR 물리학 관점에서 접근하여 이론적 기반, 아키텍처, 학습 전략, 벤치마크 데이터셋, 성능 지표 등을 분석합니다.

#Review #MRI Super-Resolution #Deep Learning #Computational Imaging #Inverse Problems #Generative AI #Medical Imaging #Survey

2025년 11월 30일

[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

본 논문은 오디오-비디오 동시 생성 모델에서 발생하는 불안정한 오디오-비디오 정렬 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Visual Generation #Cross-Modal Synchronization #Diffusion Models #Cross-Task Synergy #Classifier-Free Guidance #Multimodal AI #Generative AI

2025년 11월 26일

[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.

#Review #3D City Generation #Generative AI #Large Language Models #Vision-Language Models #Multi-Agent Framework #Self-Critic Learning #Scene Graph #Text-to-3D

2025년 11월 25일

[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning

본 논문은 기존 비전-언어 에이전트가 인간 주석 기반 지도 학습의 한계와 복잡한 시각적 추론 단계 검증의 어려움, 그리고 평가 환각 문제로 인해 연속적인 자가 발전이 어렵다는 문제를 해결하고자 합니다.

#Review #Self-Evolving Agent #Vision-Language Models #Tool-Integrated Reasoning #Reinforcement Learning #Self-Correction #Multimodal AI #Generative AI

2025년 11월 25일

[논문리뷰] Controllable Layer Decomposition for Reversible Multi-Layer Image Generation

본 논문은 합성된 래스터 이미지에서 레이어 수준의 편집이 불가능한 한계를 극복하고자 합니다. 기존 이미지 매팅 및 인페인팅 기반 방법들이 제어 가능성과 분할 정밀도에서 부족했던 문제를 해결하기 위해, 사용자 정의 바운딩 박스를 기반으로 미세 조정 가능하고 제어 가능한 다중 레이어 분리 를 달성하는 방법을 제안합니다.

#Review #Controllable Layer Decomposition #Diffusion Models #Multi-Layer Image Generation #Layer Separation #Bounding Box Guidance #Generative AI #Image Editing

2025년 11월 24일

[논문리뷰] WorldGen: From Text to Traversable and Interactive 3D Worlds

본 논문은 텍스트 프롬프트로부터 대규모의 인터랙티브 3D 월드를 자동으로 생성하는 시스템 WorldGen 을 소개합니다.

#Review #3D World Generation #Text-to-3D #Generative AI #Procedural Generation #Scene Decomposition #Navmesh #Game Engines #Interactive Environments

2025년 11월 23일

[논문리뷰] Loomis Painter: Reconstructing the Painting Process

본 논문은 기존 생성 모델들이 겪는 시간적 불연속성, 구조적 불일치, 그리고 다양한 예술 매체에 대한 일반화 능력 부족 문제를 해결하여, 어떤 입력 이미지에 대해서도 사실적이고 일관된 단계별 그림 그리기 과정 을 생성하는 것을 목표로 합니다.

#Review #Painting Process Generation #Video Diffusion Models #Media Transfer #Reverse Painting #Dataset Curation #Perceptual Distance Profile #Artistic Workflow #Generative AI

2025년 11월 23일

[논문리뷰] A Style is Worth One Code: Unlocking Code-to-Style Image Generation with Discrete Style Space

본 논문은 기존 텍스트 프롬프트, 참조 이미지, LoRA 기반 스타일 생성 방식이 겪는 스타일 일관성 부족, 창의성 한계, 복잡한 스타일 표현 문제를 해결하고자 합니다.

#Review #Code-to-Style Generation #Discrete Style Space #Style Codebook #Autoregressive Model #Diffusion Models #Visual Stylization #Generative AI

2025년 11월 18일

[논문리뷰] Simulating the Visual World with Artificial Intelligence: A Roadmap

본 논문은 비디오 생성 모델이 포괄적인 물리적 세계 모델(Physical World Model) 로 진화하는 과정을 체계적으로 조망하고 로드맵을 제시하는 것을 목표로 합니다.

#Review #World Models #Video Generation #AI Simulation #Generative AI #Physical Plausibility #Interactive AI #Planning #Roadmap

2025년 11월 16일

[논문리뷰] Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation

현재 텍스트-투-이미지(T2I) 모델이 종종 동질적인 이미지를 생성하며 다양성이 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Models #Diversity Evaluation #Human Evaluation #Attribute-Conditional #Vendi Score #Generative AI #Benchmarking

2025년 11월 13일

[논문리뷰] MADD: Multi-Agent Drug Discovery Orchestra

초기 신약 개발 과정에서 히트 분자(hit molecule) 식별 에 필요한 막대한 자원과 기존 AI 방법론의 복잡성 및 접근성 부족 문제를 해결하는 것이 목표입니다.

#Review #Multi-Agent System #Drug Discovery #LLM #Hit Identification #Virtual Screening #Generative AI #Property Prediction #Automated Machine Learning

2025년 11월 12일

[논문리뷰] Optimizing Diversity and Quality through Base-Aligned Model Collaboration

본 연구는 대규모 언어 모델(LLM)에서 다양성(diversity) 과 품질(quality) 간의 본질적인 트레이드오프 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Generative AI #Diversity-Quality Trade-off #Model Collaboration #Inference Optimization #Routing Strategy #Text Generation

2025년 11월 11일

[논문리뷰] KLASS: KL-Guided Fast Inference in Masked Diffusion Models

Masked Diffusion Models (MDMs)는 다양한 생성 태스크에서 우수한 성능을 보이지만, 느리고 정적인 샘플링 속도 로 인해 추론 과정에 병목 현상이 발생합니다.

#Review #Masked Diffusion Models #Fast Inference #Adaptive Sampling #KL Divergence #Confidence Score #Generative AI #Efficient Sampling

2025년 11월 11일

[논문리뷰] EVTAR: End-to-End Try on with Additional Unpaired Visual Reference

본 연구는 기존 가상 착용(virtual try-on) 모델들이 agnostic person images , human pose , densepose 등 복잡한 입력에 의존하고 레퍼런스 이미지 지원이 부족하여 현실성이 떨어지는 문제를 해결하고자 합니다.

#Review #Virtual Try-on #Diffusion Models #End-to-End Learning #Reference Images #Unpaired Data #Flow Matching #Transformer Architecture #Generative AI

2025년 11월 9일

[논문리뷰] Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation

본 논문은 멀티모달 환경에서 쿼리 증강(query augmentation)으로 인한 과도한 임베딩 지연 시간 과 일부 쿼리에서의 성능 저하 문제를 해결하고, 쿼리 증강의 효과를 높이는 것을 목표로 합니다.

#Review #Multimodal Embedders #Query Augmentation #Adaptive Learning #Multimodal LLM #Information Retrieval #Generative AI #Embedding Latency

2025년 11월 9일

[논문리뷰] RiddleBench: A New Generative Reasoning Benchmark for LLMs

대규모 언어 모델(LLMs)이 인간 지능의 핵심 요소인 유연하고 다면적인 추론 능력(논리적 추론, 공간 인식, 제약 조건 만족)을 평가하는 데 있어 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #LLM Reasoning #Generative AI #Benchmark #Logical Deduction #Spatial Reasoning #Constraint Satisfaction #Hallucination Cascade #Self-Correction

2025년 11월 9일

[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw

현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Evaluation #Spatial Reasoning #Benchmark #Generative AI #Visual Perception #Spatial Imagination #Code Generation

2025년 11월 9일

[논문리뷰] UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings

본 논문은 기존의 멀티모달 대규모 언어 모델(MLLMs) 기반 임베딩 모델 이 판별적(discriminative)이라는 한계를 해결하고, 추론 중심의 생성 패러다임의 이점을 활용하는 것을 목표로 합니다.

#Review #Multimodal Embeddings #Generative AI #Reasoning #Reinforcement Learning #MLLMs #Supervised Fine-tuning #Information Retrieval #Unified Embeddings

2025년 11월 9일

[논문리뷰] HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

확산 모델이 적은 NFEs(Neural Function Evaluations) 또는 낮은 guidance scale에서 비현실적인 출력과 세부 정보 부족을 보이는 문제를 해결하고, 확산 샘플링의 품질과 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Models #Sampling #Generative AI #Image Generation #Plug-and-Play #Training-Free #Guidance #Momentum-Based Methods

2025년 9월 29일

[논문리뷰] SD3.5-Flash: Distribution-Guided Distillation of Generative Flows

본 논문은 최첨단 생성 모델, 특히 Rectified Flow 모델 의 높은 연산 요구량으로 인해 발생하는 접근성 문제를 해결하고자 합니다.

#Review #Generative AI #Image Generation #Diffusion Models #Rectified Flow #Model Distillation #Few-Step Generation #Computational Efficiency #Prompt Alignment

2025년 9월 26일

[논문리뷰] CHARM: Control-point-based 3D Anime Hairstyle Auto-Regressive Modeling

본 연구는 기존 사실적인 헤어 모델링 기법으로는 다루기 어려운, 고도로 양식화된 3D 애니메이션 헤어스타일 의 효율적인 모델링 및 생성 문제를 해결하고자 합니다.

#Review #3D Anime Hairstyle #Autoregressive Modeling #Control Points #Parametric Representation #Transformer #Generative AI #Dataset (AnimeHair)#Computer Graphics

2025년 9월 26일

[논문리뷰] Video models are zero-shot learners and reasoners

본 논문은 비디오 모델이 대규모 언어 모델(LLM)이 언어 이해 분야에서 이룬 것과 같이, 일반적인 목적의 비전 파운데이션 모델이 될 수 있다는 가설을 제시합니다.

#Review #Video Models #Zero-shot Learning #Visual Reasoning #Foundation Models #Generative AI #Perception #Manipulation #Modeling

2025년 9월 25일

[논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines

이 논문은 최첨단 거대 언어 모델(LLM) 과 이들이 다양한 학문 분야(인문학, 법률, 경제, 경영, 과학, 공학)에 통합되는 현황을 종합적으로 검토하는 것을 목표로 합니다.

#Review #Large Language Models #Generative AI #Academic Disciplines #LLM Applications #Review #Cross-disciplinary Research #Benchmarks

2025년 9월 25일

[논문리뷰] Lyra: Generative 3D Scene Reconstruction via Video Diffusion Model Self-Distillation

본 논문의 핵심 목표는 실세계 다중 뷰 데이터 없이 단일 이미지 또는 비디오 입력으로부터 고품질의 3D 및 4D 장면을 생성하는 것입니다.

#Review #Generative AI #3D Scene Reconstruction #Video Diffusion Models #Self-Distillation #3D Gaussian Splatting #Dynamic 4D Generation #Monocular Input

2025년 9월 24일

[논문리뷰] Hunyuan3D Studio: End-to-End AI Pipeline for Game-Ready 3D Asset Generation

이 논문은 노동 집약적이고 전문화된 기존 3D 에셋 생성 워크플로우로 인한 게임 개발의 병목 현상을 해결하고자 합니다.

#Review #3D Asset Generation #AI Pipeline #Generative AI #Game Development #Diffusion Models #Neural Modules #Retopology #UV Unwrapping

2025년 9월 17일

[논문리뷰] 3D Aware Region Prompted Vision Language Model

본 논문은 단일 뷰 2D 이미지와 다중 뷰 3D 데이터를 공유된 시각 토큰 공간으로 연결하는 3D-aware Vision-Language Model (VLM) 인 SR-3D 를 제안하여, 복잡한 3D 장면에서 유연하고 정확한 공간 추론 능력을 제공하는 것을 목표로 합니다.

#Review #3D Vision #Vision-Language Models #Spatial Reasoning #Region Prompting #Multi-view Learning #Depth Estimation #Unified Representation #Generative AI

2025년 9월 17일

[논문리뷰] X-Part: high fidelity and structure coherent shape decomposition

기존 파트 기반 3D 형태 생성 방식이 낮은 제어 가능성과 의미론적으로 불분명한 분해 성능을 보이는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Shape Decomposition #Diffusion Models #Part-level Generation #Controllable Generation #Bounding Box Prompts #Semantic Features #Interactive Editing #Generative AI

2025년 9월 15일

[논문리뷰] InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis

본 논문은 기존 확산 모델이 고해상도 이미지 생성 시 해상도에 따라 연산 요구량이 제곱으로 증가 하여 4K 이미지 생성에 100초 이상 이 소요되는 문제점을 해결하고자 합니다.

#Review #Image Synthesis #Resolution-Agnostic #Diffusion Models #Latent Space #VAE Decoder #High-Resolution Image Generation #Generative AI #Transformer Architecture

2025년 9월 15일

[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model Generations

대규모 언어 모델(LM)의 후처리 과정에서 발생하는 다양성 감소 문제를 해결하는 것이 주요 목표입니다. 기존 후처리 방식이 정확도와 유용성에 초점을 맞춰 출력 분포가 과도하게 좁아지고 아이디어 범위가 축소되는 현상을 방지하며, 응답 품질과 의미론적 다양성을 동시에 최적화하는 방법을 제시하고자 합니다.

#Review #Reinforcement Learning #Language Models #Diversity Optimization #Quality Enhancement #Semantic Clustering #Post-training #Generative AI

2025년 9월 3일

[논문리뷰] Dress&Dance: Dress up and Dance as You Like It - Technical Preview

본 논문은 정적인 2D 이미지 기반의 가상 착용(virtual try-on) 방식과 기존 비디오 생성 모델의 한계를 극복하여, 사용자가 원하는 옷을 입고 특정 동작(춤)을 수행하는 고품질의 5초 길이, 1152x720 해상도, 24 FPS 가상 착용 비디오를 생성하는 것을 목표로 합니다.

#Review #Virtual Try-On #Video Diffusion #Multi-modal Conditioning #Garment Transfer #Pose Animation #Generative AI #Fashion Tech #CondNet

2025년 8월 29일

[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation

본 연구는 텍스트-이미지(T2I) 생성 시 다중 속성 및 모호한 프롬프트 처리 능력의 한계 를 극복하고자 합니다.

#Review #Text-to-Image Generation #Reinforcement Learning #Chain of Thought #Multimodal LLMs #Stage-Aware Rewards #Semantic Reasoning #Generative AI

2025년 8월 26일

[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.

#Review #Flow Matching #Reinforcement Learning #Human Preference Alignment #GRPO #Temporal Credit Assignment #Generative AI #Text-to-Image

2025년 8월 20일

[논문리뷰] OmniTry: Virtual Try-On Anything without Masks

이 논문은 기존 가상 착용(VTON) 기술이 의류에 국한되고 입력 마스크를 필요로 하는 한계를 극복하고자 합니다. 마스크 없이도 주얼리, 액세서리 등 다양한 종류의 착용 가능한 객체 를 가상으로 착용시켜볼 수 있는 범용적인 VTON 프레임워크인 OmniTry 를 개발하여, 실제 응용 분야의 폭넓은 확장을 목표로 합니다.

#Review #Virtual Try-On #Diffusion Model #Mask-Free #Image Inpainting #ID Consistency #Wearable Objects #Generative AI

2025년 8월 20일

[논문리뷰] StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation

본 논문은 기존 3D Morphable Model (3DMM)의 한계, 즉 일관된 메쉬 구조, 분리된 제어, 그리고 사실적 범위를 넘어서는 스타일화라는 세 가지 핵심 요구사항을 동시에 충족하지 못하는 문제를 해결하고자 합니다.

#Review #3D Morphable Model #Face Stylization #Text-to-Image Translation #Diffusion Model #Attribute Preservation #Generative AI #Computer Graphics

2025년 8월 18일

[논문리뷰] ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

이 논문은 전통적인 카툰 제작 파이프라인의 핵심적인 병목 현상인 인비트위닝(inbetweening) 과 컬러라이제이션(colorization) 단계의 수동적인 노력과 오류 누적 문제를 해결하는 것을 목표로 합니다.

#Review #Cartoon Generation #Video Diffusion Models #DiT #Post-Keyframing #Low-Rank Adaptation #Sparse Control #Generative AI #Animation

2025년 8월 15일

[논문리뷰] A Survey on Diffusion Language Models

본 설문조사는 지배적인 자기회귀(AR) 패러다임 에 대한 강력하고 유망한 대안으로 부상하고 있는 확산 언어 모델(DLM) 의 전체 생태계를 체계적으로 포괄적으로 조명하는 것을 목표로 합니다. DLM의 근본 원리, 기술, 한계 를 분석하고, 미래 연구 방향 을 제시하여 이 빠르게 발전하는 분야의 발전을 촉진하고자 합니다.

#Review #Diffusion Language Models #Generative AI #Parallel Decoding #Text Generation #Multimodal AI #Model Compression #Reinforcement Learning from Human Feedback #Inference Optimization

2025년 8월 15일

[논문리뷰] Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

본 논문은 확산 모델에서 추론 시 계산 비용을 크게 증가시키는 테스트-시간 스케일링(test-time scaling) 의 문제점을 해결하고자 합니다.

#Review #Diffusion Models #Hypernetworks #Test-Time Optimization #Reward-Guided Generation #Latent Space Optimization #LoRA #Generative AI

2025년 8월 14일

[논문리뷰] Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future

본 논문은 기존의 Self-Rewarding Language Models에서 발생하는 '그라디언트 소멸(gradient collapse) 문제' 를 해결하는 것을 목표로 합니다.

#Review #Self-Rewarding LLMs #Direct Preference Optimization (DPO)#Preference Learning #Generative AI #Gradient Collapse #LLM Alignment #Iterative Optimization

2025년 8월 12일

[논문리뷰] Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

가상 의류 착용(try-on) 및 탈의(try-off) 시 사람의 자세 및 외형 변화에 따른 의류-신체 일치성 모델링과 세부 묘사의 정확성 유지라는 고질적인 문제를 해결하는 것입니다.

#Review #Virtual Try-On #Virtual Try-Off #Diffusion Transformer #Bidirectional Learning #Generative AI #Fashion Synthesis #Attention Mechanism #Self-Correction

2025년 8월 11일

[논문리뷰] Personalized Safety Alignment for Text-to-Image Diffusion Models

현재 텍스트-투-이미지(T2I) 확산 모델의 안전 메커니즘이 사용자의 다양한 연령, 정신 건강, 개인 신념 등의 선호도를 고려하지 않고 일률적인 기준을 적용하여 발생하는 한계를 해결하고자 합니다.

#Review #Personalized Safety Alignment #Text-to-Image Diffusion Models #DPO #User Preferences #Content Moderation #Generative AI #Cross-Attention #Safety Alignment

2025년 8월 5일

[논문리뷰] The Principles of Diffusion Models

본 논문(모노그래프)은 확산 모델(Diffusion Models)의 근본적인 원리를 심층적으로 분석하고, 다양한 정식화(formulations)들이 어떻게 공통된 수학적 아이디어에서 파생되었는지 추적하여 통일된 관점을 제시하는 것을 목표로 합니다.

#Review #Diffusion Models #Generative AI #Variational Autoencoder #Energy-Based Models #Normalizing Flows #Score-Based SDEs #Flow Matching #Fokker-Planck Equation

2025년 10월 30일

[논문리뷰] ODesign: A World Model for Biomolecular Interaction Design

ODesign은 기존의 분자 설계 AI 모델들이 특정 분자 유형에만 전문화되어 상호작용 세부 사항에 대한 미세 조정이 부족하다는 한계를 해결하고자 합니다.

#Review #Biomolecular Interaction Design #Generative AI #World Model #Multimodal Molecular Design #All-atom Generation #Diffusion Models #Protein Design #Nucleic Acid Design

2025년 10월 30일

[논문리뷰] From Masks to Worlds: A Hitchhiker's Guide to World Models

이 논문은 '진정한 월드 모델'을 구축하기 위한 명확한 로드맵을 제시하며, 단순한 모델 목록을 나열하는 것을 넘어선다.

#Review #World Models #Generative AI #Multimodal Learning #Masked Modeling #Interactive AI #Memory Systems #Autonomous Agents #AI Roadmap

2025년 10월 24일

[논문리뷰] Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

본 연구는 기존 상호작용 애니메이션 모델이 근접 상호작용의 동적 맥락을 파악하고 다양한 입력 유형에 대한 일반화 능력이 부족하다는 문제점을 해결하고자 합니다.

#Review #Human-human Interaction #Pose Animation #Diffusion Models #Generative AI #Motion Synthesis #Interactive Poses #Temporal Priors #Spatial Priors

2025년 10월 17일

[논문리뷰] Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

본 논문은 반복적 깊이(recurrent-depth)를 가진 언어 모델의 느린 추론 속도를 해결하기 위해, 이러한 모델과 확산(diffusion) 언어 모델 간의 유사성을 활용한 효율적인 병렬 샘플링 기법을 개발하는 것을 목표로 합니다.

#Review #Recurrent-Depth Models #Diffusion Forcing #Parallel Sampling #LLM Inference Acceleration #Transformer Architectures #Generative AI #Latent Space Diffusion

2025년 10월 17일

[논문리뷰] Attention Is All You Need for KV Cache in Diffusion LLMs

본 논문은 확산 대규모 언어 모델(DLMs)의 추론 과정에서 발생하는 과도한 Key-Value (KV) 캐시 재계산으로 인한 높은 지연 시간을 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #KV Cache #Adaptive Caching #Inference Optimization #Attention Mechanism #Latency Reduction #Generative AI

2025년 10월 17일

[논문리뷰] TC-LoRA: Temporally Modulated Conditional LoRA for Adaptive Diffusion Control

기존의 controllable diffusion model이 고정된 아키텍처와 정적인 컨디셔닝 전략을 사용하여 동적인 denoising 과정에 비효율적이라는 문제를 해결합니다.

#Review #Diffusion Models #Conditional Generation #LoRA #Hypernetwork #Dynamic Weight Adaptation #Generative AI #Controllable Generation

2025년 10월 13일

[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

본 논문은 기존 프롬프트 최적화 방법론이 텍스트 모달리티에만 국한되어 Multimodal Large Language Models (MLLMs) 의 잠재력을 완전히 활용하지 못하는 한계를 해결하고자 합니다.

#Review #Multimodal AI #Prompt Optimization #MLLMs #Bayesian Optimization #Cross-modal Alignment #Prompt Engineering #Generative AI #Exploration-Exploitation

2025년 10월 13일

[논문리뷰] Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

본 논문은 다양한 양상의 데이터(텍스트, 이미지)를 처리할 수 있는 옴니(Omni) 형태의 멀티모달 생성 및 이해 모델 인 Lumina-DiMOO를 제안합니다.

#Review #Multi-modal LLM #Discrete Diffusion #Image Generation #Image Understanding #Omni-modal #Interactive Retouching #Generative AI #Reinforcement Learning

2025년 10월 9일

[논문리뷰] D^3QE: Learning Discrete Distribution Discrepancy-aware Quantization Error for Autoregressive-Generated Image Detection

본 논문은 시각적 자기회귀(AR) 모델 이 생성한 이미지의 탐지라는 새로운 도전 과제를 해결하는 것을 목표로 합니다. 기존 GAN이나 Diffusion 모델 탐지 방법론과 달리, AR 모델의 이산 토큰 예측 및 코드북 의 독특한 패턴과 빈도 분포 편향을 활용하여 실제 이미지와 생성된 이미지 간의 차이를 식별하고자 합니다.

#Review #Autoregressive Models #Image Detection #Discrete Distribution Discrepancy #Quantization Error #Transformer #Generative AI #Deepfake Detection

2025년 10월 9일

[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems

본 논문은 대규모 언어 모델(LLM)이 사전 학습된 매개변수 지식 만을 사용하여 AI 연구 문제를 자율적으로 해결할 수 있는지 평가하는 것을 목표로 합니다. 이는 LLM의 성공이 단순한 암기나 정교한 패턴 매칭을 넘어선 진정한 개념적 추론 능력 을 반영하는지 밝히기 위함입니다.

#Review #LLM #Scientific Problem Solving #AI Research #Iterative Refinement #Autonomous Agents #Generative AI #Evaluation Framework #Problem Extraction

2025년 10월 8일

[논문리뷰] How Confident are Video Models? Empowering Video Models to Express their Uncertainty

비디오 생성 모델이 텍스트 프롬프트에 기반하여 부정확하거나 사실과 다른(hallucinate) 비디오를 생성할 때, 그 예측에 대한 불확실성을 표현하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Generation #Uncertainty Quantification #Aleatoric Uncertainty #Epistemic Uncertainty #Model Calibration #Text-to-Video #Generative AI #VMF Distribution

2025년 10월 6일

[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.

#Review #Voice AI #LLM #Reasoning #Benchmark #Modality Gap #Latency #Speech Recognition #Generative AI #Real-time Systems #Conversational AI

2025년 10월 1일