최신 포스트

[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models

본 논문은 기존 이미지 편집 모델들이 고정된 MLLM 인코더 를 사용하여 복잡하거나 추상적인 지시를 처리하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Image Editing #Reasoning-Enhanced AI #Multimodal Large Language Models #Diffusion Transformers #Thinking #Reflection #Iterative Refinement #Instruction Following

2025년 11월 30일

[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

본 논문은 제한적인 치과 데이터, 전문가 주석 부족, 모달리티별 모델링 미흡, 그리고 기존 MLLM의 일관성 및 신뢰성 문제(환각 응답 포함)로 인해 미개척 분야였던 치과 분야에서 포괄적이고 신뢰할 수 있는 분석을 위한 치과 전문 MLLM(Multimodal Large Language Model)인 OralGPT-Omni 를 개발하는 것을 목표로 합니다.

#Review #Multimodal Large Language Model (MLLM)#Dental Imaging Analysis #Chain-of-Thought (CoT) Reasoning #Medical AI #Benchmark #Diagnosis #Oral Healthcare #Explainable AI

2025년 11월 30일

[논문리뷰] OmniRefiner: Reinforcement-Guided Local Diffusion Refinement

현재 확산 모델들이 참조 이미지를 사용하여 이미지를 정제할 때 로고, 텍스트, 얼굴 특징, 복잡한 패턴과 같은 세부 시각적 디테일을 보존하는 데 어려움 을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Image Refinement #Reinforcement Learning #Fine-Grained Editing #Reference-Guided Generation #Latent Diffusion #Visual Fidelity #Detail Restoration

2025년 11월 30일

[논문리뷰] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

본 논문은 소형 언어 모델(SLM) 의 효율적인 배포를 저해하는 실기기 지연 시간 문제를 해결하고, 지연 시간 최적화된 SLM 설계 및 훈련을 위한 일반화 가능한 원칙과 방법론을 제시하는 것을 목표로 합니다.

#Review #Small Language Models (SLMs)#Latency Optimization #Hybrid Architectures #Evolutionary Search #Weight Normalization #Efficient Attention #Depth-Width Ratios #Real-device Efficiency

2025년 11월 30일

[논문리뷰] MRI Super-Resolution with Deep Learning: A Comprehensive Survey

본 조사는 딥러닝(DL) 기반 자기공명영상(MRI) 초해상화(SR) 기술의 최신 발전을 포괄적으로 검토하고 체계적으로 분류하는 것을 목표로 합니다. 컴퓨터 비전, 계산 영상학, 역문제 및 MR 물리학 관점에서 접근하여 이론적 기반, 아키텍처, 학습 전략, 벤치마크 데이터셋, 성능 지표 등을 분석합니다.

#Review #MRI Super-Resolution #Deep Learning #Computational Imaging #Inverse Problems #Generative AI #Medical Imaging #Survey

2025년 11월 30일

[논문리뷰] Layer-Aware Video Composition via Split-then-Merge

본 논문은 생성 비디오 합성에서 제어력을 강화하고 데이터 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Video Composition #Diffusion Models #Layer-Aware Generation #Self-Composition #Affordance Learning #Video Editing #Data Augmentation

2025년 11월 30일

[논문리뷰] Geometrically-Constrained Agent for Spatial Reasoning

본 논문은 Vision Language Models (VLMs)이 공간 추론 시 겪는 의미론-기하학적 간극(semantic-to-geometric gap) 문제를 해결하고자 합니다.

#Review #Spatial Reasoning #Vision Language Models (VLMs)#Geometric Constraints #Agentic AI #Tool Integration #Semantic-to-Geometric Gap #Task Formalization

2025년 11월 30일

[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

본 논문은 MLLM(Multimodal Large Language Model) 이 이미지 내 객체를 인식하는 '무엇'을 넘어, 인간이 이미지를 주관적으로 인지하는 '어떻게 느끼는지'를 이해하는 능력의 부족을 해결하고자 합니다.

#Review #Multimodal LLM #Human Cognition #Image Perception #Benchmarking #Supervised Fine-tuning #Image Generation #Aesthetics #Memorability

2025년 11월 30일

[논문리뷰] Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information

본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 과도한 토큰 사용과 높은 추론 지연 시간 문제를 해결하고자 합니다. 훈련 없이(training-free) 입력 중심의 접근 방식을 통해 LLM의 추론 효율성을 높이고자 합니다.

#Review #LLM Reasoning #Chain-of-Thought #Prompt Engineering #Efficiency #Structured Input #Information Extraction #Cognitive Psychology #Token Reduction

2025년 11월 30일

[논문리뷰] Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets

본 논문은 비디오 기반 데이터셋에서 발생하는 정보 누출(information leakage) 문제를 해결하는 것을 목표로 합니다.

#Review #Data Leakage #Video Datasets #Clustering #Frame Selection #Deep Learning #Object Detection #Dataset Partitioning #Dimensionality Reduction

2025년 11월 30일

[논문리뷰] FedRE: A Representation Entanglement Framework for Model-Heterogeneous Federated Learning

논문은 기존 FL 방법론이 가정하는 모델 동질성(homogeneous model architectures) 의 비현실성을 지적하며, 모델 이질성(model-heterogeneous FL) 환경에서 성능, 프라이버시, 통신 오버헤드 간의 효과적인 균형을 달성하는 것을 목표로 합니다.

#Review #Federated Learning #Model Heterogeneity #Representation Learning #Privacy Preservation #Communication Efficiency #Entangled Representation #Knowledge Transfer

2025년 11월 30일

[논문리뷰] Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration

본 논문은 3D Diffusion 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다.

#Review #3D Geometry Synthesis #Diffusion Models #Acceleration #Caching #Training-free #Flow Matching #Voxel Stabilization #Computational Efficiency

2025년 11월 30일

[논문리뷰] Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

본 연구는 대규모 언어 모델(LLM)이 초장문 컨텍스트(ultra-long context) 를 효율적으로 처리하여 '기억하는 기계'를 구축하는 과제를 해결하고자 합니다.

#Review #Large Language Models #Long Context #Sparse Attention #Hierarchical Sparse Attention (HSA)#Length Generalization #Mixture of Experts (MoE)#Transformer

2025년 11월 30일

[논문리뷰] DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

본 논문은 Vision-Language-Action (VLA) 모델에서 발생하는 '액션 퇴화(action degeneration)' 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Embodied AI #Action Degeneration #Data Pruning #Knowledge Distillation #Multi-modal Reasoning #Robot Learning #VLA Score

2025년 11월 30일

[논문리뷰] DiP: Taming Diffusion Models in Pixel Space

본 연구는 확산 모델(Diffusion Models)의 근본적인 문제인 생성 품질과 계산 효율성 간의 절충점 을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Pixel Space #Latent Diffusion Models (LDMs)#Diffusion Transformer (DiT)#Patch Detailer Head #Global-Local Modeling #Computational Efficiency #ImageNet

2025년 11월 30일

[논문리뷰] DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

대규모 언어 모델(LLM)이 수학적 추론에서 최종 정답 기반 보상의 한계를 가지며, 이는 증명 작업에 적용하기 어렵고 추론의 정확성을 보장하지 못한다는 문제점을 해결하고자 합니다.

#Review #Mathematical Reasoning #Large Language Models (LLMs)#Proof Verification #Self-Verification #Reinforcement Learning (RL)#Theorem Proving #Meta-Verification #Iterative Refinement

2025년 11월 30일

[논문리뷰] Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield

본 논문은 Distribution Matching Distillation (DMD) 의 성공에 대한 기존의 이해에 도전하며, 복잡한 텍스트-투-이미지 생성 작업에서 CFG(Classifier-Free Guidance)가 필수적인 이유를 밝히고자 합니다.

#Review #Diffusion Models #Model Distillation #Classifier-Free Guidance (CFG)#Distribution Matching #Text-to-Image Generation #Few-step Generation #Regularization #Score-based Models

2025년 11월 30일

[논문리뷰] CaptionQA: Is Your Caption as Useful as the Image Itself?

본 논문은 기존 MLLM 평가 방식이 캡션의 실제 활용성, 즉 다운스트림 태스크에서 이미지를 대체할 수 있는 능력 을 간과한다고 지적합니다.

#Review #Image Captioning #Caption Evaluation #Multimodal LLM #Utility-based Benchmark #Question Answering (QA)#Domain-specific Taxonomy #Hallucination #MLLM Evaluation

2025년 11월 30일

[논문리뷰] Captain Safari: A World Engine

본 논문은 기존 비디오 세계 모델들이 겪는 장기적인 3D 일관성 부족, 공격적인 6-DoF 카메라 궤적 추적의 어려움, 복잡한 야외 환경 표현의 한계를 극복하는 것을 목표로 합니다.

#Review #World Engine #3D Consistent Video Generation #Pose-conditioned Memory #Camera Control #FPV Video Synthesis #Diffusion Models #Drone Video Dataset

2025년 11월 30일

[논문리뷰] Architecture Decoupling Is Not All You Need For Unified Multimodal Model

본 논문은 통합 멀티모달 모델(UMM)에서 시각 생성 및 이해 태스크 간의 내재된 충돌을 완화하면서도 모델 아키텍처 디커플링에 과도하게 의존하지 않고 성능을 향상시키는 것을 목표로 합니다. 과도한 디커플링이 통합 모델의 상호작용적 추론 능력과 지식 전이 능력을 저해하는 문제를 해결하고자 합니다.

#Review #Unified Multimodal Models #Architecture Decoupling #Cross-Modal Attention #Attention Interaction Alignment (AIA) Loss #Task Conflicts #Image Generation #Image Understanding

2025년 11월 30일