[논문리뷰] Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models이 논문은 감시 비디오에서 희귀하고 다양한 이상 이벤트(abnormal events) 를 비디오 수준의 약한 감독(video-level supervision) 만을 사용하여 효율적으로 탐지하는 것을 목표로 합니다.#Review#Anomaly Detection#Surveillance Videos#Weakly Supervised Learning#Multiple Instance Learning#Dual-Encoder#I3D#TimeSformer#Top-k Pooling2025년 11월 30일댓글 수 로딩 중
[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models본 논문은 기존 이미지 편집 모델들이 고정된 MLLM 인코더 를 사용하여 복잡하거나 추상적인 지시를 처리하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Image Editing#Reasoning-Enhanced AI#Multimodal Large Language Models#Diffusion Transformers#Thinking#Reflection#Iterative Refinement#Instruction Following2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model본 논문은 제한적인 치과 데이터, 전문가 주석 부족, 모달리티별 모델링 미흡, 그리고 기존 MLLM의 일관성 및 신뢰성 문제(환각 응답 포함)로 인해 미개척 분야였던 치과 분야에서 포괄적이고 신뢰할 수 있는 분석을 위한 치과 전문 MLLM(Multimodal Large Language Model)인 OralGPT-Omni 를 개발하는 것을 목표로 합니다.#Review#Multimodal Large Language Model (MLLM)#Dental Imaging Analysis#Chain-of-Thought (CoT) Reasoning#Medical AI#Benchmark#Diagnosis#Oral Healthcare#Explainable AI2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OmniRefiner: Reinforcement-Guided Local Diffusion Refinement현재 확산 모델들이 참조 이미지를 사용하여 이미지를 정제할 때 로고, 텍스트, 얼굴 특징, 복잡한 패턴과 같은 세부 시각적 디테일을 보존하는 데 어려움 을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Image Refinement#Reinforcement Learning#Fine-Grained Editing#Reference-Guided Generation#Latent Diffusion#Visual Fidelity#Detail Restoration2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models본 논문은 소형 언어 모델(SLM) 의 효율적인 배포를 저해하는 실기기 지연 시간 문제를 해결하고, 지연 시간 최적화된 SLM 설계 및 훈련을 위한 일반화 가능한 원칙과 방법론을 제시하는 것을 목표로 합니다.#Review#Small Language Models (SLMs)#Latency Optimization#Hybrid Architectures#Evolutionary Search#Weight Normalization#Efficient Attention#Depth-Width Ratios#Real-device Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] MRI Super-Resolution with Deep Learning: A Comprehensive Survey본 조사는 딥러닝(DL) 기반 자기공명영상(MRI) 초해상화(SR) 기술의 최신 발전을 포괄적으로 검토하고 체계적으로 분류하는 것을 목표로 합니다. 컴퓨터 비전, 계산 영상학, 역문제 및 MR 물리학 관점에서 접근하여 이론적 기반, 아키텍처, 학습 전략, 벤치마크 데이터셋, 성능 지표 등을 분석합니다.#Review#MRI Super-Resolution#Deep Learning#Computational Imaging#Inverse Problems#Generative AI#Medical Imaging#Survey2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Layer-Aware Video Composition via Split-then-Merge본 논문은 생성 비디오 합성에서 제어력을 강화하고 데이터 부족 문제를 해결하는 것을 목표로 합니다.#Review#Generative Video Composition#Diffusion Models#Layer-Aware Generation#Self-Composition#Affordance Learning#Video Editing#Data Augmentation2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Geometrically-Constrained Agent for Spatial Reasoning본 논문은 Vision Language Models (VLMs)이 공간 추론 시 겪는 의미론-기하학적 간극(semantic-to-geometric gap) 문제를 해결하고자 합니다.#Review#Spatial Reasoning#Vision Language Models (VLMs)#Geometric Constraints#Agentic AI#Tool Integration#Semantic-to-Geometric Gap#Task Formalization2025년 11월 30일댓글 수 로딩 중
[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images본 논문은 MLLM(Multimodal Large Language Model) 이 이미지 내 객체를 인식하는 '무엇'을 넘어, 인간이 이미지를 주관적으로 인지하는 '어떻게 느끼는지'를 이해하는 능력의 부족을 해결하고자 합니다.#Review#Multimodal LLM#Human Cognition#Image Perception#Benchmarking#Supervised Fine-tuning#Image Generation#Aesthetics#Memorability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 과도한 토큰 사용과 높은 추론 지연 시간 문제를 해결하고자 합니다. 훈련 없이(training-free) 입력 중심의 접근 방식을 통해 LLM의 추론 효율성을 높이고자 합니다.#Review#LLM Reasoning#Chain-of-Thought#Prompt Engineering#Efficiency#Structured Input#Information Extraction#Cognitive Psychology#Token Reduction2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets본 논문은 비디오 기반 데이터셋에서 발생하는 정보 누출(information leakage) 문제를 해결하는 것을 목표로 합니다.#Review#Data Leakage#Video Datasets#Clustering#Frame Selection#Deep Learning#Object Detection#Dataset Partitioning#Dimensionality Reduction2025년 11월 30일댓글 수 로딩 중
[논문리뷰] FedRE: A Representation Entanglement Framework for Model-Heterogeneous Federated Learning논문은 기존 FL 방법론이 가정하는 모델 동질성(homogeneous model architectures) 의 비현실성을 지적하며, 모델 이질성(model-heterogeneous FL) 환경에서 성능, 프라이버시, 통신 오버헤드 간의 효과적인 균형을 달성하는 것을 목표로 합니다.#Review#Federated Learning#Model Heterogeneity#Representation Learning#Privacy Preservation#Communication Efficiency#Entangled Representation#Knowledge Transfer2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration본 논문은 3D Diffusion 모델의 느린 추론 속도 문제를 해결하는 것을 목표로 합니다.#Review#3D Geometry Synthesis#Diffusion Models#Acceleration#Caching#Training-free#Flow Matching#Voxel Stabilization#Computational Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models본 연구는 대규모 언어 모델(LLM)이 초장문 컨텍스트(ultra-long context) 를 효율적으로 처리하여 '기억하는 기계'를 구축하는 과제를 해결하고자 합니다.#Review#Large Language Models#Long Context#Sparse Attention#Hierarchical Sparse Attention (HSA)#Length Generalization#Mixture of Experts (MoE)#Transformer2025년 11월 30일댓글 수 로딩 중
[논문리뷰] DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action본 논문은 Vision-Language-Action (VLA) 모델에서 발생하는 '액션 퇴화(action degeneration)' 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA)#Embodied AI#Action Degeneration#Data Pruning#Knowledge Distillation#Multi-modal Reasoning#Robot Learning#VLA Score2025년 11월 30일댓글 수 로딩 중
[논문리뷰] DiP: Taming Diffusion Models in Pixel Space본 연구는 확산 모델(Diffusion Models)의 근본적인 문제인 생성 품질과 계산 효율성 간의 절충점 을 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Pixel Space#Latent Diffusion Models (LDMs)#Diffusion Transformer (DiT)#Patch Detailer Head#Global-Local Modeling#Computational Efficiency#ImageNet2025년 11월 30일댓글 수 로딩 중
[논문리뷰] DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning대규모 언어 모델(LLM)이 수학적 추론에서 최종 정답 기반 보상의 한계를 가지며, 이는 증명 작업에 적용하기 어렵고 추론의 정확성을 보장하지 못한다는 문제점을 해결하고자 합니다.#Review#Mathematical Reasoning#Large Language Models (LLMs)#Proof Verification#Self-Verification#Reinforcement Learning (RL)#Theorem Proving#Meta-Verification#Iterative Refinement2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield본 논문은 Distribution Matching Distillation (DMD) 의 성공에 대한 기존의 이해에 도전하며, 복잡한 텍스트-투-이미지 생성 작업에서 CFG(Classifier-Free Guidance)가 필수적인 이유를 밝히고자 합니다.#Review#Diffusion Models#Model Distillation#Classifier-Free Guidance (CFG)#Distribution Matching#Text-to-Image Generation#Few-step Generation#Regularization#Score-based Models2025년 11월 30일댓글 수 로딩 중
[논문리뷰] CaptionQA: Is Your Caption as Useful as the Image Itself?본 논문은 기존 MLLM 평가 방식이 캡션의 실제 활용성, 즉 다운스트림 태스크에서 이미지를 대체할 수 있는 능력 을 간과한다고 지적합니다.#Review#Image Captioning#Caption Evaluation#Multimodal LLM#Utility-based Benchmark#Question Answering (QA)#Domain-specific Taxonomy#Hallucination#MLLM Evaluation2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Captain Safari: A World Engine본 논문은 기존 비디오 세계 모델들이 겪는 장기적인 3D 일관성 부족, 공격적인 6-DoF 카메라 궤적 추적의 어려움, 복잡한 야외 환경 표현의 한계를 극복하는 것을 목표로 합니다.#Review#World Engine#3D Consistent Video Generation#Pose-conditioned Memory#Camera Control#FPV Video Synthesis#Diffusion Models#Drone Video Dataset2025년 11월 30일댓글 수 로딩 중