[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression스트리밍 비디오 대규모 언어 모델(VideoLLMs)의 실시간 배포 시 발생하는 높은 연산 비용, 특히 Vision Transformer(ViT) 인코딩 단계 와 LLM 사전 채우기(pre-filling) 단계 의 병목 현상을 해결하여 효율적인 비디오 이해를 가속화하는 것이 목표입니다.#Review#Streaming Video LLMs#Token Compression#ViT Encoding#LLM Prefilling#Causal Compression#Caching#Pruning#Low-latency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer현재 고성능 이미지 생성 모델들이 겪고 있는 비싼 훈련 및 추론 비용, 그리고 폐쇄형 또는 과도한 파라미터(20B-80B) 문제점을 해결하고자 합니다.#Review#Diffusion Transformer#Efficient Training#Multi-Modal Learning#Text-to-Image Generation#Image Editing#RLHF#Photorealistic Rendering2025년 11월 30일댓글 수 로딩 중
[논문리뷰] YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection본 연구는 객체 탐지 분야에서 YOLOv9-T 모델의 성능과 견고성을 향상시키기 위해 새로운 Mixture-of-Experts (MoE) 프레임워크를 제안합니다.#Review#Object Detection#YOLOv9#Mixture-of-Experts#Adaptive Routing#Deep Learning#Computer Vision#Feature Specialization2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM이 논문은 대규모 언어 모델(LLM)이 복잡한 다단계 추론 능력을 갖추고 있음에도 불구하고 높은 연산 요구사항으로 인해 엣지 또는 비용에 민감한 환경에서의 배포가 어렵다는 문제를 해결하고자 합니다.#Review#Small Language Models#Data Efficiency#Reasoning#Maximal-Update Parameterization#FP8 Mixed Precision#Optimizer Scheduling#Long-Context Adaptation#Agent AI2025년 11월 30일댓글 수 로딩 중
[논문리뷰] World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models본 논문은 대규모 비전-언어 모델(LVLMs)이 다양한 문화적 요소가 혼합된 시각적 장면, 즉 '문화 혼합(culture mixing)' 시나리오를 어떻게 인식하는지 체계적으로 조사하는 것을 목표로 합니다.#Review#Vision-Language Models#Culture Mixing#VQA#Synthetic Data Generation#Multicultural Understanding#Model Robustness#Fine-tuning#Cultural Bias2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Vision Bridge Transformer at Scale본 논문은 Brownian Bridge Models 를 대규모 비전 변환 태스크(이미지 및 비디오)에 적용하여 조건부 생성의 효율성을 극대화하는 것을 목표로 합니다.#Review#Vision Transformer#Bridge Models#Conditional Generation#Image Editing#Video Translation#Velocity Matching#Diffusion Models#Scalability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] The Collapse of Patches본 연구는 이미지 내 패치들 간의 상호 의존성을 분석하여 '패치 붕괴(patch collapse)' 라는 새로운 개념을 제안하고, 이를 통해 이미지의 불확실성을 가장 효율적으로 줄이는 최적의 패치 실현 순서 를 파악하는 것을 목표로 합니다.#Review#Patch Collapse#Image Generation#Image Classification#Masked Image Modeling#Vision Transformers#PageRank#Uncertainty Reduction#Computational Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Test-time scaling of diffusions with flow maps본 논문은 확산 모델의 추론 시점에 사용자 정의 보상에 따라 샘플을 개선하는 문제, 특히 보상 함수가 최종 데이터 분포에서만 잘 정의되는 상황에서 발생하는 어려움을 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Flow Maps#Test-time Adaptation#Reward Guidance#Generative Models#SMC#Vision-Language Models2025년 11월 30일댓글 수 로딩 중
[논문리뷰] SO-Bench: A Structural Output Evaluation of Multimodal LLMs본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 시각적 입력으로부터 스키마 기반 정보를 추출하고 추론하여 구조화된 출력을 생성하는 능력에 대한 체계적인 벤치마크가 부재하다는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Structural Output#Information Extraction#JSON Schema#SO-Bench#Visual Reasoning#Supervised Fine-tuning#Reinforcement Learning2025년 11월 30일댓글 수 로딩 중
[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via Checklists이 논문은 대규모 언어 모델(LM)이 자신의 답변을 스스로 또는 외부 피드백을 통해 얼마나 효과적으로 개선할 수 있는지를 평가하는 것을 목표로 합니다.#Review#Language Models#Refinement Capability#Self-Refinement#Guided Refinement#Checklist Evaluation#Multi-turn Interaction#Benchmark2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Recognition of Abnormal Events in Surveillance Videos using Weakly Supervised Dual-Encoder Models이 논문은 감시 비디오에서 희귀하고 다양한 이상 이벤트(abnormal events) 를 비디오 수준의 약한 감독(video-level supervision) 만을 사용하여 효율적으로 탐지하는 것을 목표로 합니다.#Review#Anomaly Detection#Surveillance Videos#Weakly Supervised Learning#Multiple Instance Learning#Dual-Encoder#I3D#TimeSformer#Top-k Pooling2025년 11월 30일댓글 수 로딩 중
[논문리뷰] REASONEDIT: Towards Reasoning-Enhanced Image Editing Models본 논문은 기존 이미지 편집 모델들이 고정된 MLLM 인코더 를 사용하여 복잡하거나 추상적인 지시를 처리하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Image Editing#Reasoning-Enhanced AI#Multimodal Large Language Models#Diffusion Transformers#Thinking#Reflection#Iterative Refinement#Instruction Following2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model본 논문은 제한적인 치과 데이터, 전문가 주석 부족, 모달리티별 모델링 미흡, 그리고 기존 MLLM의 일관성 및 신뢰성 문제(환각 응답 포함)로 인해 미개척 분야였던 치과 분야에서 포괄적이고 신뢰할 수 있는 분석을 위한 치과 전문 MLLM(Multimodal Large Language Model)인 OralGPT-Omni 를 개발하는 것을 목표로 합니다.#Review#Multimodal Large Language Model (MLLM)#Dental Imaging Analysis#Chain-of-Thought (CoT) Reasoning#Medical AI#Benchmark#Diagnosis#Oral Healthcare#Explainable AI2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OmniRefiner: Reinforcement-Guided Local Diffusion Refinement현재 확산 모델들이 참조 이미지를 사용하여 이미지를 정제할 때 로고, 텍스트, 얼굴 특징, 복잡한 패턴과 같은 세부 시각적 디테일을 보존하는 데 어려움 을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Image Refinement#Reinforcement Learning#Fine-Grained Editing#Reference-Guided Generation#Latent Diffusion#Visual Fidelity#Detail Restoration2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models본 논문은 소형 언어 모델(SLM) 의 효율적인 배포를 저해하는 실기기 지연 시간 문제를 해결하고, 지연 시간 최적화된 SLM 설계 및 훈련을 위한 일반화 가능한 원칙과 방법론을 제시하는 것을 목표로 합니다.#Review#Small Language Models (SLMs)#Latency Optimization#Hybrid Architectures#Evolutionary Search#Weight Normalization#Efficient Attention#Depth-Width Ratios#Real-device Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] MRI Super-Resolution with Deep Learning: A Comprehensive Survey본 조사는 딥러닝(DL) 기반 자기공명영상(MRI) 초해상화(SR) 기술의 최신 발전을 포괄적으로 검토하고 체계적으로 분류하는 것을 목표로 합니다. 컴퓨터 비전, 계산 영상학, 역문제 및 MR 물리학 관점에서 접근하여 이론적 기반, 아키텍처, 학습 전략, 벤치마크 데이터셋, 성능 지표 등을 분석합니다.#Review#MRI Super-Resolution#Deep Learning#Computational Imaging#Inverse Problems#Generative AI#Medical Imaging#Survey2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Layer-Aware Video Composition via Split-then-Merge본 논문은 생성 비디오 합성에서 제어력을 강화하고 데이터 부족 문제를 해결하는 것을 목표로 합니다.#Review#Generative Video Composition#Diffusion Models#Layer-Aware Generation#Self-Composition#Affordance Learning#Video Editing#Data Augmentation2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Geometrically-Constrained Agent for Spatial Reasoning본 논문은 Vision Language Models (VLMs)이 공간 추론 시 겪는 의미론-기하학적 간극(semantic-to-geometric gap) 문제를 해결하고자 합니다.#Review#Spatial Reasoning#Vision Language Models (VLMs)#Geometric Constraints#Agentic AI#Tool Integration#Semantic-to-Geometric Gap#Task Formalization2025년 11월 30일댓글 수 로딩 중
[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images본 논문은 MLLM(Multimodal Large Language Model) 이 이미지 내 객체를 인식하는 '무엇'을 넘어, 인간이 이미지를 주관적으로 인지하는 '어떻게 느끼는지'를 이해하는 능력의 부족을 해결하고자 합니다.#Review#Multimodal LLM#Human Cognition#Image Perception#Benchmarking#Supervised Fine-tuning#Image Generation#Aesthetics#Memorability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information본 연구는 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 과도한 토큰 사용과 높은 추론 지연 시간 문제를 해결하고자 합니다. 훈련 없이(training-free) 입력 중심의 접근 방식을 통해 LLM의 추론 효율성을 높이고자 합니다.#Review#LLM Reasoning#Chain-of-Thought#Prompt Engineering#Efficiency#Structured Input#Information Extraction#Cognitive Psychology#Token Reduction2025년 11월 30일댓글 수 로딩 중