[논문리뷰] DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing본 논문은 현재 대규모(~10B 이상) 파라미터를 요구하는 멀티모달 이미지 생성 및 편집 모델의 높은 훈련 비용과 배포 한계를 극복하는 것을 목표로 합니다. 경량의 5B 파라미터 모델(DeepGen 1.0) 을 통해 훨씬 큰 모델과 동등하거나 이를 능가하는 포괄적인 생성 및 편집 능력을 달성하고자 합니다.#Review#Multimodal Model#Image Generation#Image Editing#Diffusion Models#VLM-DiT Architecture#Stacked Channel Bridging#Reinforcement Learning#Lightweight Models2026년 2월 12일댓글 수 로딩 중
[논문리뷰] SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead본 논문은 대규모 VLA 모델의 높은 추론 지연 시간과 메모리 사용량 문제를 해결하고, 경량 VLA 모델의 제한된 시공간 추론 능력을 극복하는 것을 목표로 합니다. 특히, 컴팩트한 VLA 모델에 4D 시공간 정보 를 통합하여 효율성을 유지하면서도 강력한 장면 이해 및 액션 계획 능력을 부여하고자 합니다.#Review#Vision-Language-Action (VLA)#Lightweight Models#Spatiotemporal Dynamics#4D Features#Masked Autoencoding#Robotics#Edge AI2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Real-Time Object Detection Meets DINOv3본 논문은 실시간 객체 탐지 분야에서 성능과 연산 효율성 사이의 균형을 개선하고, 특히 경량 모델을 위한 엣지 및 모바일 환경에서의 배포 효율성을 높이는 것을 목표로 합니다.#Review#Real-time Object Detection#DINOv3#DEIMv2#Vision Transformer#Multi-scale Features#Spatial Tuning Adapter#Lightweight Models#Object Detection Framework2025년 9월 29일댓글 수 로딩 중
[논문리뷰] EmbeddingGemma: Powerful and Lightweight Text Representations이 연구의 주요 목표는 강력하면서도 경량화된 오픈 소스 텍스트 임베딩 모델인 EmbeddingGemma 를 개발하는 것입니다.#Review#Text Embeddings#Lightweight Models#Encoder-Decoder#Knowledge Distillation#Model Souping#Quantization#Multilingual#Gemma2025년 9월 25일댓글 수 로딩 중
[논문리뷰] CoDA: Coding LM via Diffusion Adaptation논문은 AR(Autoregressive) 코드 생성 모델의 한계점, 즉 순차적 오류 전파, 양방향 컨텍스트 활용의 어려움, 코드 채우기(infilling) 기능의 부족을 해결하고자 합니다.#Review#Diffusion Language Models#Code Generation#Bidirectional Decoding#Text Infilling#Instruction Tuning#Lightweight Models#TPU Training2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention오디오-비주얼 음성 분리(AVSS) 분야에서 기존 모델들의 높은 연산 비용과 파라미터 수로 인해 발생하는 실용적 배포의 한계를 해결하는 것을 목표로 합니다.#Review#Audio-Visual Speech Separation#Deep Learning#Efficiency#Discrete Lip Semantics#Global-Local Attention#Lightweight Models#VQ-VAE2025년 10월 1일댓글 수 로딩 중