[논문리뷰] Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device본 논문은 기존의 멀티모달 모델들이 데이터 학습량 이 많고 배포에 필요한 리소스 가 커서 엣지 디바이스에 적용하기 어렵다는 문제점을 해결하고자 합니다. 통합된 멀티모달 아키텍처 를 통해 시각적 이해와 생성을 동시에 수행하면서, 모바일 기기에서 실시간 추론 이 가능하도록 효율적인 모델 을 구축하는 것을 목표로 합니다.#Review#Multimodal AI#Vision-Language Models#Diffusion Models#Mobile Devices#Edge Computing#Model Efficiency#Unified Architecture#Real-time Inference2026년 2월 23일댓글 수 로딩 중
[논문리뷰] 2Mamba2Furious: Linear in Complexity, Competitive in Accuracy본 논문은 효율성이 높지만 정확도가 낮은 선형 어텐션 과 정확도는 높지만 연산 복잡도가 높은 소프트맥스 어텐션 간의 격차를 해소하는 것을 목표로 합니다. 구체적으로 Mamba-2 의 표현력을 향상시켜 소프트맥스 어텐션에 필적하는 정확도를 달성하면서도 선형적인 복잡도를 유지하는 새로운 어텐션 메커니즘을 제안합니다.#Review#Linear Attention#Mamba-2#High-Order Attention#Model Efficiency#Long Context#Transformer#State Space Models2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Routing the Lottery: Adaptive Subnetworks for Heterogeneous Data본 논문은 Lottery Ticket Hypothesis (LTH) 가 하나의 보편적인 'winning ticket'을 가정하여 실제 데이터의 내재된 이질성을 간과하는 한계를 해결하고자 합니다.#Review#Pruning#Lottery Ticket Hypothesis#Adaptive Subnetworks#Heterogeneous Data#Model Efficiency#Conditional Computation#Subnetwork Collapse2026년 2월 1일댓글 수 로딩 중
[논문리뷰] VIBE: Visual Instruction Based Editor본 논문은 기존의 대규모 및 고비용 이미지 편집 모델의 한계를 극복하고, 오픈소스 기반의 초고속, 컴팩트한 시각적 지시 기반 이미지 편집 시스템을 개발하는 것을 목표로 합니다.#Review#Instruction-Based Image Editing#Diffusion Models#Vision-Language Models (VLM)#Model Efficiency#Multi-stage Training#Preference Alignment#Source Consistency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] STEP3-VL-10B Technical Report본 연구는 경량화된 오픈소스 파운데이션 모델인 STEP3-VL-10B 를 통해 효율성과 최첨단 멀티모달 지능 간의 균형을 재정의하는 것을 목표로 합니다. 특히, 제한된 파라미터 예산 내에서 복잡한 추론 및 지각 능력을 발전시키는 데 중점을 둡니다.#Review#Multimodal Large Language Models#Vision-Language Models#Reinforcement Learning#Parallel Coordinated Reasoning#Model Efficiency#Foundation Models#Pre-training#Post-training2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Universal Reasoning Model본 연구는 Universal Transformer (UT) 모델이 ARC-AGI 와 같은 복잡한 추론 태스크에서 성능 향상을 보이는 근본적인 원인을 체계적으로 분석하는 것을 목표로 합니다.#Review#Universal Transformer#Recurrent Neural Networks#ARC-AGI#Reasoning Tasks#Nonlinearity#Convolutional Gating#Truncated Backpropagation#Model Efficiency2025년 12월 17일댓글 수 로딩 중
[논문리뷰] SUCCESS-GS: Survey of Compactness and Compression for Efficient Static and Dynamic Gaussian Splatting본 논문은 3D Gaussian Splatting (3DGS) 의 방대한 메모리 사용량과 높은 연산 오버헤드 문제를 해결하고, 특히 4D 다이내믹 씬 에서의 실용적 배포를 어렵게 하는 한계를 극복하는 것을 목표로 합니다.#Review#3D Gaussian Splatting (3DGS)#Gaussian Compression#Model Efficiency#Novel View Synthesis#Dynamic Scenes#Parameter Compression#Restructuring Compression#Real-time Rendering2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models본 논문은 멀티모달 대규모 언어 모델(MLLM)에서 고해상도 이미지 및 비디오 처리 시 발생하는 과도한 메모리 소비 및 추론 지연 시간 문제 를 해결하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Token Pruning#Graph-Structured Pruning (GSP)#Query-Conditioned Semantic Pruning (QCSP)#Determinantal Point Processes (DPP)#Model Efficiency#Visual Redundancy2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning본 논문은 반복적인 샘플링 과정과 높은 훈련 비용으로 인해 computationally expensive한 확산 모델의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Image Generation#Distillation#Reinforcement Learning#Few-Step Sampling#Timestep-Aware#Pixel-GAN#Model Efficiency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Virtual Width Networks본 논문은 Transformer 모델의 히든 차원을 늘릴 때 발생하는 Quadratic한 계산 비용 문제를 해결하면서도, 더 넓은 표현(wider representations)이 제공하는 이점을 얻는 것을 목표로 합니다.#Review#Virtual Width Networks#Transformer#Mixture-of-Experts (MoE)#Scaling Laws#Representation Learning#Model Efficiency#Multi-Token Prediction#Hyper-Connections2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR대규모 언어 모델(LLMs)이 단계별 추론 과정에서 지나치게 장황해져 추론 비용이 증가하는 문제를 해결하는 것이 목표입니다.#Review#LLMs#RLVR#Length Regularization#Mathematical Reasoning#Data Curation#Model Efficiency#Emergent Brevity2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods현재 멀티모달 대규모 언어 모델(MLLMs) 의 시각 토큰 압축 방법론 평가에 사용되는 벤치마크들이 압축 기술 평가에 부적합하여, 단순 이미지 다운샘플링 이 종종 고급 압축 방법보다 우수한 성능을 보이는 잘못된 결과를 초래하는 문제를 해결하는 것을 목표로 합니다.#Review#Visual Token Compression#MLLMs#Evaluation Framework#Benchmarking#Downsampling#Data Filtering#Model Efficiency2025년 10월 9일댓글 수 로딩 중