[논문리뷰] WAY: Estimation of Vessel Destination in Worldwide AIS Trajectory이 논문은 기존의 AIS 데이터 기반 선박 목적지 예측 모델 이 직면했던 ROI(관심 지역) 제약 , 불규칙한 시공간적 데이터 로 인한 편향 문제, 그리고 장거리 예측 능력 부족 을 해결하는 것을 목표로 합니다.#Review#AIS data#vessel destination estimation#deep learning#transformer#channel attention#trajectory analysis#Gradient Dropout#maritime surveillance2025년 12월 17일댓글 수 로딩 중
[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?본 논문은 대규모 언어 모델(LLM)의 컨텍스트 창 확장과 관련된 계산 및 메모리 오버헤드 문제를 해결하기 위해 Vision-Text Compression (VTC) 패러다임을 탐구합니다.#Review#Vision-Text Compression (VTC)#Long Context Understanding#Vision-Language Models (VLMs)#Benchmark#Information Retrieval#Associative Reasoning#Multimodal AI2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Universal Reasoning Model본 연구는 Universal Transformer (UT) 모델이 ARC-AGI 와 같은 복잡한 추론 태스크에서 성능 향상을 보이는 근본적인 원인을 체계적으로 분석하는 것을 목표로 합니다.#Review#Universal Transformer#Recurrent Neural Networks#ARC-AGI#Reasoning Tasks#Nonlinearity#Convolutional Gating#Truncated Backpropagation#Model Efficiency2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Step-GUI Technical Report논문은 GUI 자동화 분야에서 고품질 훈련 데이터를 효율적이고 신뢰성 있게 확보하는 근본적인 문제를 해결하고자 합니다. 또한, 이종 기기 간의 표준화된 인터페이스를 구축하여 사용자 개인 정보를 보호하고, 실제 일상적인 사용 패턴에 기반한 평가 벤치마크를 통해 에이전트의 실용성을 검증하는 것을 목표로 합니다.#Review#GUI Automation#Self-Evolving Pipeline#Reinforcement Learning#Multimodal LLMs#Privacy-Preserving AI#Human-Computer Interaction#Model Context Protocol#Benchmarking2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning본 논문은 기존의 AI 생성 비디오 탐지 모델이 이진 분류에만 초점을 맞추고 설명 가능성이 부족하다는 한계를 해결하고자 합니다.#Review#AI-Generated Video Detection#Multimodal Large Language Model (MLLM)#Artifact Reasoning#Explainable AI#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Video Forensics2025년 12월 17일댓글 수 로딩 중
[논문리뷰] SCOPE: Prompt Evolution for Enhancing Agent Effectiveness대규모 언어 모델(LLM) 에이전트가 방대한 동적 컨텍스트에 직면했을 때 정적인 프롬프트로 인해 발생하는 '수정(Corrective)' 및 '강화(Enhancement)' 실패 를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Prompt Optimization#Context Management#Online Learning#Agent Effectiveness#Self-Evolving Prompts#Trace-Based Learning#Dual-Stream Routing2025년 12월 17일댓글 수 로딩 중
[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.#Review#Video Reasoning#Reinforcement Learning#Multi-Turn Reasoning#Agent System#Long Videos#Synthetic Data#Any-Horizon Reasoning#Large Language Models2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Robust and Calibrated Detection of Authentic Multimedia Content본 논문은 기존 딥페이크 탐지 방법론의 한계, 즉 생성 모델의 재합성 가능성(resynthesis indistinguishability) 으로 인한 높은 오탐율과 적대적 공격에 대한 취약성 을 극복하는 것을 목표로 합니다.#Review#Deepfake Detection#Content Authenticity#Generative Models#Adversarial Robustness#Image Inversion#Plausible Deniability#Diffusion Models#Multimedia Forensics2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition기존 래스터 이미지 편집 시 발생하는 일관성 문제(semantic drift, geometric misalignment)를 해결하는 것이 목표입니다.#Review#Image Editing#Diffusion Models#Layer Decomposition#RGBA Layers#Variational Autoencoder (VAE)#Multi-stage Training#Photoshop Documents (PSD)#Inherent Editability2025년 12월 17일댓글 수 로딩 중
[논문리뷰] MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence본 논문은 MLLM(Multi-modal Large Language Models)이 물리적 환경에서 일반적인 비서 역할을 수행하기 위해 필수적인 비디오 기반 공간 지능 을 평가할 수 있는 포괄적인 벤치마크의 부재를 해결하고자 합니다.#Review#Video-Based Spatial Intelligence#MLLM Benchmark#Spatial Reasoning#Multi-Modal Learning#Perception#Planning#Prediction#Cross-Video Reasoning#Human-AI Gap2025년 12월 17일댓글 수 로딩 중
[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training본 논문은 기존 자기 지도 학습(Self-Supervised Learning) 패러다임이 잠재 공간 목표(latent-space objectives)에 의존하거나 과도한 휴먼 큐레이션을 통해 편향을 도입하는 한계를 지적합니다.#Review#Pixel Supervision#Self-Supervised Learning#Masked Autoencoders (MAE)#Visual Pre-training#Foundation Models#Representation Learning#Web-Scale Data#Computer Vision2025년 12월 17일댓글 수 로딩 중
[논문리뷰] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning논문은 기존 비디오 편집 모델이 겪는 배경 무결성 유지, 제한된 데이터에서의 효과 학습, 픽셀 수준 일관성 부족 등의 문제를 해결하여, 텍스트 지시에 따라 정확하고 효율적인 비디오 시각 효과(VFX) 편집 을 수행하는 것을 목표로 합니다.#Review#Video VFX Editing#In-Context Learning#Diffusion Transformers#Few-Shot Learning#LoRA#Spatiotemporal Tokenization#Instruction-Guided2025년 12월 17일댓글 수 로딩 중
[논문리뷰] HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices현재 멀티모달 대규모 언어 모델(MLLM)이 가진 높은 연산 및 메모리 요구사항으로 인한 온디바이스 배포의 어려움을 해결하는 것을 목표로 합니다.#Review#Multimodal Large Language Model#Edge AI#Efficient Inference#Visual Resolution Compressor#Dual Consistency Learning#Vision Transformer#Quantization#Low-Latency2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Fast and Accurate Causal Parallel Decoding using Jacobi Forcing본 논문은 대규모 언어 모델(LLM)의 순차적(autoregressive, AR) 디코딩으로 인한 높은 지연 시간을 해결하고, AR 모델의 생성 품질과 인과적 추론 특성을 유지하면서 효율적인 병렬 디코딩을 가능하게 하는 것을 목표로 합니다.#Review#Parallel Decoding#Causal LLM#Jacobi Decoding#Consistency Distillation#Transformer Inference#Latency Reduction#Rejection Recycling#Multi-block Decoding2025년 12월 17일댓글 수 로딩 중
[논문리뷰] DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models본 논문은 기존 확산 비전 언어 모델(dVLMs)의 성능 저하와 가변 길이 생성 및 KV 캐시 재사용의 비효율성 문제를 해결하고자 합니다.#Review#Diffusion Models#Vision Language Models#Autoregressive Models#Diffusion Finetuning#Block Diffusion#Multimodal AI#KV Cache2025년 12월 17일댓글 수 로딩 중
[논문리뷰] DEER: Draft with Diffusion, Verify with Autoregressive Models본 논문은 autoregressive (AR) 디코딩의 내재된 지연으로 인해 발생하는 LLM 기반 에이전트 및 추론 시스템의 효율성 문제를 해결하고자 합니다. 특히, 기존 AR 기반 드래프터의 단계별 불확실성 누적과 순차적 디코딩으로 인한 제한적인 가속화 문제를 극복하는 것을 목표로 합니다.#Review#Speculative Decoding#Diffusion LLM#Autoregressive Model#Inference Acceleration#Model Alignment#Code Generation#Block Regeneration2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.#Review#Reinforcement Learning#Large Language Models#Exploration Strategy#Gradient-Guided#Reward Shaping#Reasoning#PPO2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?본 논문은 최근 AI 생성 비디오의 높은 현실성으로 인해 야기되는 진위 판별 문제를 해결하고자 합니다.#Review#AIGC Detection#ASMR Videos#VLM Evaluation#VGM Realism#Audio-Visual Consistency#Perceptual Fidelity#Adversarial Benchmark#Deepfake Detection2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models본 논문은 Masked Diffusion Models (MDMs)의 주요 비효율성, 즉 KV 캐싱 미지원 과 불필요한 마스크 토큰 처리 로 인한 느린 추론 속도 문제를 해결하고자 합니다. 특히, 멀티모달 태스크 전반에서 성능 저하 없이 효율성을 크게 향상시키는 새로운 모델링 프레임워크 를 제안하는 것이 목표입니다.#Review#Discrete Diffusion Models#Multimodal Models#Sparse Parameterization#KV Caching#Token Truncation#Image Generation#Image Editing#Visual Reasoning2025년 12월 16일댓글 수 로딩 중
[논문리뷰] ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement논문은 기존 이미지 생성 및 통합 모델이 깊은 추론, 계획, 그리고 데이터-시각 매핑의 정밀성을 요구하는 복잡한 태스크에서 한계를 보이는 문제에 주목합니다.#Review#Table Visualization#Infographic Generation#Multi-modal Large Language Models (MLLMs)#Diffusion Models#Self-Correction#Reinforcement Learning#Graphic Design#Data-to-Visual Mapping2025년 12월 16일댓글 수 로딩 중