[논문리뷰] FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction본 논문은 확산 모델 기반의 기존 장시간 인물 애니메이션 방법론이 겪는 신원(ID) 불일치 및 높은 추론 지연 시간 문제를 해결하고자 합니다. 특히, ID를 보존 하면서 무한 길이의 비디오 를 생성하고, 추론 속도를 최대 6배까지 가속 하는 것을 목표로 합니다.#Review#Portrait Animation#Diffusion Models#Inference Acceleration#Identity Preservation#Video Generation#Latent Prediction#Sliding Window2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious RewardRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Clipping#Policy Entropy#Spurious Rewards#Mathematical Reasoning#RLVR2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification본 논문은 기존 MLLM 평가 방법론의 해석력 부족 과 중요한 능력 격차를 포착하지 못하는 한계 를 해결하고자 합니다. 특히 모델의 고질적인 약점 과 실패 모드 를 자동으로 식별하고 해석하며, 이를 효과적으로 개선 할 수 있는 프레임워크를 구축하는 것을 목표로 합니다.#Review#MLLM#Model Auditing#Capability Gaps#Failure Mode Discovery#Reinforcement Learning#Data Rectification#Counterfactual Generation#VQA2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation본 연구는 파노라마 깊이 추정의 핵심 과제인 다양한 장면과 거리에서의 일반화 및 측정 일관성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Panoramic Depth Estimation#Foundation Model#Semi-Supervised Learning#Pseudo-Labeling#Data-in-the-Loop#DINOv3#Metric Depth#360-degree Vision2025년 12월 18일댓글 수 로딩 중
[논문리뷰] DeContext as Defense: Safe Image Editing in Diffusion Transformers본 논문은 대규모 Diffusion Transformer(DiT) 기반 이미지 편집 모델 의 심각한 프라이버시 문제를 해결하고자 합니다.#Review#Diffusion Transformers#Image Editing#Privacy Protection#Adversarial Attack#Attention Mechanism#Identity Preservation#Deepfake Defense#In-context Learning2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data SelectionText-to-Image(T2I) 생성 모델(예: Imagen, Stable Diffusion, FLUX)의 훈련 효율성을 개선하고 시각적 품질 저하, 불안정한 훈련 및 비효율적인 연산을 야기하는 저품질/과잉 데이터 문제를 해결하는 것입니다.#Review#Text-to-Image#Data Selection#Meta-Learning#Meta-Gradient#Data Efficiency#Generative Models#Coreset Selection#Data Pruning2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Adaptation of Agentic AI본 논문은 급성장하는 에이전트 AI 시스템의 적응(adaptation) 연구 분야를 체계적인 프레임워크로 통합하고, 에이전트 적응과 툴 적응 모두를 포괄하는 통일된 관점을 제공하는 것을 목표로 합니다.#Review#Agentic AI#Adaptation#Agent Adaptation#Tool Adaptation#Reinforcement Learning#Fine-tuning#Modular AI2025년 12월 18일댓글 수 로딩 중
[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal LLM#Adaptive Tool-Use#Reinforcement Learning#Chain-of-Thought#Vision-Language Models#Visual Reasoning#AT-GRPO2025년 12월 18일댓글 수 로딩 중
[논문리뷰] WAY: Estimation of Vessel Destination in Worldwide AIS Trajectory이 논문은 기존의 AIS 데이터 기반 선박 목적지 예측 모델 이 직면했던 ROI(관심 지역) 제약 , 불규칙한 시공간적 데이터 로 인한 편향 문제, 그리고 장거리 예측 능력 부족 을 해결하는 것을 목표로 합니다.#Review#AIS data#vessel destination estimation#deep learning#transformer#channel attention#trajectory analysis#Gradient Dropout#maritime surveillance2025년 12월 17일댓글 수 로딩 중
[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?본 논문은 대규모 언어 모델(LLM)의 컨텍스트 창 확장과 관련된 계산 및 메모리 오버헤드 문제를 해결하기 위해 Vision-Text Compression (VTC) 패러다임을 탐구합니다.#Review#Vision-Text Compression (VTC)#Long Context Understanding#Vision-Language Models (VLMs)#Benchmark#Information Retrieval#Associative Reasoning#Multimodal AI2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Universal Reasoning Model본 연구는 Universal Transformer (UT) 모델이 ARC-AGI 와 같은 복잡한 추론 태스크에서 성능 향상을 보이는 근본적인 원인을 체계적으로 분석하는 것을 목표로 합니다.#Review#Universal Transformer#Recurrent Neural Networks#ARC-AGI#Reasoning Tasks#Nonlinearity#Convolutional Gating#Truncated Backpropagation#Model Efficiency2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Step-GUI Technical Report논문은 GUI 자동화 분야에서 고품질 훈련 데이터를 효율적이고 신뢰성 있게 확보하는 근본적인 문제를 해결하고자 합니다. 또한, 이종 기기 간의 표준화된 인터페이스를 구축하여 사용자 개인 정보를 보호하고, 실제 일상적인 사용 패턴에 기반한 평가 벤치마크를 통해 에이전트의 실용성을 검증하는 것을 목표로 합니다.#Review#GUI Automation#Self-Evolving Pipeline#Reinforcement Learning#Multimodal LLMs#Privacy-Preserving AI#Human-Computer Interaction#Model Context Protocol#Benchmarking2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning본 논문은 기존의 AI 생성 비디오 탐지 모델이 이진 분류에만 초점을 맞추고 설명 가능성이 부족하다는 한계를 해결하고자 합니다.#Review#AI-Generated Video Detection#Multimodal Large Language Model (MLLM)#Artifact Reasoning#Explainable AI#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Video Forensics2025년 12월 17일댓글 수 로딩 중
[논문리뷰] SCOPE: Prompt Evolution for Enhancing Agent Effectiveness대규모 언어 모델(LLM) 에이전트가 방대한 동적 컨텍스트에 직면했을 때 정적인 프롬프트로 인해 발생하는 '수정(Corrective)' 및 '강화(Enhancement)' 실패 를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Prompt Optimization#Context Management#Online Learning#Agent Effectiveness#Self-Evolving Prompts#Trace-Based Learning#Dual-Stream Routing2025년 12월 17일댓글 수 로딩 중
[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.#Review#Video Reasoning#Reinforcement Learning#Multi-Turn Reasoning#Agent System#Long Videos#Synthetic Data#Any-Horizon Reasoning#Large Language Models2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Robust and Calibrated Detection of Authentic Multimedia Content본 논문은 기존 딥페이크 탐지 방법론의 한계, 즉 생성 모델의 재합성 가능성(resynthesis indistinguishability) 으로 인한 높은 오탐율과 적대적 공격에 대한 취약성 을 극복하는 것을 목표로 합니다.#Review#Deepfake Detection#Content Authenticity#Generative Models#Adversarial Robustness#Image Inversion#Plausible Deniability#Diffusion Models#Multimedia Forensics2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition기존 래스터 이미지 편집 시 발생하는 일관성 문제(semantic drift, geometric misalignment)를 해결하는 것이 목표입니다.#Review#Image Editing#Diffusion Models#Layer Decomposition#RGBA Layers#Variational Autoencoder (VAE)#Multi-stage Training#Photoshop Documents (PSD)#Inherent Editability2025년 12월 17일댓글 수 로딩 중
[논문리뷰] MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence본 논문은 MLLM(Multi-modal Large Language Models)이 물리적 환경에서 일반적인 비서 역할을 수행하기 위해 필수적인 비디오 기반 공간 지능 을 평가할 수 있는 포괄적인 벤치마크의 부재를 해결하고자 합니다.#Review#Video-Based Spatial Intelligence#MLLM Benchmark#Spatial Reasoning#Multi-Modal Learning#Perception#Planning#Prediction#Cross-Video Reasoning#Human-AI Gap2025년 12월 17일댓글 수 로딩 중
[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training본 논문은 기존 자기 지도 학습(Self-Supervised Learning) 패러다임이 잠재 공간 목표(latent-space objectives)에 의존하거나 과도한 휴먼 큐레이션을 통해 편향을 도입하는 한계를 지적합니다.#Review#Pixel Supervision#Self-Supervised Learning#Masked Autoencoders (MAE)#Visual Pre-training#Foundation Models#Representation Learning#Web-Scale Data#Computer Vision2025년 12월 17일댓글 수 로딩 중
[논문리뷰] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning논문은 기존 비디오 편집 모델이 겪는 배경 무결성 유지, 제한된 데이터에서의 효과 학습, 픽셀 수준 일관성 부족 등의 문제를 해결하여, 텍스트 지시에 따라 정확하고 효율적인 비디오 시각 효과(VFX) 편집 을 수행하는 것을 목표로 합니다.#Review#Video VFX Editing#In-Context Learning#Diffusion Transformers#Few-Shot Learning#LoRA#Spatiotemporal Tokenization#Instruction-Guided2025년 12월 17일댓글 수 로딩 중