[논문리뷰] UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers본 논문은 이미지 diffusion transformer 모델이 훈련된 해상도를 넘어선 이미지를 생성할 때 발생하는 콘텐츠 반복 및 품질 저하 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Transformers#Resolution Extrapolation#Positional Encoding#Frequency Analysis#Adaptive Attention#High-Resolution Image Generation#Image Quality#Content Repetition2025년 12월 4일댓글 수 로딩 중
[논문리뷰] TV2TV: A Unified Framework for Interleaved Language and Video Generation본 논문은 복잡한 시맨틱 추론이나 반복적인 고수준 계획이 필요한 비디오 생성에서 기존 모델들이 겪는 한계를 극복하고자 합니다. 비디오 생성을 텍스트와 비디오 생성의 교차 프로세스로 분해함으로써 시각적 품질과 사용자 제어 가능성을 획기적으로 향상시키는 것을 목표로 합니다.#Review#Video Generation#Language Modeling#Multimodal AI#Interleaved Generation#Flow Matching#Transformer#Controllability#World Models2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting본 논문의 핵심 목표는 단안 카메라로 촬영된 불완전한 마네킹 챌린지(Mannequin-Challenge, MC) 영상 에서 미세한 움직임으로 인해 발생하는 고스팅(ghosting) 및 블러(blur) 아티팩트를 제거하고, 고품질의 완벽하게 정지된 3D 장면(freeze-time video) 을 합성하는 것입니다.#Review#Monocular 3D Reconstruction#Mannequin Challenge#Dynamic Gaussian Splatting#Freeze-Time Video#Temporal Consistency#Artifact Suppression#Regularization2025년 12월 4일댓글 수 로딩 중
[논문리뷰] SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs본 논문은 대규모 언어 모델(LLMs)을 극단적인 저비트 양자화(예: 2비트, 4비트 MXFP4) 시 발생하는 심각한 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Post-Training Quantization (PTQ)#Large Language Models (LLMs)#Low-Bit Quantization#Mixed-Precision Quantization#Sensitivity Metric#Quantization Scale Initialization#Accuracy Preservation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion본 논문은 Latent Diffusion Models (LDMs)의 내재적인 문제점인 고수준 의미론(semantics)과 저수준 텍스처(texture) 모델링 간의 불균형을 해결하여 느린 수렴과 최적화되지 않은 생성 품질 문제를 개선하는 것을 목표로 합니다.#Review#Latent Diffusion Models#Asynchronous Denoising#Semantic Modeling#Texture Modeling#Image Generation#Vision Transformer#VAE#Fast Convergence2025년 12월 4일댓글 수 로딩 중
[논문리뷰] SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization기존 LVLM(Large Vision-Language Models) 기반의 VLN(Vision-Language Navigation) 에이전트가 겪는 지각, 추론, 계획 오류로 인한 낮은 내비게이션 성능 문제를 해결하고자 합니다.#Review#Vision-Language Navigation#Large Vision-Language Models#Visual Prompt#Reinforcement Fine-Tuning#Policy Optimization#Embodied AI#Spatial Reasoning#Perception Errors2025년 12월 4일댓글 수 로딩 중
[논문리뷰] SIMA 2: A Generalist Embodied Agent for Virtual WorldsSIMA 2는 다양한 3D 가상 세계에서 광범위하게 이해하고 행동하는 제너럴리스트 임베디드 에이전트 를 개발하는 것을 목표로 합니다.#Review#Embodied AI#Generalist Agent#Virtual Worlds#Foundation Models#Gemini#Self-Improvement#Dialogue#Reasoning#Reinforcement Learning2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation효율적인 스트리밍 비디오 생성 시 기존 방법론들이 정적 초기 토큰에 과도하게 의존하여 동적 움직임 저하와 '프레임 복사' 문제를 겪는 한계를 극복하고자 합니다. 본 연구는 실시간으로 높은 시각적 충실도와 강력한 움직임 역동성을 동시에 유지하는 비디오 생성을 목표로 합니다.#Review#Streaming Video Generation#Video Diffusion Models#Distribution Matching Distillation#Reinforcement Learning#Autoregressive Models#Attention Sink#Real-time2025년 12월 4일댓글 수 로딩 중
[논문리뷰] REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance소셜 미디어의 가짜 뉴스 확산으로 인한 신뢰 저하 문제를 해결하기 위해, 기존 LLM 기반 팩트 체크 시스템의 외부 지식 의존성, 높은 지연 시간, 환각 현상, 낮은 해석 가능성 등의 한계를 극복하는 것을 목표로 합니다.#Review#Fact-Checking#Explainable AI (XAI)#Large Language Models (LLMs)#Self-Refinement#Latent Space#Disentanglement#Steering Vectors#Misinformation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory본 연구는 기존 LSTM 모델 의 높은 파라미터 중복성과 제한된 비선형 표현력 문제를 해결하고, 특히 도시 통신 예측과 같은 복잡한 시계열 모델링 태스크에서 성능을 향상시키는 것을 목표로 합니다.#Review#Quantum Machine Learning#Kolmogorov-Arnold Networks#Long Short-Term Memory (LSTM)#Time Series Forecasting#Hybrid Quantum-Classical Learning#Quantum-inspired#Recurrent Neural Networks2025년 12월 4일댓글 수 로딩 중
[논문리뷰] PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing기존 LLM 기반 글쓰기 보조 도구가 편집기 외부에 존재하여 발생하는 컨텍스트 전환, 상호작용 기록 단절, 문서 상태와의 심층적 상호작용 부족 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Academic Writing#In-editor Assistant#Multi-agent System#Overleaf Integration#Chrome Extension#Kubernetes#XtraMCP2025년 12월 4일댓글 수 로딩 중
[논문리뷰] On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral본 논문은 GRPO(Group Relative Policy Optimization) 기반의 툴 통합 강화 학습(TIRL) , 특히 Search-R1 프레임워크에서 발생하는 고질적인 훈련 붕괴 문제의 근본 원인을 파악하고 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Large Language Models (LLMs)#Tool-Integrated Reasoning (TIR)#GRPO#Training Stability#Lazy Likelihood Displacement (LLD)#Regularization#Search-R12025년 12월 4일댓글 수 로딩 중
[논문리뷰] Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction본 논문은 LLM이 수동적 응답자에서 자율 에이전트로 발전 하는 데 필요한 확장 가능한 고품질 상호작용 신호 인프라의 부족 문제를 해결하고자 합니다.#Review#Agentic Models#Large Language Models (LLMs)#Agentic Scaling#Environment Construction#NexAU#NexA4A#NexGAP#Interactive Environments2025년 12월 4일댓글 수 로딩 중
[논문리뷰] NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation기존 확산 모델이 데이터의 공간적 구조를 파괴하는 문제를 해결하고, 아키텍처 변경이나 추가 파라미터 없이 이미지의 위상을 보존하여 구조 정렬 생성(structure-aligned generation) 을 가능하게 하는 새로운 확산 프로세스를 제안합니다.#Review#Diffusion Models#Phase Preservation#Frequency Domain#Structure-Aligned Generation#Image-to-Image Translation#Sim-to-Real#Generative AI2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing본 논문은 계산 비용이 매우 높은(각 평가에 며칠 소요) 문제인 구 채우기(sphere packing) 문제에서 AI를 활용하여 새로운 수학적 상한을 발견하는 것을 목표로 합니다. 특히, 기존의 데이터 집약적인 AI 접근 방식이 비실용적인 환경에서 샘플 효율적인 모델 기반 프레임워크 를 통해 난제를 해결하고자 합니다.#Review#Sphere Packing#Mathematical Discovery#Semidefinite Programming (SDP)#Bayesian Optimization (BO)#Monte Carlo Tree Search (MCTS)#Sample-Efficient AI#Model-Based Learning#Geometric Constraints2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment본 논문은 비디오 이해 태스크에서 멀티모달 LLM(MLLM)이 생성하는 설명문의 시각적 객체 및 시간적 행동 환각 문제를 공동으로 완화하는 것을 목표로 합니다.#Review#Multimodal LLMs#Video Understanding#Hallucination Mitigation#Object Hallucination#Action Hallucination#Contrastive Learning#Self-Augmentation#Tracklet-Phrase Alignment2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates이 논문은 instruct LLM을 비용이 많이 드는 특화된 레이블링된 데이터 없이 비레이블링된 타겟 언어 데이터만으로 새로운 언어에 적응 시킬 때 발생하는 재앙적 망각(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Catastrophic Forgetting#Language Adaptation#Continual Pre-training#Parameter Freezing#Low-Resource Languages#Source Knowledge Preservation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length본 논문은 기존 확산 모델 기반 비디오 생성 방법론의 순차적 계산 및 장기 불일치 문제를 해결하여, 실시간 스트리밍 환경에서 140억 개 파라미터 규모의 확산 모델을 사용하여 무한 길이 의 고품질 오디오 기반 아바타 생성을 가능하게 하는 것을 목표로 합니다.#Review#Audio-Driven Avatar Generation#Real-time Streaming#Diffusion Models#Infinite Length#Pipeline Parallelism#Temporal Consistency#Model Distillation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] LATTICE: Democratize High-Fidelity 3D Generation at Scale본 논문은 고품질 3D 에셋 생성에 있어 3D 및 2D 생성 모델 간의 품질과 확장성 격차를 해소하는 것을 목표로 합니다. 특히, 3D 생성 과정의 높은 계산 복잡성과 효율적인 에셋 인코딩 방식 부재로 인해 발생하는 한계를 극복하고, 모델 확장성 및 성능 향상을 위한 효과적인 3D 표현을 정의하고자 합니다.#Review#3D Generation#High-Fidelity#Latent Representation#Voxel Grid#Diffusion Models#Transformer#Scalable AI#Asset Creation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Generative Neural Video Compression via Video Diffusion Prior본 논문은 기존 비디오 압축 방식이 초저비트레이트 환경에서 발생하는 흐릿함, 세부 정보 손실, 그리고 지각적 깜빡임(perceptual flickering) 문제를 해결하는 것을 목표로 합니다.#Review#Neural Video Compression#Diffusion Models#Generative Models#Video Compression#Temporal Coherence#Perceptual Quality#Flow Matching#Video Diffusion Transformer (VideoDiT)2025년 12월 4일댓글 수 로딩 중