[논문리뷰] MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots본 논문은 사족 보행 로봇의 자연어 명령을 연속적인 제어로 연결하는 데 따르는 근본적인 과제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Mobile Robotics#Quadruped Robots#Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Embodied AI#Multimodal Perception2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Latent Collaboration in Multi-Agent Systems본 논문은 기존 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 텍스트 기반 추론 및 통신에 의존하여 발생하는 비효율성과 정보 손실 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Large Language Models#Latent Space#Latent Reasoning#Latent Communication#KV Cache#Computational Efficiency#Training-Free2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation기존 비디오 확산 모델의 비효율성 및 고정 길이 제약과 AR 모델의 낮은 품질 및 병렬화 불가능 문제를 극복하고자 합니다.#Review#World Simulation#Video Generation#Block Diffusion#Semi-Autoregressive#KV Cache Management#Inference Engine#Long Video Generation#Performance Optimization2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs이 논문은 확산 모델의 생성 효율성을 향상시키기 위한 timestep distillation 의 한계를 극복하고자 합니다.#Review#Diffusion Models#Timestep Distillation#Consistency Models#Latent Space#Image-Free Training#Efficiency Optimization#Trajectory Sampling#Continuous-Time Learning2025년 11월 26일댓글 수 로딩 중
[논문리뷰] I-GLIDE: Input Groups for Latent Health Indicators in Degradation Estimation본 논문은 복잡한 다중 센서 시스템에서 RUL(Remaining Useful Life) 예측 을 위한 건강 지표(HI)의 질을 향상시키는 것을 목표로 합니다.#Review#Health Indicator (HI)#Remaining Useful Life (RUL)#Uncertainty Quantification (UQ)#Autoencoder (AE)#Latent Space#Degradation Modeling#Prognostics#Condition-Based Maintenance2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy본 논문은 오디오-비디오 동시 생성 모델에서 발생하는 불안정한 오디오-비디오 정렬 문제를 해결하는 것을 목표로 합니다.#Review#Audio-Visual Generation#Cross-Modal Synchronization#Diffusion Models#Cross-Task Synergy#Classifier-Free Guidance#Multimodal AI#Generative AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization본 논문은 3D Gaussian Splatting (3DGS) 이 few-shot 시나리오에서 sparse observations에 과적합되어 novel viewpoints에 대한 일반화 성능이 저하되는 문제를 해결하고자 합니다.#Review#3D Gaussian Splatting#Generalization#Sharpness-Aware Minimization#Regularization#Novel View Synthesis#Sparse View Reconstruction#Loss Landscape#Frequency-Adaptive2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video Models블록-인과(block-causal) 비디오 생성 모델, 특히 1.3B 모델 이 16 FPS , 14B 모델 이 4.5 FPS 에 불과한 느린 추론 속도로 인해 품질-속도 간의 심각한 절충(trade-off) 문제에 직면합니다.#Review#Video Generation#Diffusion Models#Block-Causal Models#Inference Acceleration#Multi-GPU Parallelism#Training-Free#KV Caching#Interactive AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image GenerationiMontage는 사전 훈련된 비디오 모델을 재활용하여 고도로 동적인 다대다 이미지 생성을 위한 통합 프레임워크를 제시합니다.#Review#Image Generation#Video Models#Diffusion Models#Many-to-many#Unified Framework#Temporal Consistency#Image Editing#Positional Embedding2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.#Review#3D City Generation#Generative AI#Large Language Models#Vision-Language Models#Multi-Agent Framework#Self-Critic Learning#Scene Graph#Text-to-3D2025년 11월 25일댓글 수 로딩 중
[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual Answering본 논문은 시각적 질문에 대한 시각적 답변(VQ-VA) 능력, 즉 이미지를 통해 질문에 응답하는 기능을 오픈 소스 모델에도 도입하는 것을 목표로 합니다.#Review#Visual Question Answering (VQA)#Image Generation#Data-centric AI#Agentic Pipeline#Multimodal Models#Web-scale Data#Benchmark#LightFusion2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Unified all-atom molecule generation with neural fields본 연구는 구조 기반 신약 설계에서 특정 분자 양식에 국한되어 적용 범위가 제한적인 기존 생성 모델의 한계를 해결하는 것을 목표로 합니다.#Review#Molecule Generation#Neural Fields#Score-based Generative Models#Drug Design#Modality-agnostic#Antibody Design#Macrocyclic Peptides#All-atom2025년 11월 25일댓글 수 로딩 중
[논문리뷰] UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers비디오 Diffusion Transformer(DiT) 모델이 학습 길이 이상으로 비디오를 생성할 때 발생하는 주기적 콘텐츠 반복 과 전반적인 품질 저하 라는 두 가지 실패 모드를 해결하는 것을 목표로 합니다.#Review#Video Diffusion Transformers#Length Extrapolation#Attention Mechanism#Attention Dispersion#Periodic Content Repetition#Quality Degradation#Training-free Method#Plug-and-play2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Soft Adaptive Policy Optimization본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Importance Ratios#Soft Clipping#Trust Region#Mixture-of-Experts#Asymmetric Temperature2025년 11월 25일댓글 수 로딩 중
[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System본 논문은 과학 영상 이해 및 교육 분야에서 기존 멀티모달 대규모 언어 모델(MLLMs) 및 영상 에이전트 시스템의 한계를 극복하는 것을 목표로 합니다. 특히, 외부 전문 지식 통합과 엄격한 단계별 추론이 요구되는 과학 도메인에서 모델의 성능과 신뢰성을 향상시키고자 합니다.#Review#Multi-Agent System#Video Understanding#Scientific Education#Deming Cycle#Large Language Models#Iterative Optimization#Knowledge Integration#Educational Content Generation2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs본 연구는 VLM이 다단계 시각적 상호작용 및 효과적인 도구 통합 추론에서 겪는 한계를 해결하고자 합니다. 특히, 도구 선택, 호출 및 조율 능력이 부족한 기존 VLM의 문제를 극복하고, 확장 가능한 훈련 환경과 에이전트 학습 전략을 통해 VLM의 도구 통합 시각적 추론 능력 을 체계적으로 향상시키는 것을 목표로 합니다.#Review#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Tool-Integrated Reasoning (TIR)#Agentic AI#VQA#Training Environment#Behavioral Cloning#Policy Optimization2025년 11월 25일댓글 수 로딩 중
[논문리뷰] SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space대규모 언어 모델(LLM)에서 quadratic 연산 복잡성 을 갖는 full attention 의 한계를 극복하기 위해, sparse attention 의 성능 저하 및 부족한 sparsity 문제를 해결하고자 합니다.#Review#Sparse Attention#Full Attention#Large Language Models (LLMs)#Context Length#Attention Sparsity#Alignment Loss#Long-Context Extrapolation2025년 11월 25일댓글 수 로딩 중
[논문리뷰] ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding본 연구는 기존 비디오 리테이크 생성 방법론이 가변 길이 입력, 동적 카메라 모션, 분포 외 카메라 궤적에 취약하며, 종종 워핑 아티팩트나 흐릿한 객체를 생성하는 한계를 해결하고자 합니다.#Review#Video Retake Generation#Camera Control#Rotary Position Embedding (RoPE)#Rotary Camera Encoding (RoCE)#Geometric Consistency#Video Generative Models#Transformer Architecture#Multi-view Synthesis2025년 11월 25일댓글 수 로딩 중
[논문리뷰] PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding기존 비디오 생성 모델들이 시각적 품질은 뛰어나지만, 명시적인 물리적 제어 가능성과 현실성이 부족하다는 문제를 해결하는 것을 목표로 합니다. 단일 이미지로부터 객체의 물리적 특성을 추론하고, 이를 기반으로 물리적으로 정확하며 역동적인 비디오를 생성하는 새로운 프레임워크를 제안합니다.#Review#Video Generation#Physics Simulation#Controllable AI#Part-Aware#Semantic Grounding#Material Properties#Image-to-Video#Diffusion Models2025년 11월 25일댓글 수 로딩 중
[논문리뷰] OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation본 연구는 RGBA(Red, Green, Blue, Alpha) 이미지 조작을 위한 기존의 파편화된 단일 태스크 전문 모델과, 알파 채널 처리 능력이 없는 통합 RGB 멀티태스크 프레임워크 간의 격차를 해소하는 것을 목표로 합니다.#Review#RGBA Generation#Multi-Task Learning#Diffusion Transformers#Image Matting#Layer Decomposition#Object Removal#Alpha-aware VAE#MSROPE-BiL2025년 11월 25일댓글 수 로딩 중