최신 포스트

[논문리뷰] Latent Collaboration in Multi-Agent Systems

본 논문은 기존 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 텍스트 기반 추론 및 통신에 의존하여 발생하는 비효율성과 정보 손실 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Large Language Models #Latent Space #Latent Reasoning #Latent Communication #KV Cache #Computational Efficiency #Training-Free

2025년 11월 26일

[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

기존 비디오 확산 모델의 비효율성 및 고정 길이 제약과 AR 모델의 낮은 품질 및 병렬화 불가능 문제를 극복하고자 합니다.

#Review #World Simulation #Video Generation #Block Diffusion #Semi-Autoregressive #KV Cache Management #Inference Engine #Long Video Generation #Performance Optimization

2025년 11월 26일

[논문리뷰] Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

이 논문은 확산 모델의 생성 효율성을 향상시키기 위한 timestep distillation 의 한계를 극복하고자 합니다.

#Review #Diffusion Models #Timestep Distillation #Consistency Models #Latent Space #Image-Free Training #Efficiency Optimization #Trajectory Sampling #Continuous-Time Learning

2025년 11월 26일

[논문리뷰] I-GLIDE: Input Groups for Latent Health Indicators in Degradation Estimation

본 논문은 복잡한 다중 센서 시스템에서 RUL(Remaining Useful Life) 예측 을 위한 건강 지표(HI)의 질을 향상시키는 것을 목표로 합니다.

#Review #Health Indicator (HI)#Remaining Useful Life (RUL)#Uncertainty Quantification (UQ)#Autoencoder (AE)#Latent Space #Degradation Modeling #Prognostics #Condition-Based Maintenance

2025년 11월 26일

[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

본 논문은 오디오-비디오 동시 생성 모델에서 발생하는 불안정한 오디오-비디오 정렬 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Visual Generation #Cross-Modal Synchronization #Diffusion Models #Cross-Task Synergy #Classifier-Free Guidance #Multimodal AI #Generative AI

2025년 11월 26일

[논문리뷰] Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization

본 논문은 3D Gaussian Splatting (3DGS) 이 few-shot 시나리오에서 sparse observations에 과적합되어 novel viewpoints에 대한 일반화 성능이 저하되는 문제를 해결하고자 합니다.

#Review #3D Gaussian Splatting #Generalization #Sharpness-Aware Minimization #Regularization #Novel View Synthesis #Sparse View Reconstruction #Loss Landscape #Frequency-Adaptive

2025년 11월 26일

[논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video Models

블록-인과(block-causal) 비디오 생성 모델, 특히 1.3B 모델 이 16 FPS , 14B 모델 이 4.5 FPS 에 불과한 느린 추론 속도로 인해 품질-속도 간의 심각한 절충(trade-off) 문제에 직면합니다.

#Review #Video Generation #Diffusion Models #Block-Causal Models #Inference Acceleration #Multi-GPU Parallelism #Training-Free #KV Caching #Interactive AI

2025년 11월 26일

[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

iMontage는 사전 훈련된 비디오 모델을 재활용하여 고도로 동적인 다대다 이미지 생성을 위한 통합 프레임워크를 제시합니다.

#Review #Image Generation #Video Models #Diffusion Models #Many-to-many #Unified Framework #Temporal Consistency #Image Editing #Positional Embedding

2025년 11월 25일

[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.

#Review #3D City Generation #Generative AI #Large Language Models #Vision-Language Models #Multi-Agent Framework #Self-Critic Learning #Scene Graph #Text-to-3D

2025년 11월 25일

[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual Answering

본 논문은 시각적 질문에 대한 시각적 답변(VQ-VA) 능력, 즉 이미지를 통해 질문에 응답하는 기능을 오픈 소스 모델에도 도입하는 것을 목표로 합니다.

#Review #Visual Question Answering (VQA)#Image Generation #Data-centric AI #Agentic Pipeline #Multimodal Models #Web-scale Data #Benchmark #LightFusion

2025년 11월 25일

[논문리뷰] Unified all-atom molecule generation with neural fields

본 연구는 구조 기반 신약 설계에서 특정 분자 양식에 국한되어 적용 범위가 제한적인 기존 생성 모델의 한계를 해결하는 것을 목표로 합니다.

#Review #Molecule Generation #Neural Fields #Score-based Generative Models #Drug Design #Modality-agnostic #Antibody Design #Macrocyclic Peptides #All-atom

2025년 11월 25일

[논문리뷰] UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

비디오 Diffusion Transformer(DiT) 모델이 학습 길이 이상으로 비디오를 생성할 때 발생하는 주기적 콘텐츠 반복 과 전반적인 품질 저하 라는 두 가지 실패 모드를 해결하는 것을 목표로 합니다.

#Review #Video Diffusion Transformers #Length Extrapolation #Attention Mechanism #Attention Dispersion #Periodic Content Repetition #Quality Degradation #Training-free Method #Plug-and-play

2025년 11월 25일

[논문리뷰] Soft Adaptive Policy Optimization

본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Importance Ratios #Soft Clipping #Trust Region #Mixture-of-Experts #Asymmetric Temperature

2025년 11월 25일

[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

본 논문은 과학 영상 이해 및 교육 분야에서 기존 멀티모달 대규모 언어 모델(MLLMs) 및 영상 에이전트 시스템의 한계를 극복하는 것을 목표로 합니다. 특히, 외부 전문 지식 통합과 엄격한 단계별 추론이 요구되는 과학 도메인에서 모델의 성능과 신뢰성을 향상시키고자 합니다.

#Review #Multi-Agent System #Video Understanding #Scientific Education #Deming Cycle #Large Language Models #Iterative Optimization #Knowledge Integration #Educational Content Generation

2025년 11월 25일

[논문리뷰] Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

본 연구는 VLM이 다단계 시각적 상호작용 및 효과적인 도구 통합 추론에서 겪는 한계를 해결하고자 합니다. 특히, 도구 선택, 호출 및 조율 능력이 부족한 기존 VLM의 문제를 극복하고, 확장 가능한 훈련 환경과 에이전트 학습 전략을 통해 VLM의 도구 통합 시각적 추론 능력 을 체계적으로 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Tool-Integrated Reasoning (TIR)#Agentic AI #VQA #Training Environment #Behavioral Cloning #Policy Optimization

2025년 11월 25일

[논문리뷰] SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space

대규모 언어 모델(LLM)에서 quadratic 연산 복잡성 을 갖는 full attention 의 한계를 극복하기 위해, sparse attention 의 성능 저하 및 부족한 sparsity 문제를 해결하고자 합니다.

#Review #Sparse Attention #Full Attention #Large Language Models (LLMs)#Context Length #Attention Sparsity #Alignment Loss #Long-Context Extrapolation

2025년 11월 25일

[논문리뷰] ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding

본 연구는 기존 비디오 리테이크 생성 방법론이 가변 길이 입력, 동적 카메라 모션, 분포 외 카메라 궤적에 취약하며, 종종 워핑 아티팩트나 흐릿한 객체를 생성하는 한계를 해결하고자 합니다.

#Review #Video Retake Generation #Camera Control #Rotary Position Embedding (RoPE)#Rotary Camera Encoding (RoCE)#Geometric Consistency #Video Generative Models #Transformer Architecture #Multi-view Synthesis

2025년 11월 25일

[논문리뷰] PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding

기존 비디오 생성 모델들이 시각적 품질은 뛰어나지만, 명시적인 물리적 제어 가능성과 현실성이 부족하다는 문제를 해결하는 것을 목표로 합니다. 단일 이미지로부터 객체의 물리적 특성을 추론하고, 이를 기반으로 물리적으로 정확하며 역동적인 비디오를 생성하는 새로운 프레임워크를 제안합니다.

#Review #Video Generation #Physics Simulation #Controllable AI #Part-Aware #Semantic Grounding #Material Properties #Image-to-Video #Diffusion Models

2025년 11월 25일

[논문리뷰] OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

본 연구는 RGBA(Red, Green, Blue, Alpha) 이미지 조작을 위한 기존의 파편화된 단일 태스크 전문 모델과, 알파 채널 처리 능력이 없는 통합 RGB 멀티태스크 프레임워크 간의 격차를 해소하는 것을 목표로 합니다.

#Review #RGBA Generation #Multi-Task Learning #Diffusion Transformers #Image Matting #Layer Decomposition #Object Removal #Alpha-aware VAE #MSROPE-BiL

2025년 11월 25일

[논문리뷰] MedSAM3: Delving into Segment Anything with Medical Concepts

의료 영상 분할 분야에서 기존 모델들의 일반화 부족과 광범위한 수동 주석 요구 사항을 해결하고, 순전히 기하학적 프롬프트에 의존하는 한계를 극복하는 것을 목표로 합니다.

#Review #Medical Image Segmentation #Segment Anything Model (SAM)#Promptable Concept Segmentation (PCS)#Multimodal Large Language Models (MLLMs)#Agentic AI #Domain Adaptation #Text-guided Segmentation

2025년 11월 25일