Review

[논문리뷰] SPHINX: A Synthetic Environment for Visual Perception and Reasoning

본 논문은 기존 벤치마크들이 시각적 인식보다 추론을 강조하거나 대칭, 정신적 회전 등 핵심 인지 원시 요소들을 체계적으로 평가하지 못하는 한계를 지적합니다.

#Review #Visual Reasoning #Synthetic Environment #LVLM Evaluation #Reinforcement Learning #Cognitive Primitives #Procedural Generation #Multimodal AI

2025년 11월 26일

[논문리뷰] Revisiting Generalization Across Difficulty Levels: It's Not So Easy

이 논문은 대규모 언어 모델(LLM)이 다양한 난이도 수준의 태스크에 대해 얼마나 잘 일반화하는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #LLM Generalization #Task Difficulty #Item Response Theory #Cross-Difficulty #Data Curation #Model Evaluation #Supervised Fine-Tuning

2025년 11월 26일

[논문리뷰] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale

본 연구는 도시 규모 3D 세계 생성에서 기존 방법론이 직면한 품질, 충실도 및 확장성 문제를 해결하는 것을 목표로 합니다.

#Review #3D World Generation #City-Scale #Multimodal Agents #Reality Alignment #Urban Simulation #Foundation Models #Geospatial Data

2025년 11월 26일

[논문리뷰] NVIDIA Nemotron Parse 1.1

Nemotron-Parse 1.1은 전작인 Nemoretriever-Parse-1.0의 기능을 개선하여, 일반 OCR, 마크다운 형식 지정, 구조화된 표 구문 분석, 그림/차트/다이어그램의 텍스트 추출 등 문서 파싱 및 OCR 기능을 발전시키는 것을 목표로 합니다.

#Review #OCR #Document Parsing #Vision-Language Model #Encoder-Decoder #Transformer #Table Extraction #Multilingual OCR #Layout Analysis

2025년 11월 26일

[논문리뷰] Monet: Reasoning in Latent Visual Space Beyond Images and Language

본 논문은 기존 MLLMs의 시각 추론이 외부 도구에 의존하고 인간과 같은 추상적인 시각적 사고가 부족하다는 문제를 해결하고자 합니다.

#Review #Latent Visual Reasoning #Multimodal Large Language Models (MLLMs)#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Visual-latent Policy Optimization (VLPO)#Chain-of-Thought (CoT)#Abstract Visual Thinking

2025년 11월 26일

[논문리뷰] MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

본 논문은 사족 보행 로봇의 자연어 명령을 연속적인 제어로 연결하는 데 따르는 근본적인 과제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Mobile Robotics #Quadruped Robots #Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Embodied AI #Multimodal Perception

2025년 11월 26일

[논문리뷰] Latent Collaboration in Multi-Agent Systems

본 논문은 기존 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 텍스트 기반 추론 및 통신에 의존하여 발생하는 비효율성과 정보 손실 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Large Language Models #Latent Space #Latent Reasoning #Latent Communication #KV Cache #Computational Efficiency #Training-Free

2025년 11월 26일

[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

기존 비디오 확산 모델의 비효율성 및 고정 길이 제약과 AR 모델의 낮은 품질 및 병렬화 불가능 문제를 극복하고자 합니다.

#Review #World Simulation #Video Generation #Block Diffusion #Semi-Autoregressive #KV Cache Management #Inference Engine #Long Video Generation #Performance Optimization

2025년 11월 26일

[논문리뷰] Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

이 논문은 확산 모델의 생성 효율성을 향상시키기 위한 timestep distillation 의 한계를 극복하고자 합니다.

#Review #Diffusion Models #Timestep Distillation #Consistency Models #Latent Space #Image-Free Training #Efficiency Optimization #Trajectory Sampling #Continuous-Time Learning

2025년 11월 26일

[논문리뷰] I-GLIDE: Input Groups for Latent Health Indicators in Degradation Estimation

본 논문은 복잡한 다중 센서 시스템에서 RUL(Remaining Useful Life) 예측 을 위한 건강 지표(HI)의 질을 향상시키는 것을 목표로 합니다.

#Review #Health Indicator (HI)#Remaining Useful Life (RUL)#Uncertainty Quantification (UQ)#Autoencoder (AE)#Latent Space #Degradation Modeling #Prognostics #Condition-Based Maintenance

2025년 11월 26일

[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

본 논문은 오디오-비디오 동시 생성 모델에서 발생하는 불안정한 오디오-비디오 정렬 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Visual Generation #Cross-Modal Synchronization #Diffusion Models #Cross-Task Synergy #Classifier-Free Guidance #Multimodal AI #Generative AI

2025년 11월 26일

[논문리뷰] Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization

본 논문은 3D Gaussian Splatting (3DGS) 이 few-shot 시나리오에서 sparse observations에 과적합되어 novel viewpoints에 대한 일반화 성능이 저하되는 문제를 해결하고자 합니다.

#Review #3D Gaussian Splatting #Generalization #Sharpness-Aware Minimization #Regularization #Novel View Synthesis #Sparse View Reconstruction #Loss Landscape #Frequency-Adaptive

2025년 11월 26일

[논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video Models

블록-인과(block-causal) 비디오 생성 모델, 특히 1.3B 모델 이 16 FPS , 14B 모델 이 4.5 FPS 에 불과한 느린 추론 속도로 인해 품질-속도 간의 심각한 절충(trade-off) 문제에 직면합니다.

#Review #Video Generation #Diffusion Models #Block-Causal Models #Inference Acceleration #Multi-GPU Parallelism #Training-Free #KV Caching #Interactive AI

2025년 11월 26일

[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation

iMontage는 사전 훈련된 비디오 모델을 재활용하여 고도로 동적인 다대다 이미지 생성을 위한 통합 프레임워크를 제시합니다.

#Review #Image Generation #Video Models #Diffusion Models #Many-to-many #Unified Framework #Temporal Consistency #Image Editing #Positional Embedding

2025년 11월 25일

[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.

#Review #3D City Generation #Generative AI #Large Language Models #Vision-Language Models #Multi-Agent Framework #Self-Critic Learning #Scene Graph #Text-to-3D

2025년 11월 25일

[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual Answering

본 논문은 시각적 질문에 대한 시각적 답변(VQ-VA) 능력, 즉 이미지를 통해 질문에 응답하는 기능을 오픈 소스 모델에도 도입하는 것을 목표로 합니다.

#Review #Visual Question Answering (VQA)#Image Generation #Data-centric AI #Agentic Pipeline #Multimodal Models #Web-scale Data #Benchmark #LightFusion

2025년 11월 25일

[논문리뷰] Unified all-atom molecule generation with neural fields

본 연구는 구조 기반 신약 설계에서 특정 분자 양식에 국한되어 적용 범위가 제한적인 기존 생성 모델의 한계를 해결하는 것을 목표로 합니다.

#Review #Molecule Generation #Neural Fields #Score-based Generative Models #Drug Design #Modality-agnostic #Antibody Design #Macrocyclic Peptides #All-atom

2025년 11월 25일

[논문리뷰] UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

비디오 Diffusion Transformer(DiT) 모델이 학습 길이 이상으로 비디오를 생성할 때 발생하는 주기적 콘텐츠 반복 과 전반적인 품질 저하 라는 두 가지 실패 모드를 해결하는 것을 목표로 합니다.

#Review #Video Diffusion Transformers #Length Extrapolation #Attention Mechanism #Attention Dispersion #Periodic Content Repetition #Quality Degradation #Training-free Method #Plug-and-play

2025년 11월 25일

[논문리뷰] Soft Adaptive Policy Optimization

본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #Importance Ratios #Soft Clipping #Trust Region #Mixture-of-Experts #Asymmetric Temperature

2025년 11월 25일

[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System

본 논문은 과학 영상 이해 및 교육 분야에서 기존 멀티모달 대규모 언어 모델(MLLMs) 및 영상 에이전트 시스템의 한계를 극복하는 것을 목표로 합니다. 특히, 외부 전문 지식 통합과 엄격한 단계별 추론이 요구되는 과학 도메인에서 모델의 성능과 신뢰성을 향상시키고자 합니다.

#Review #Multi-Agent System #Video Understanding #Scientific Education #Deming Cycle #Large Language Models #Iterative Optimization #Knowledge Integration #Educational Content Generation

2025년 11월 25일