[논문리뷰] SPHINX: A Synthetic Environment for Visual Perception and Reasoning본 논문은 기존 벤치마크들이 시각적 인식보다 추론을 강조하거나 대칭, 정신적 회전 등 핵심 인지 원시 요소들을 체계적으로 평가하지 못하는 한계를 지적합니다.#Review#Visual Reasoning#Synthetic Environment#LVLM Evaluation#Reinforcement Learning#Cognitive Primitives#Procedural Generation#Multimodal AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Revisiting Generalization Across Difficulty Levels: It's Not So Easy이 논문은 대규모 언어 모델(LLM)이 다양한 난이도 수준의 태스크에 대해 얼마나 잘 일반화하는지 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM Generalization#Task Difficulty#Item Response Theory#Cross-Difficulty#Data Curation#Model Evaluation#Supervised Fine-Tuning2025년 11월 26일댓글 수 로딩 중
[논문리뷰] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale본 연구는 도시 규모 3D 세계 생성에서 기존 방법론이 직면한 품질, 충실도 및 확장성 문제를 해결하는 것을 목표로 합니다.#Review#3D World Generation#City-Scale#Multimodal Agents#Reality Alignment#Urban Simulation#Foundation Models#Geospatial Data2025년 11월 26일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Parse 1.1Nemotron-Parse 1.1은 전작인 Nemoretriever-Parse-1.0의 기능을 개선하여, 일반 OCR, 마크다운 형식 지정, 구조화된 표 구문 분석, 그림/차트/다이어그램의 텍스트 추출 등 문서 파싱 및 OCR 기능을 발전시키는 것을 목표로 합니다.#Review#OCR#Document Parsing#Vision-Language Model#Encoder-Decoder#Transformer#Table Extraction#Multilingual OCR#Layout Analysis2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Monet: Reasoning in Latent Visual Space Beyond Images and Language본 논문은 기존 MLLMs의 시각 추론이 외부 도구에 의존하고 인간과 같은 추상적인 시각적 사고가 부족하다는 문제를 해결하고자 합니다.#Review#Latent Visual Reasoning#Multimodal Large Language Models (MLLMs)#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)#Visual-latent Policy Optimization (VLPO)#Chain-of-Thought (CoT)#Abstract Visual Thinking2025년 11월 26일댓글 수 로딩 중
[논문리뷰] MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots본 논문은 사족 보행 로봇의 자연어 명령을 연속적인 제어로 연결하는 데 따르는 근본적인 과제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Mobile Robotics#Quadruped Robots#Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Embodied AI#Multimodal Perception2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Latent Collaboration in Multi-Agent Systems본 논문은 기존 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 텍스트 기반 추론 및 통신에 의존하여 발생하는 비효율성과 정보 손실 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Large Language Models#Latent Space#Latent Reasoning#Latent Communication#KV Cache#Computational Efficiency#Training-Free2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation기존 비디오 확산 모델의 비효율성 및 고정 길이 제약과 AR 모델의 낮은 품질 및 병렬화 불가능 문제를 극복하고자 합니다.#Review#World Simulation#Video Generation#Block Diffusion#Semi-Autoregressive#KV Cache Management#Inference Engine#Long Video Generation#Performance Optimization2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs이 논문은 확산 모델의 생성 효율성을 향상시키기 위한 timestep distillation 의 한계를 극복하고자 합니다.#Review#Diffusion Models#Timestep Distillation#Consistency Models#Latent Space#Image-Free Training#Efficiency Optimization#Trajectory Sampling#Continuous-Time Learning2025년 11월 26일댓글 수 로딩 중
[논문리뷰] I-GLIDE: Input Groups for Latent Health Indicators in Degradation Estimation본 논문은 복잡한 다중 센서 시스템에서 RUL(Remaining Useful Life) 예측 을 위한 건강 지표(HI)의 질을 향상시키는 것을 목표로 합니다.#Review#Health Indicator (HI)#Remaining Useful Life (RUL)#Uncertainty Quantification (UQ)#Autoencoder (AE)#Latent Space#Degradation Modeling#Prognostics#Condition-Based Maintenance2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy본 논문은 오디오-비디오 동시 생성 모델에서 발생하는 불안정한 오디오-비디오 정렬 문제를 해결하는 것을 목표로 합니다.#Review#Audio-Visual Generation#Cross-Modal Synchronization#Diffusion Models#Cross-Task Synergy#Classifier-Free Guidance#Multimodal AI#Generative AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization본 논문은 3D Gaussian Splatting (3DGS) 이 few-shot 시나리오에서 sparse observations에 과적합되어 novel viewpoints에 대한 일반화 성능이 저하되는 문제를 해결하고자 합니다.#Review#3D Gaussian Splatting#Generalization#Sharpness-Aware Minimization#Regularization#Novel View Synthesis#Sparse View Reconstruction#Loss Landscape#Frequency-Adaptive2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Block Cascading: Training Free Acceleration of Block-Causal Video Models블록-인과(block-causal) 비디오 생성 모델, 특히 1.3B 모델 이 16 FPS , 14B 모델 이 4.5 FPS 에 불과한 느린 추론 속도로 인해 품질-속도 간의 심각한 절충(trade-off) 문제에 직면합니다.#Review#Video Generation#Diffusion Models#Block-Causal Models#Inference Acceleration#Multi-GPU Parallelism#Training-Free#KV Caching#Interactive AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image GenerationiMontage는 사전 훈련된 비디오 모델을 재활용하여 고도로 동적인 다대다 이미지 생성을 위한 통합 프레임워크를 제시합니다.#Review#Image Generation#Video Models#Diffusion Models#Many-to-many#Unified Framework#Temporal Consistency#Image Editing#Positional Embedding2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion기존 3D 도시 생성 방법론들이 단일 확산 모델에 의존하여 개인화 및 무한 확장성에서 한계를 보이는 문제를 해결합니다.#Review#3D City Generation#Generative AI#Large Language Models#Vision-Language Models#Multi-Agent Framework#Self-Critic Learning#Scene Graph#Text-to-3D2025년 11월 25일댓글 수 로딩 중
[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual Answering본 논문은 시각적 질문에 대한 시각적 답변(VQ-VA) 능력, 즉 이미지를 통해 질문에 응답하는 기능을 오픈 소스 모델에도 도입하는 것을 목표로 합니다.#Review#Visual Question Answering (VQA)#Image Generation#Data-centric AI#Agentic Pipeline#Multimodal Models#Web-scale Data#Benchmark#LightFusion2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Unified all-atom molecule generation with neural fields본 연구는 구조 기반 신약 설계에서 특정 분자 양식에 국한되어 적용 범위가 제한적인 기존 생성 모델의 한계를 해결하는 것을 목표로 합니다.#Review#Molecule Generation#Neural Fields#Score-based Generative Models#Drug Design#Modality-agnostic#Antibody Design#Macrocyclic Peptides#All-atom2025년 11월 25일댓글 수 로딩 중
[논문리뷰] UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers비디오 Diffusion Transformer(DiT) 모델이 학습 길이 이상으로 비디오를 생성할 때 발생하는 주기적 콘텐츠 반복 과 전반적인 품질 저하 라는 두 가지 실패 모드를 해결하는 것을 목표로 합니다.#Review#Video Diffusion Transformers#Length Extrapolation#Attention Mechanism#Attention Dispersion#Periodic Content Repetition#Quality Degradation#Training-free Method#Plug-and-play2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Soft Adaptive Policy Optimization본 논문은 LLM(Large Language Models)의 RL(Reinforcement Learning) 학습 과정에서 발생하는 높은 분산의 토큰 레벨 중요도 비율 문제와, MoE(Mixture-of-Experts) 모델에서 증폭되는 이러한 현상으로 인한 불안정한 정책 업데이트 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Importance Ratios#Soft Clipping#Trust Region#Mixture-of-Experts#Asymmetric Temperature2025년 11월 25일댓글 수 로딩 중
[논문리뷰] SciEducator: Scientific Video Understanding and Educating via Deming-Cycle Multi-Agent System본 논문은 과학 영상 이해 및 교육 분야에서 기존 멀티모달 대규모 언어 모델(MLLMs) 및 영상 에이전트 시스템의 한계를 극복하는 것을 목표로 합니다. 특히, 외부 전문 지식 통합과 엄격한 단계별 추론이 요구되는 과학 도메인에서 모델의 성능과 신뢰성을 향상시키고자 합니다.#Review#Multi-Agent System#Video Understanding#Scientific Education#Deming Cycle#Large Language Models#Iterative Optimization#Knowledge Integration#Educational Content Generation2025년 11월 25일댓글 수 로딩 중