Review

[논문리뷰] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy

본 논문은 단일 이미지로부터 4D(동적 3D) 장면 표현을 효율적으로 생성하는 피드포워드 프레임워크 인 4DNeX 를 제안합니다.

#Review #4D Generation #Dynamic 3D #Generative Models #Diffusion Models #Single Image Input #Video Synthesis #Point Clouds #Dataset

2025년 8월 19일

[논문리뷰] X-Node: Self-Explanation is All We Need

그래프 신경망(GNN)의 불투명한 의사결정 문제를 해결하고, 특히 신뢰성이 필수적인 고위험 임상 환경에서 개별 노드 수준의 충실한 자체 설명(self-explanation) 을 제공하는 것을 목표로 합니다.

#Review #Graph Neural Networks #Explainable AI #Self-Explanation #Node Classification #Medical Imaging #Natural Language Processing #Interpretability

2025년 8월 18일

[논문리뷰] Thyme: Think Beyond Images

본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Code Generation #Image Processing #Reinforcement Learning #Supervised Fine-Tuning #Visual Reasoning #Sandbox

2025년 8월 18일

[논문리뷰] TexVerse: A Universe of 3D Objects with High-Resolution Textures

본 연구의 핵심 목표는 고해상도 텍스처와 PBR(Physically Based Rendering) 재료를 특징으로 하는 대규모 3D 객체 데이터셋의 부족 문제를 해결하는 것입니다.

#Review #3D Dataset #High-Resolution Textures #Physically Based Rendering (PBR)#3D Animation #Data Curation #GPT-5 Annotations #Sketchfab

2025년 8월 18일

[논문리뷰] StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation

본 논문은 기존 3D Morphable Model (3DMM)의 한계, 즉 일관된 메쉬 구조, 분리된 제어, 그리고 사실적 범위를 넘어서는 스타일화라는 세 가지 핵심 요구사항을 동시에 충족하지 못하는 문제를 해결하고자 합니다.

#Review #3D Morphable Model #Face Stylization #Text-to-Image Translation #Diffusion Model #Attribute Preservation #Generative AI #Computer Graphics

2025년 8월 18일

[논문리뷰] SSRL: Self-Search Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)이 강화 학습(RL)에서 에이전트 검색 태스크를 위한 효율적인 시뮬레이터 역할을 할 수 있는지 탐구합니다.

#Review #Reinforcement Learning #Large Language Models #Self-Search #Sim-to-Real Transfer #Agentic AI #Knowledge Retrieval #Reward Modeling

2025년 8월 18일

[논문리뷰] SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation

의료 영상 분야에서 레이블링된 학습 데이터의 부족 으로 인한 딥러닝 모델의 한계를 극복하고, 특히 5개에서 50개 사이의 매우 적은 레이블링된 샘플 만 사용 가능한 저데이터(low-data) 환경 에서 강건한 이미지 분류 성능을 달성하는 것을 목표로 합니다.

#Review #Semi-supervised Learning #Few-shot Learning #Medical Imaging #GAN-based Methods #Image-to-image Translation #Pseudo-labeling #Ensemble Learning

2025년 8월 18일

[논문리뷰] PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing

이 논문은 기존 논문 검색 시스템이 추상 기반 인덱싱에 의존하여 세분화된 쿼리(flexible-grained queries) 를 효과적으로 처리하지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #논문 검색 #계층적 인덱싱 #유연한 검색 #대규모 언어 모델 #정보 추출 #뷰 인식 #강화 학습

2025년 8월 18일

[논문리뷰] MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data

본 논문은 지구 관측(EO) 데이터 의 고유한 다중 모달, 다중 시간, 다중 스펙트럼 특성을 효율적으로 처리하기 위해 Masked Autoencoder (MAE) 프레임워크를 최적화하는 것을 목표로 합니다. 이를 통해 EO 데이터 의 복잡한 이질성을 효과적으로 통합하고 유용하며 다목적의 표현을 학습하고자 합니다.

#Review #Self-supervised Learning #Masked Autoencoder #Earth Observation #Multimodal #Multitemporal #Multispectral #Fusion Strategies #Target Normalization

2025년 8월 18일

[논문리뷰] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation

오디오 기반 인물 애니메이션에서 모션 자연스러움, 립싱크 정확도, 시각적 품질 과 같은 다양한 인간 선호도를 동시에 만족시키지 못하는 문제를 해결하는 것이 목표입니다. 기존 방식의 상충하는 선호도 목표와 대규모 다차원 선호도 데이터셋의 부족을 극복하고, 생성 모델이 미세한 인간 선호도에 더 잘 정렬되도록 합니다.

#Review #Audio-Driven Animation #Preference Optimization #Diffusion Models #Reward Modeling #Human Feedback #Multi-Objective Optimization #Timestep-Layer Adaptive

2025년 8월 18일

[논문리뷰] DINOv3

본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.

#Review #Self-supervised Learning #Foundation Models #Vision Transformer #Dense Feature Maps #Gram Anchoring #Model Distillation #Geospatial AI

2025년 8월 18일

[논문리뷰] Controlling Multimodal LLMs via Reward-guided Decoding

본 논문은 MLLM(Multimodal Large Language Models)이 다양한 사용자 요구에 맞춰 동작을 조절할 수 있도록, 추론 과정에서 세밀한 제어 를 가능하게 하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reward Models #Guided Decoding #Visual Grounding #Hallucination Mitigation #Object Precision #Object Recall #Inference-time Control

2025년 8월 18일

[논문리뷰] We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

복잡한 시각 수학적 추론에서 Multimodal Large Language Models (MLLMs) 의 한계를 극복하는 것을 목표로 합니다.

#Review #Visual Mathematical Reasoning #MLLMs #Knowledge System #Reinforcement Learning #Curriculum Learning #Dataset Construction #Mathematical Benchmark

2025년 8월 15일

[논문리뷰] UI-Venus Technical Report: Building High-performance UI Agents with RFT

본 논문은 스크린샷만을 입력으로 받는 고성능 UI 에이전트인 UI-Venus 를 구축하는 것을 목표로 합니다. 기존 지도 미세 조정(SFT) 방식의 한계인 일반화 능력 부족과 높은 데이터 수집 비용을 극복하고, 복잡한 UI 환경에서의 탐색 및 추론 능력을 향상시키는 데 중점을 둡니다.

#Review #UI Agent #MLLM #RFT #UI Grounding #UI Navigation #GRPO #Data Cleaning #Self-Evolving Trajectory

2025년 8월 15일

[논문리뷰] ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing

이 논문은 전통적인 카툰 제작 파이프라인의 핵심적인 병목 현상인 인비트위닝(inbetweening) 과 컬러라이제이션(colorization) 단계의 수동적인 노력과 오류 누적 문제를 해결하는 것을 목표로 합니다.

#Review #Cartoon Generation #Video Diffusion Models #DiT #Post-Keyframing #Low-Rank Adaptation #Sparse Control #Generative AI #Animation

2025년 8월 15일

[논문리뷰] STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer

논문은 기존 다중 뷰 3D 재구성 방법론들이 높은 연산 비용을 요구하거나 시퀀스 길이에 따라 확장성이 떨어지는 문제를 해결하고자 합니다.

#Review #3D Reconstruction #Causal Transformer #Sequential Modeling #Streaming Data #Pointmap Prediction #Online Perception #KVCache

2025년 8월 15일

[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

본 연구는 파운데이션 시각 인코더(Foundation Visual Encoders)가 이미지 처리(예: JPEG 압축) 및 획득(예: 카메라 모델)과 관련된 메타데이터 정보를 어떻게 인코딩 하며, 이러한 정보가 의미론적 예측에 어떤 영향 을 미치는지 탐구하는 것을 목표로 합니다.

#Review #Visual Encoders #Metadata #Image Processing #Image Acquisition #Robustness #CLIP #Foundation Models #Distribution Shift

2025년 8월 15일

[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Reward Design #Reasoning Tasks #Pass@k #Policy Optimization

2025년 8월 15일

[논문리뷰] PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

이 논문은 기존 장문 컨텍스트 이해 벤치마크의 한계(기억력 의존, 얕은 추론, 전역적 의존성 부족 등)를 해결하고, 대규모 언어 모델(LLMs)의 전역적 이해(global comprehension) 및 심층 추론(deep reasoning) 능력을 엄격하게 평가하기 위한 새로운 벤치마크인 PRELUDE 를 제안합니다.

#Review #Long-Context Understanding #Reasoning Benchmark #LLMs Evaluation #Natural Language Processing #Global Comprehension #Fluid Intelligence #Prequel Entailment #RAG

2025년 8월 15일

[논문리뷰] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

이 논문은 텍스트-이미지 생성 분야에서 기존 autoregressive (AR) 모델이 직면한 양자화 손실 및 무거운 확산 모델 의존성 의 한계를 극복하고자 합니다.

#Review #Autoregressive Models #Text-to-Image Generation #Continuous Latent Tokens #Flow Matching #Image Editing #Multimodal Learning #Transformer Architecture

2025년 8월 15일