[논문리뷰] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy본 논문은 단일 이미지로부터 4D(동적 3D) 장면 표현을 효율적으로 생성하는 피드포워드 프레임워크 인 4DNeX 를 제안합니다.#Review#4D Generation#Dynamic 3D#Generative Models#Diffusion Models#Single Image Input#Video Synthesis#Point Clouds#Dataset2025년 8월 19일댓글 수 로딩 중
[논문리뷰] X-Node: Self-Explanation is All We Need그래프 신경망(GNN)의 불투명한 의사결정 문제를 해결하고, 특히 신뢰성이 필수적인 고위험 임상 환경에서 개별 노드 수준의 충실한 자체 설명(self-explanation) 을 제공하는 것을 목표로 합니다.#Review#Graph Neural Networks#Explainable AI#Self-Explanation#Node Classification#Medical Imaging#Natural Language Processing#Interpretability2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Thyme: Think Beyond Images본 논문은 기존의 '이미지로 생각하기' 방식의 멀티모달 대규모 언어 모델(MLLM) 이 가진 이미지 조작 기능의 제한성과 논리적 추론 능력의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal LLMs#Code Generation#Image Processing#Reinforcement Learning#Supervised Fine-Tuning#Visual Reasoning#Sandbox2025년 8월 18일댓글 수 로딩 중
[논문리뷰] TexVerse: A Universe of 3D Objects with High-Resolution Textures본 연구의 핵심 목표는 고해상도 텍스처와 PBR(Physically Based Rendering) 재료를 특징으로 하는 대규모 3D 객체 데이터셋의 부족 문제를 해결하는 것입니다.#Review#3D Dataset#High-Resolution Textures#Physically Based Rendering (PBR)#3D Animation#Data Curation#GPT-5 Annotations#Sketchfab2025년 8월 18일댓글 수 로딩 중
[논문리뷰] StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation본 논문은 기존 3D Morphable Model (3DMM)의 한계, 즉 일관된 메쉬 구조, 분리된 제어, 그리고 사실적 범위를 넘어서는 스타일화라는 세 가지 핵심 요구사항을 동시에 충족하지 못하는 문제를 해결하고자 합니다.#Review#3D Morphable Model#Face Stylization#Text-to-Image Translation#Diffusion Model#Attribute Preservation#Generative AI#Computer Graphics2025년 8월 18일댓글 수 로딩 중
[논문리뷰] SSRL: Self-Search Reinforcement Learning본 논문은 대규모 언어 모델(LLMs)이 강화 학습(RL)에서 에이전트 검색 태스크를 위한 효율적인 시뮬레이터 역할을 할 수 있는지 탐구합니다.#Review#Reinforcement Learning#Large Language Models#Self-Search#Sim-to-Real Transfer#Agentic AI#Knowledge Retrieval#Reward Modeling2025년 8월 18일댓글 수 로딩 중
[논문리뷰] SPARSE Data, Rich Results: Few-Shot Semi-Supervised Learning via Class-Conditioned Image Translation의료 영상 분야에서 레이블링된 학습 데이터의 부족 으로 인한 딥러닝 모델의 한계를 극복하고, 특히 5개에서 50개 사이의 매우 적은 레이블링된 샘플 만 사용 가능한 저데이터(low-data) 환경 에서 강건한 이미지 분류 성능을 달성하는 것을 목표로 합니다.#Review#Semi-supervised Learning#Few-shot Learning#Medical Imaging#GAN-based Methods#Image-to-image Translation#Pseudo-labeling#Ensemble Learning2025년 8월 18일댓글 수 로딩 중
[논문리뷰] PaperRegister: Boosting Flexible-grained Paper Search via Hierarchical Register Indexing이 논문은 기존 논문 검색 시스템이 추상 기반 인덱싱에 의존하여 세분화된 쿼리(flexible-grained queries) 를 효과적으로 처리하지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#논문 검색#계층적 인덱싱#유연한 검색#대규모 언어 모델#정보 추출#뷰 인식#강화 학습2025년 8월 18일댓글 수 로딩 중
[논문리뷰] MAESTRO: Masked AutoEncoders for Multimodal, Multitemporal, and Multispectral Earth Observation Data본 논문은 지구 관측(EO) 데이터 의 고유한 다중 모달, 다중 시간, 다중 스펙트럼 특성을 효율적으로 처리하기 위해 Masked Autoencoder (MAE) 프레임워크를 최적화하는 것을 목표로 합니다. 이를 통해 EO 데이터 의 복잡한 이질성을 효과적으로 통합하고 유용하며 다목적의 표현을 학습하고자 합니다.#Review#Self-supervised Learning#Masked Autoencoder#Earth Observation#Multimodal#Multitemporal#Multispectral#Fusion Strategies#Target Normalization2025년 8월 18일댓글 수 로딩 중
[논문리뷰] FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation오디오 기반 인물 애니메이션에서 모션 자연스러움, 립싱크 정확도, 시각적 품질 과 같은 다양한 인간 선호도를 동시에 만족시키지 못하는 문제를 해결하는 것이 목표입니다. 기존 방식의 상충하는 선호도 목표와 대규모 다차원 선호도 데이터셋의 부족을 극복하고, 생성 모델이 미세한 인간 선호도에 더 잘 정렬되도록 합니다.#Review#Audio-Driven Animation#Preference Optimization#Diffusion Models#Reward Modeling#Human Feedback#Multi-Objective Optimization#Timestep-Layer Adaptive2025년 8월 18일댓글 수 로딩 중
[논문리뷰] DINOv3본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.#Review#Self-supervised Learning#Foundation Models#Vision Transformer#Dense Feature Maps#Gram Anchoring#Model Distillation#Geospatial AI2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Controlling Multimodal LLMs via Reward-guided Decoding본 논문은 MLLM(Multimodal Large Language Models)이 다양한 사용자 요구에 맞춰 동작을 조절할 수 있도록, 추론 과정에서 세밀한 제어 를 가능하게 하는 것을 목표로 합니다.#Review#Multimodal LLMs#Reward Models#Guided Decoding#Visual Grounding#Hallucination Mitigation#Object Precision#Object Recall#Inference-time Control2025년 8월 18일댓글 수 로딩 중
[논문리뷰] We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning복잡한 시각 수학적 추론에서 Multimodal Large Language Models (MLLMs) 의 한계를 극복하는 것을 목표로 합니다.#Review#Visual Mathematical Reasoning#MLLMs#Knowledge System#Reinforcement Learning#Curriculum Learning#Dataset Construction#Mathematical Benchmark2025년 8월 15일댓글 수 로딩 중
[논문리뷰] UI-Venus Technical Report: Building High-performance UI Agents with RFT본 논문은 스크린샷만을 입력으로 받는 고성능 UI 에이전트인 UI-Venus 를 구축하는 것을 목표로 합니다. 기존 지도 미세 조정(SFT) 방식의 한계인 일반화 능력 부족과 높은 데이터 수집 비용을 극복하고, 복잡한 UI 환경에서의 탐색 및 추론 능력을 향상시키는 데 중점을 둡니다.#Review#UI Agent#MLLM#RFT#UI Grounding#UI Navigation#GRPO#Data Cleaning#Self-Evolving Trajectory2025년 8월 15일댓글 수 로딩 중
[논문리뷰] ToonComposer: Streamlining Cartoon Production with Generative Post-Keyframing이 논문은 전통적인 카툰 제작 파이프라인의 핵심적인 병목 현상인 인비트위닝(inbetweening) 과 컬러라이제이션(colorization) 단계의 수동적인 노력과 오류 누적 문제를 해결하는 것을 목표로 합니다.#Review#Cartoon Generation#Video Diffusion Models#DiT#Post-Keyframing#Low-Rank Adaptation#Sparse Control#Generative AI#Animation2025년 8월 15일댓글 수 로딩 중
[논문리뷰] STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer논문은 기존 다중 뷰 3D 재구성 방법론들이 높은 연산 비용을 요구하거나 시퀀스 길이에 따라 확장성이 떨어지는 문제를 해결하고자 합니다.#Review#3D Reconstruction#Causal Transformer#Sequential Modeling#Streaming Data#Pointmap Prediction#Online Perception#KVCache2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?본 연구는 파운데이션 시각 인코더(Foundation Visual Encoders)가 이미지 처리(예: JPEG 압축) 및 획득(예: 카메라 모델)과 관련된 메타데이터 정보를 어떻게 인코딩 하며, 이러한 정보가 의미론적 예측에 어떤 영향 을 미치는지 탐구하는 것을 목표로 합니다.#Review#Visual Encoders#Metadata#Image Processing#Image Acquisition#Robustness#CLIP#Foundation Models#Distribution Shift2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Reward Design#Reasoning Tasks#Pass@k#Policy Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts이 논문은 기존 장문 컨텍스트 이해 벤치마크의 한계(기억력 의존, 얕은 추론, 전역적 의존성 부족 등)를 해결하고, 대규모 언어 모델(LLMs)의 전역적 이해(global comprehension) 및 심층 추론(deep reasoning) 능력을 엄격하게 평가하기 위한 새로운 벤치마크인 PRELUDE 를 제안합니다.#Review#Long-Context Understanding#Reasoning Benchmark#LLMs Evaluation#Natural Language Processing#Global Comprehension#Fluid Intelligence#Prequel Entailment#RAG2025년 8월 15일댓글 수 로딩 중
[논문리뷰] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale이 논문은 텍스트-이미지 생성 분야에서 기존 autoregressive (AR) 모델이 직면한 양자화 손실 및 무거운 확산 모델 의존성 의 한계를 극복하고자 합니다.#Review#Autoregressive Models#Text-to-Image Generation#Continuous Latent Tokens#Flow Matching#Image Editing#Multimodal Learning#Transformer Architecture2025년 8월 15일댓글 수 로딩 중