최신 포스트

[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge

2025 BEHAVIOR Challenge에서 물리적 에이전트 가 시뮬레이션 환경에서 장기적인 작업을 성공적으로 수행하는 문제에 집중하며, 기존 Vision-Language-Action (VLA) 모델 의 한계를 극복하는 것을 목표로 합니다.

#Review #Embodied AI #Long-horizon Tasks #Vision-Language-Action Models (VLA)#BEHAVIOR Challenge #Offline RL #Pre-training #Rejection Sampling Fine-Tuning (RFT)#Robotics

2025년 12월 15일

[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

이 논문은 기존 코딩 에이전트 벤치마크들이 완전한 소프트웨어 시스템을 구축하는 데 필요한 장기적인 추론 능력 을 엄격하게 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Coding Agents #LLMs #Software Engineering #Repository Generation #Long-Horizon Reasoning #Benchmark #Python Development #Autonomous Systems

2025년 12월 15일

[논문리뷰] Memory in the Age of AI Agents

이 서베이 논문은 급증하는 AI 에이전트 메모리 연구 분야의 파편화된 개념적 명확성 부족을 해결하고, 기존 분류 체계의 한계 를 극복하고자 합니다.

#Review #AI Agents #Memory Systems #LLMs #Taxonomy #Continual Learning #Self-Evolution #Multimodality #Reinforcement Learning

2025년 12월 15일

[논문리뷰] KlingAvatar 2.0 Technical Report

본 연구는 장시간 고해상도 아바타 비디오 생성 시 발생하는 효율성 부족, 시간적 드리프트, 품질 저하, 프롬프트 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Avatar Generation #Video Diffusion #Multi-modal LLM #Long-duration Video #High-resolution Video #Lip Synchronization #Multi-character Control #Spatio-temporal Cascade

2025년 12월 15일

[논문리뷰] Image Diffusion Preview with Consistency Solver

본 논문은 이미지 Diffusion 모델의 느린 추론 속도로 인해 저하되는 사용자 경험 문제를 해결하고자 합니다.

#Review #Diffusion Models #Efficient Sampling #Reinforcement Learning #ODE Solvers #Image Generation #Consistency #Diffusion Preview

2025년 12월 15일

[Ray] iter_batches 속도 향상: block ref 해석을 배치 ray.get()으로 전환

Ray Data의 resolve_block_refs에서 block ref당 개별 ray.get() 호출을 배치 처리로 전환하여 iter_batches 성능을 개선한 PR 분석.

#Ray #Ray Data #Batching #ray.get #iter_batches #Performance

2025년 12월 15일

[논문리뷰] V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

논문은 기존 비디오 생성 모델에서 물리적으로 사실적인 비디오 편집을 위한 내재적 속성(intrinsic properties) 에 대한 정확하고 일관된 제어의 부재 문제를 해결하고자 합니다.

#Review #Video Editing #Intrinsic Decomposition #Video Generation #Diffusion Models #Keyframe Editing #Inverse Rendering #Temporal Consistency #Physically Based Rendering

2025년 12월 14일

[논문리뷰] Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

본 논문은 2025 BEHAVIOR Challenge에서 1위를 차지한 비전-액션 정책을 제시하며, 50가지의 다양하고 장기적인 가정용 작업을 포토리얼리스틱 시뮬레이션 에서 수행하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA) models #Flow Matching #Embodied AI #Robot Manipulation #BEHAVIOR Challenge #Correlated Noise #Stage Tracking #Multi-Task Learning

2025년 12월 14일

[논문리뷰] Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

본 논문은 비디오 생성 모델, 특히 diffusion 모델 이 관절형 및 변형 가능한 객체에 대해 물리적으로 그럴듯하고 구조를 보존하는 움직임을 생성하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Video Generation #Motion Tracking #Diffusion Models #Structure Preservation #SAM2 #Feature Distillation #Local Gram Flow

2025년 12월 14일

[논문리뷰] Sliding Window Attention Adaptation

본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.

#Review #Large Language Models #Sliding Window Attention #Model Adaptation #Long Context #Inference Optimization #Fine-tuning #Chain-of-Thought #Sparse Attention

2025년 12월 14일

[논문리뷰] Sharp Monocular View Synthesis in Less Than a Second

이 논문은 단일 이미지로부터 실시간 포토리얼리스틱 뷰 합성(photorealistic view synthesis) 을 목표로 하며, 특히 AR/VR 애플리케이션 을 위한 고해상도 3D 장면 표현 을 1초 미만에 생성하는 것을 목표로 합니다.

#Review #View Synthesis #3D Gaussian Splatting #Single Image #Neural Rendering #Real-time #Feedforward Network #Monocular Depth Estimation #AR/VR

2025년 12월 14일

[논문리뷰] Scaling Behavior of Discrete Diffusion Language Models

본 논문은 Discrete Diffusion Language Models (DLMs) 의 스케일링 행동을 체계적으로 연구하여, 기존 Autoregressive Language Models (ALMs) 와의 경쟁력을 평가하고 DLMs의 핵심 한계점(예: 병렬 생성 및 수정 능력 부족)을 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion Models #Scaling Laws #Language Models #Masked Diffusion #Uniform Diffusion #Hyperparameter Tuning #Compute-Optimal Training

2025년 12월 14일

[논문리뷰] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder

본 논문은 대규모 텍스트-이미지 생성 확산 모델을 Visual Foundation Model (VFM) 표현 공간 내에서 완전히 훈련하는 것이 기존 VAE 기반 모델에 필적하는 성능을 낼 수 있는지 탐구합니다.

#Review #Text-to-Image Generation #Latent Diffusion Model #Visual Foundation Model #DINOv3 #Flow Matching #High-Resolution Synthesis #VAE-free Generation

2025년 12월 14일

[논문리뷰] PersonaLive! Expressive Portrait Image Animation for Live Streaming

기존 확산 모델 기반 초상화 애니메이션이 시각적 품질과 표현 사실성에 중점을 두어 높은 계산 비용 과 지연 시간 으로 인해 라이브 스트리밍에 부적합하다는 문제를 해결하고자 합니다.

#Review #Live Streaming #Portrait Animation #Diffusion Models #Real-time AI #Appearance Distillation #Micro-chunk Streaming #Motion Control #Low Latency

2025년 12월 14일

[논문리뷰] MeshSplatting: Differentiable Rendering with Opaque Meshes

본 논문은 3D Gaussian Splatting과 같은 기존의 지점 기반(point-based) 뉴럴 렌더링 방식이 AR/VR 및 게임 엔진에서 요구하는 메시 기반 파이프라인과 호환되지 않는 문제를 해결하고자 합니다.

#Review #Differentiable Rendering #Novel View Synthesis #Mesh Reconstruction #3D Gaussian Splatting #Opaque Meshes #Real-time Rendering #Game Engines

2025년 12월 14일

[논문리뷰] LEO-RobotAgent: A General-purpose Robotic Agent for Language-driven Embodied Operator

본 논문은 다양한 유형의 로봇이 예측 불가능한 복잡한 작업을 수행할 수 있도록 하는 일반 목적의 언어 기반 지능형 로봇 에이전트 프레임워크인 LEO-RobotAgent를 제안합니다.

#Review #Robotic Agent #Large Language Models (LLMs)#Embodied AI #Task Planning #Human-Robot Interaction #General-purpose Robotics #ROS

2025년 12월 14일

[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvas

MLLM이 복잡한 시각 정보를 이해하는 데는 뛰어나지만, 이미지 및 비디오 생성 시에는 그 추론 및 계획 능력이 충분히 활용되지 못해 정밀하고 구조화된 제어에 어려움을 겪는 간극을 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Diffusion Models #Image Generation #Video Generation #Image Editing #Video Editing #Latent Space Planning #Canvas Tokens #Information Transfer

2025년 12월 14일

[논문리뷰] EgoX: Egocentric Video Generation from a Single Exocentric Video

본 연구는 단일 외부 시점(exocentric) 비디오 입력으로부터 사실적이고 일관성 있는 내부 시점(egocentric) 비디오를 생성하는 것을 목표로 합니다.

#Review #Egocentric Video Generation #Exocentric-to-Egocentric #Video Diffusion Models #3D Scene Reconstruction #Geometry-Guided Attention #View Synthesis #Camera Pose Estimation #LoRA Adaptation

2025년 12월 14일

[논문리뷰] DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry

본 논문은 기존 MLLM이 치과 영상 데이터의 미세한 시각적 특징을 포착하고 정밀한 진단을 위한 충분한 추론 능력을 갖추지 못하는 한계를 해결하고자 합니다. 이를 위해 치과 분야에 특화된 DentalGPT 를 개발하여 자동화된 구강 건강 관리에서 멀티모달 복합 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Large Language Model #Dental Imaging #Complex Reasoning #Domain Adaptation #Reinforcement Learning #Medical VQA #Dental Healthcare

2025년 12월 14일

[논문리뷰] CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

본 논문은 의료 영상 분할 시스템의 안전한 임상 배포를 위해 랜드마크 기반 해부학적 분할 에서 불확실성 추정을 연구합니다. 기존 픽셀 기반 불확실성 연구와 달리, 내재적 토폴로지 보장을 제공하는 랜드마크 기반 모델에 대한 불확실성 추정의 간극을 해결하고, 신뢰할 수 없는 예측을 식별하는 것을 목표로 합니다.

#Review #Uncertainty Quantification #Landmark Segmentation #Chest X-ray #VAE #Graph Neural Networks #Out-of-Distribution Detection #Medical Imaging

2025년 12월 14일