[논문리뷰] Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge본 논문은 2025 BEHAVIOR Challenge에서 1위를 차지한 비전-액션 정책을 제시하며, 50가지의 다양하고 장기적인 가정용 작업을 포토리얼리스틱 시뮬레이션 에서 수행하는 것을 목표로 합니다.#Review#Vision-Language-Action (VLA) models#Flow Matching#Embodied AI#Robot Manipulation#BEHAVIOR Challenge#Correlated Noise#Stage Tracking#Multi-Task Learning2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation본 논문은 비디오 생성 모델, 특히 diffusion 모델 이 관절형 및 변형 가능한 객체에 대해 물리적으로 그럴듯하고 구조를 보존하는 움직임을 생성하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#Video Generation#Motion Tracking#Diffusion Models#Structure Preservation#SAM2#Feature Distillation#Local Gram Flow2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Sliding Window Attention Adaptation본 논문은 Transformer 기반 LLM의 Self-Attention 메커니즘 이 입력 길이의 제곱에 비례하여 발생하는 높은 연산 비용 문제를 해결하고자 합니다.#Review#Large Language Models#Sliding Window Attention#Model Adaptation#Long Context#Inference Optimization#Fine-tuning#Chain-of-Thought#Sparse Attention2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Sharp Monocular View Synthesis in Less Than a Second이 논문은 단일 이미지로부터 실시간 포토리얼리스틱 뷰 합성(photorealistic view synthesis) 을 목표로 하며, 특히 AR/VR 애플리케이션 을 위한 고해상도 3D 장면 표현 을 1초 미만에 생성하는 것을 목표로 합니다.#Review#View Synthesis#3D Gaussian Splatting#Single Image#Neural Rendering#Real-time#Feedforward Network#Monocular Depth Estimation#AR/VR2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Scaling Behavior of Discrete Diffusion Language Models본 논문은 Discrete Diffusion Language Models (DLMs) 의 스케일링 행동을 체계적으로 연구하여, 기존 Autoregressive Language Models (ALMs) 와의 경쟁력을 평가하고 DLMs의 핵심 한계점(예: 병렬 생성 및 수정 능력 부족)을 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion Models#Scaling Laws#Language Models#Masked Diffusion#Uniform Diffusion#Hyperparameter Tuning#Compute-Optimal Training2025년 12월 14일댓글 수 로딩 중
[논문리뷰] SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder본 논문은 대규모 텍스트-이미지 생성 확산 모델을 Visual Foundation Model (VFM) 표현 공간 내에서 완전히 훈련하는 것이 기존 VAE 기반 모델에 필적하는 성능을 낼 수 있는지 탐구합니다.#Review#Text-to-Image Generation#Latent Diffusion Model#Visual Foundation Model#DINOv3#Flow Matching#High-Resolution Synthesis#VAE-free Generation2025년 12월 14일댓글 수 로딩 중
[논문리뷰] PersonaLive! Expressive Portrait Image Animation for Live Streaming기존 확산 모델 기반 초상화 애니메이션이 시각적 품질과 표현 사실성에 중점을 두어 높은 계산 비용 과 지연 시간 으로 인해 라이브 스트리밍에 부적합하다는 문제를 해결하고자 합니다.#Review#Live Streaming#Portrait Animation#Diffusion Models#Real-time AI#Appearance Distillation#Micro-chunk Streaming#Motion Control#Low Latency2025년 12월 14일댓글 수 로딩 중
[논문리뷰] MeshSplatting: Differentiable Rendering with Opaque Meshes본 논문은 3D Gaussian Splatting과 같은 기존의 지점 기반(point-based) 뉴럴 렌더링 방식이 AR/VR 및 게임 엔진에서 요구하는 메시 기반 파이프라인과 호환되지 않는 문제를 해결하고자 합니다.#Review#Differentiable Rendering#Novel View Synthesis#Mesh Reconstruction#3D Gaussian Splatting#Opaque Meshes#Real-time Rendering#Game Engines2025년 12월 14일댓글 수 로딩 중
[논문리뷰] LEO-RobotAgent: A General-purpose Robotic Agent for Language-driven Embodied Operator본 논문은 다양한 유형의 로봇이 예측 불가능한 복잡한 작업을 수행할 수 있도록 하는 일반 목적의 언어 기반 지능형 로봇 에이전트 프레임워크인 LEO-RobotAgent를 제안합니다.#Review#Robotic Agent#Large Language Models (LLMs)#Embodied AI#Task Planning#Human-Robot Interaction#General-purpose Robotics#ROS2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Exploring MLLM-Diffusion Information Transfer with MetaCanvasMLLM이 복잡한 시각 정보를 이해하는 데는 뛰어나지만, 이미지 및 비디오 생성 시에는 그 추론 및 계획 능력이 충분히 활용되지 못해 정밀하고 구조화된 제어에 어려움을 겪는 간극을 해결하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Diffusion Models#Image Generation#Video Generation#Image Editing#Video Editing#Latent Space Planning#Canvas Tokens#Information Transfer2025년 12월 14일댓글 수 로딩 중
[논문리뷰] EgoX: Egocentric Video Generation from a Single Exocentric Video본 연구는 단일 외부 시점(exocentric) 비디오 입력으로부터 사실적이고 일관성 있는 내부 시점(egocentric) 비디오를 생성하는 것을 목표로 합니다.#Review#Egocentric Video Generation#Exocentric-to-Egocentric#Video Diffusion Models#3D Scene Reconstruction#Geometry-Guided Attention#View Synthesis#Camera Pose Estimation#LoRA Adaptation2025년 12월 14일댓글 수 로딩 중
[논문리뷰] DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry본 논문은 기존 MLLM이 치과 영상 데이터의 미세한 시각적 특징을 포착하고 정밀한 진단을 위한 충분한 추론 능력을 갖추지 못하는 한계를 해결하고자 합니다. 이를 위해 치과 분야에 특화된 DentalGPT 를 개발하여 자동화된 구강 건강 관리에서 멀티모달 복합 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Multimodal Large Language Model#Dental Imaging#Complex Reasoning#Domain Adaptation#Reinforcement Learning#Medical VQA#Dental Healthcare2025년 12월 14일댓글 수 로딩 중
[논문리뷰] CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images본 논문은 의료 영상 분할 시스템의 안전한 임상 배포를 위해 랜드마크 기반 해부학적 분할 에서 불확실성 추정을 연구합니다. 기존 픽셀 기반 불확실성 연구와 달리, 내재적 토폴로지 보장을 제공하는 랜드마크 기반 모델에 대한 불확실성 추정의 간극을 해결하고, 신뢰할 수 없는 예측을 식별하는 것을 목표로 합니다.#Review#Uncertainty Quantification#Landmark Segmentation#Chest X-ray#VAE#Graph Neural Networks#Out-of-Distribution Detection#Medical Imaging2025년 12월 14일댓글 수 로딩 중
[Triton] Gluon Dialect verifier 강화 및 에러 메시지 개선NVMMASharedEncoding 검증, TMA 함수 verifier 추가, DotOpMMASmemLoader를 fallible하게 변경하여 illegal instruction 방지#Triton#Gluon#MLIR#Verifier#Error Handling2025년 12월 14일댓글 수 로딩 중
[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.#Triton#AMD#Warp Pipeline#Gluon#LLVM#GPU Optimization2025년 12월 11일댓글 수 로딩 중
[논문리뷰] VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction멀티모달 이해, 생성 및 재구성 표현을 단일 토크나이저 내에서 통합하는 핵심 과제를 해결하고자 합니다. 기존의 듀얼 인코더 방식의 복잡성과 이산형 토크나이저의 의미 이해 능력 저하 문제를 극복하고, 연속형 의미 특징 과 이산형 미세 토큰 을 동시에 생성할 수 있는 통합 토크나이저를 제안하는 것이 목표입니다.#Review#Multimodal Learning#Vector Quantization#Autoencoder#Unified Tokenizer#Image Generation#Image Reconstruction#Vision Transformers#Semantic Features2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task본 논문은 기존 MLLM(Multimodal Large Language Models) 이 복잡한 VideoQA(Video Question Answering) 태스크에서 시공간적 관계 모델링 및 시간적 진화의 인과적 역학을 이해하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#VideoQA#MLLMs#Tool Learning#Spatiotemporal Reasoning#Video Toolkit#Agentic AI2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Thinking with Images via Self-Calling Agent본 논문은 희소한 고품질 추론 데이터로 인해 강화 학습을 통한 MLLM의 Interleaved Multimodal Chain-of-Thought (iMCoT) 최적화가 어렵다는 문제점을 해결하고자 합니다.#Review#Multimodal LLMs#Self-Calling Chain-of-Thought#Reinforcement Learning#Visual Reasoning#Agentic AI#Tool Calling#Group Relative Policy Optimization2025년 12월 11일댓글 수 로딩 중
[논문리뷰] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality이 논문은 대규모 언어 모델(LLM)이 다양한 시나리오에서 사실적으로 정확한 텍스트를 생성하는 능력을 포괄적으로 평가하기 위한 새로운 온라인 리더보드 스위트인 The FACTS Leaderboard 를 소개합니다.#Review#LLM Evaluation#Factuality Benchmark#Multimodal AI#Knowledge Grounding#Parametric Knowledge#Retrieval Augmented Generation#Automated Scoring2025년 12월 11일댓글 수 로딩 중
[논문리뷰] T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground논문은 러시아어 오픈소스 LLM의 한계, 특히 추론 능력과 효율적인 추론을 위한 통합 생태계의 부재를 해결하고자 합니다.#Review#Russian LLM#Hybrid Reasoning#Speculative Decoding#Cyrillic Tokenizer#Instruction Tuning#Reward Modeling#T-Math Benchmark2025년 12월 11일댓글 수 로딩 중