[논문리뷰] Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs본 논문은 MLLM이 시각 및 언어 모달리티에 걸쳐 동일한 의미를 가진 정보에 대해 일관된 추론 능력 을 보이는지 체계적으로 평가하는 것을 목표로 합니다.#Review#Multimodal Large Language Models (MLLMs)#Cross-Modal Consistency#Reasoning Inconsistency#OCR Performance#Modality Gap#Benchmarking#Render Equivalence2025년 12월 9일댓글 수 로딩 중
[논문리뷰] SUCCESS-GS: Survey of Compactness and Compression for Efficient Static and Dynamic Gaussian Splatting본 논문은 3D Gaussian Splatting (3DGS) 의 방대한 메모리 사용량과 높은 연산 오버헤드 문제를 해결하고, 특히 4D 다이내믹 씬 에서의 실용적 배포를 어렵게 하는 한계를 극복하는 것을 목표로 합니다.#Review#3D Gaussian Splatting (3DGS)#Gaussian Compression#Model Efficiency#Novel View Synthesis#Dynamic Scenes#Parameter Compression#Restructuring Compression#Real-time Rendering2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality본 논문은 기존의 얼굴 교체(face swapping) 기술들이 장시간의 복잡한 비디오 시퀀스에서 높은 충실도(high fidelity)와 시간적 일관성(temporal consistency)을 유지하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Face Swapping#Video Editing#Diffusion Models#Reference-guided Generation#Temporal Consistency#Keyframe Conditioning#Cinematic Quality#Dataset Construction2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Predicting Time-Dependent Flow Over Complex Geometries Using Operator Networks본 논문은 복잡한 형상 주변의 시간 의존적 유동장(velocity fields) 을 빠르고 정확하게 예측하는 것을 목표로 합니다.#Review#Neural Operators#Time-Dependent Flow#Complex Geometries#DeepONet#Signed Distance Field#Autoregressive Prediction#Computational Fluid Dynamics#FlowBench2025년 12월 9일댓글 수 로딩 중
[논문리뷰] OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory이 논문은 기존 다중 샷 비디오 생성(MSV) 모델이 복잡한 서사에 필요한 장거리 샷 간 컨텍스트를 효과적으로 모델링하지 못하여 발생하는 시각적 불일치와 일관성 저하 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Shot Video Generation#Adaptive Memory#Long-Range Context#Frame Selection#Diffusion Models#Image-to-Video#Autoregressive Generation#Narrative Coherence2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Modular Neural Image Signal Processing본 논문은 기존의 단일 신경망 ISP(Image Signal Processing)가 가지는 카메라 일반화 능력 부족, 높은 계산 비용, 그리고 낮은 해석 가능성이라는 한계를 극복하고자 합니다.#Review#Neural ISP#Modular Architecture#Raw Image Processing#Photo-Editing#Camera Agnostic#Generalization#Deep Learning#Image Enhancement2025년 12월 9일댓글 수 로딩 중
[논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment본 논문은 다양한 장기 로봇 조작 데이터의 부족과 기존 비디오 생성 모델의 한계를 극복하여, 물리적으로 그럴듯하고 논리적으로 일관된 장기 로봇 조작 비디오 를 합성하는 것을 목표로 합니다. 특히 수동으로 정의된 궤적에 의존하지 않고 자율적인 데이터 합성을 가능하게 하는 데 중점을 둡니다.#Review#Video Generation#Robotic Manipulation#Hierarchical Framework#Reinforcement Learning#Diffusion Models#World Models#Cognitive Science#Physical Alignment2025년 12월 9일댓글 수 로딩 중
[논문리뷰] LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning대규모 추론 모델(LLM)이 불필요하게 긴 사고 과정을 생성하여 컴퓨팅 자원을 낭비하고 때로는 정확도를 저해하는 '과잉 사고(overthinking)' 문제를 해결하고자 합니다.#Review#Early Exit#Confidence Control#Reasoning Models#Conformal Prediction#LLM Optimization#Dynamic Exits#Hidden States#Chain-of-Thought2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation기존 Vision-Language Navigation (VLN) 모델의 단일 파이프라인이 유발하는 단편적인 동작, 높은 지연 시간, 그리고 동적 장애물 회피의 어려움을 해결하는 것이 목표입니다.#Review#Vision-Language Navigation#Dual-System Architecture#Foundation Models#Diffusion Policies#Robotics#Real-time Control#Generalization#Autonomous Navigation2025년 12월 9일댓글 수 로딩 중
[논문리뷰] From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs본 논문은 순차적인 자동회귀(AR) LLM의 추론 병목 현상을 해결하고자 합니다.#Review#Diffusion Language Models#LLM Adaptation#Block-Diffusion#Autoregressive Models#Attention Masks#Parallel Generation#Transfer Learning#Generative Models2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Efficiently Reconstructing Dynamic Scenes One D4RT at a Time논문은 복잡한 동적 장면의 기하학적 구조와 움직임을 비디오로부터 효율적으로 재구성하는 것을 목표로 합니다. 기존의 단편적이고 컴퓨팅 비용이 높은 3D 재구성 접근 방식의 한계를 극복하고, 단일의 통일된 모델로 깊이, 시공간 대응, 전체 카메라 파라미터 추론을 수행하는 4D 이해 프레임워크 를 제시하고자 합니다.#Review#Dynamic Scene Reconstruction#4D Reconstruction#Point Tracking#Transformer Architecture#Feedforward Model#Query-based Inference#Computer Vision#Geometric Consistency2025년 12월 9일댓글 수 로딩 중
[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.#Review#E-commerce#Foundation Agents#LLM Agents#Benchmark#Agent Evaluation#Tool Use#Multi-step Reasoning#Real-world Scenarios2025년 12월 9일댓글 수 로딩 중
[논문리뷰] DeepCode: Open Agentic Coding대규모 언어 모델(LLM) 기반 코드 에이전트들이 정보 과부하 와 컨텍스트 병목 현상 으로 인해 과학 논문과 같은 복잡한 문서로부터 고품질의 코드베이스를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Agentic Coding#LLM#Code Generation#Repository Synthesis#Information Flow Management#Code Memory#CodeRAG#Automated Verification#Scientific Reproduction2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Boosting Unsupervised Video Instance Segmentation with Automatic Quality-Guided Self-Training이 논문은 비디오 인스턴스 분할(VIS)에서 발생하는 합성-실제(synthetic-to-real) 도메인 간극 과 높은 주석 비용 문제를 해결하고자 합니다. 특히, 인간 주석 없이 실제 비디오에 대한 다중 인스턴스 분할 및 추적 성능을 향상시키는 데 중점을 둡니다.#Review#Unsupervised Video Instance Segmentation#Self-Training#Quality Assessment#Pseudo-labeling#Domain Adaptation#VideoMask2Former#YouTubeVIS2025년 12월 9일댓글 수 로딩 중
[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다#Triton#MXFP#Shared Memory#Matrix Multiplication#Performance Tuning2025년 12월 9일댓글 수 로딩 중
[vllm] group_topk 커널 최적화 - 1.9% Throughput, 2.1% TPOT 개선MoE 라우팅의 group_topk CUDA 커널을 템플릿 기반으로 최적화하여 분기 제거와 루프 언롤링 적용#vllm#Performance2025년 12월 9일댓글 수 로딩 중
[Ray] 단일 노드 RDT 마이크로벤치마크 도입NCCL/GLOO 기반 텐서 전송의 처리량과 지연 시간을 정밀 측정하는 벤치마크 추가#Ray#Performance2025년 12월 9일댓글 수 로딩 중
[논문리뷰] Voxify3D: Pixel Art Meets Volumetric Rendering3D 메시에서 고품질 복셀 아트를 자동 생성하는 과정에서 발생하는 기하학적 추상화, 의미 보존, 그리고 이산적인 색상 일관성 간의 상충하는 요구사항을 해결하는 것이 목표입니다. 기존 방법들은 기하학적 구조를 과도하게 단순화하거나 픽셀 단위의 정밀하고 팔레트 제약적인 복셀 아트 미학을 달성하지 못하는 한계가 있습니다.#Review#Voxel Art#Volumetric Rendering#3D Stylization#Neural Radiance Fields#Discrete Optimization#Gumbel-Softmax#CLIP Loss2025년 12월 8일댓글 수 로딩 중
[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot Manipulators본 논문은 로봇 조작 분야에서 기존 VLA 모델의 제한적인 일반화 능력을 극복하고, 새로운 태스크, 객체, 환경에 대한 강건한 적응을 가능하게 하는 것을 목표로 합니다. 특히, 대규모 비디오 생성 모델 을 로봇 조작에 활용하여 일반화 가능한 VLA 매니퓰레이터를 구축할 수 있는지 탐구합니다.#Review#Robot Manipulation#Video Generation Models#Vision-Language-Action (VLA)#Diffusion Transformer#Generalization#Action Prediction#Visual Imagination2025년 12월 8일댓글 수 로딩 중
[논문리뷰] VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning이 논문은 기존 Tool-integrated Visual Reasoning (TiVR) 패러다임이 부정확하거나 오류 있는 도구 출력에 취약하여 환각적인 추론으로 이어지는 문제를 해결하고자 합니다.#Review#Tool-integrated Visual Reasoning#Referring Grounded Reasoning#Agentic Reinforcement Learning#Self-Correction#Large Vision-Language Models#Chain-of-Thought#Tool Refinement2025년 12월 8일댓글 수 로딩 중