최신 포스트

[Ray Data] LLM 배치 추론에서 개별 행 실패 시에도 작업을 계속하는 에러 핸들링 추가

하나의 잘못된 프롬프트로 전체 배치가 중단되던 문제를 should_continue_on_error 옵션으로 해결하여, 실패 행은 에러 컬럼으로 표시하고 나머지는 정상 처리하는 기능 분석.

#Ray #Python #LLM #Batch Inference #Error Handling

2025년 12월 10일

[Triton] preload에 optional device 인자 추가

JIT 함수의 preload 메서드에 device 인자를 추가하여 특정 디바이스에서 커널을 사전 로드할 수 있도록 개선

#Triton #JIT #Frontend #Python

2025년 12월 9일

[논문리뷰] Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

기존 모션 제어 비디오 생성 모델의 낮은 제어 정밀도, 제한된 확장성 및 비실용적인 출력 품질 문제를 해결하고자 합니다.

#Review #Video Generation #Motion Control #Latent Trajectory Guidance #Image-to-Video #Diffusion Models #Neural Networks #MoveBench

2025년 12월 9일

[논문리뷰] Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

본 논문은 기존 3D Gaussian Splatting(3DGS) 뷰어의 한계인 파편화, 무거움, 레거시 파이프라인 제약으로 인한 높은 배포 마찰과 동적 콘텐츠 및 생성 모델 지원 부족 문제를 해결하고자 합니다.

#Review #Neural Rendering #3D Gaussian Splatting #WebGPU #ONNX Inference #World Models #Real-time Rendering #Browser-based #Dynamic Scenes

2025년 12월 9일

[논문리뷰] TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models

본 논문은 시각적 생성 모델의 RL 후학습(post-training) 시 발생하는 막대한 계산 비용 문제를 해결하고, 기존 방법론들의 낮은 샘플 효율성 과 투박한 신용 할당 한계를 극복하여 인간의 선호도에 더 잘 부합하는 모델을 효율적으로 정렬하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Diffusion Models #Generative Models #Tree Search #Sample Efficiency #Credit Assignment #GRPO #Visual Generative Models

2025년 12월 9일

[논문리뷰] TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

기존 단안 3D 트래킹 방법론의 한계인 카메라 움직임과 전경 동적 객체 움직임의 분리 미흡 및 새롭게 출현하는 동적 객체의 밀집 트래킹 불가 문제를 해결하는 것입니다.

#Review #Monocular 3D Tracking #World-centric Coordinates #Dense Tracking #Camera Pose Estimation #Dynamic Object Tracking #Optimization #2D Track Upsampling

2025년 12월 9일

[논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

본 논문은 대규모 언어 모델(LLM)의 순차적 추론 과정에서 발생하는 높은 지연 시간 문제를 해결하고자 합니다.

#Review #LLM #Parallel Reasoning #Inference Latency #Chain-of-Thought #Reinforcement Learning #Adaptive Threading #Mathematical Reasoning #Speedup

2025년 12월 9일

[논문리뷰] Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

본 논문은 MLLM이 시각 및 언어 모달리티에 걸쳐 동일한 의미를 가진 정보에 대해 일관된 추론 능력 을 보이는지 체계적으로 평가하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Cross-Modal Consistency #Reasoning Inconsistency #OCR Performance #Modality Gap #Benchmarking #Render Equivalence

2025년 12월 9일

[논문리뷰] SUCCESS-GS: Survey of Compactness and Compression for Efficient Static and Dynamic Gaussian Splatting

본 논문은 3D Gaussian Splatting (3DGS) 의 방대한 메모리 사용량과 높은 연산 오버헤드 문제를 해결하고, 특히 4D 다이내믹 씬 에서의 실용적 배포를 어렵게 하는 한계를 극복하는 것을 목표로 합니다.

#Review #3D Gaussian Splatting (3DGS)#Gaussian Compression #Model Efficiency #Novel View Synthesis #Dynamic Scenes #Parameter Compression #Restructuring Compression #Real-time Rendering

2025년 12월 9일

[논문리뷰] Preserving Source Video Realism: High-Fidelity Face Swapping for Cinematic Quality

본 논문은 기존의 얼굴 교체(face swapping) 기술들이 장시간의 복잡한 비디오 시퀀스에서 높은 충실도(high fidelity)와 시간적 일관성(temporal consistency)을 유지하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Face Swapping #Video Editing #Diffusion Models #Reference-guided Generation #Temporal Consistency #Keyframe Conditioning #Cinematic Quality #Dataset Construction

2025년 12월 9일

[논문리뷰] Predicting Time-Dependent Flow Over Complex Geometries Using Operator Networks

본 논문은 복잡한 형상 주변의 시간 의존적 유동장(velocity fields) 을 빠르고 정확하게 예측하는 것을 목표로 합니다.

#Review #Neural Operators #Time-Dependent Flow #Complex Geometries #DeepONet #Signed Distance Field #Autoregressive Prediction #Computational Fluid Dynamics #FlowBench

2025년 12월 9일

[논문리뷰] OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory

이 논문은 기존 다중 샷 비디오 생성(MSV) 모델이 복잡한 서사에 필요한 장거리 샷 간 컨텍스트를 효과적으로 모델링하지 못하여 발생하는 시각적 불일치와 일관성 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Shot Video Generation #Adaptive Memory #Long-Range Context #Frame Selection #Diffusion Models #Image-to-Video #Autoregressive Generation #Narrative Coherence

2025년 12월 9일

[논문리뷰] Modular Neural Image Signal Processing

본 논문은 기존의 단일 신경망 ISP(Image Signal Processing)가 가지는 카메라 일반화 능력 부족, 높은 계산 비용, 그리고 낮은 해석 가능성이라는 한계를 극복하고자 합니다.

#Review #Neural ISP #Modular Architecture #Raw Image Processing #Photo-Editing #Camera Agnostic #Generalization #Deep Learning #Image Enhancement

2025년 12월 9일

[논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment

본 논문은 다양한 장기 로봇 조작 데이터의 부족과 기존 비디오 생성 모델의 한계를 극복하여, 물리적으로 그럴듯하고 논리적으로 일관된 장기 로봇 조작 비디오 를 합성하는 것을 목표로 합니다. 특히 수동으로 정의된 궤적에 의존하지 않고 자율적인 데이터 합성을 가능하게 하는 데 중점을 둡니다.

#Review #Video Generation #Robotic Manipulation #Hierarchical Framework #Reinforcement Learning #Diffusion Models #World Models #Cognitive Science #Physical Alignment

2025년 12월 9일

[논문리뷰] LYNX: Learning Dynamic Exits for Confidence-Controlled Reasoning

대규모 추론 모델(LLM)이 불필요하게 긴 사고 과정을 생성하여 컴퓨팅 자원을 낭비하고 때로는 정확도를 저해하는 '과잉 사고(overthinking)' 문제를 해결하고자 합니다.

#Review #Early Exit #Confidence Control #Reasoning Models #Conformal Prediction #LLM Optimization #Dynamic Exits #Hidden States #Chain-of-Thought

2025년 12월 9일

[논문리뷰] Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation

기존 Vision-Language Navigation (VLN) 모델의 단일 파이프라인이 유발하는 단편적인 동작, 높은 지연 시간, 그리고 동적 장애물 회피의 어려움을 해결하는 것이 목표입니다.

#Review #Vision-Language Navigation #Dual-System Architecture #Foundation Models #Diffusion Policies #Robotics #Real-time Control #Generalization #Autonomous Navigation

2025년 12월 9일

[논문리뷰] From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

본 논문은 순차적인 자동회귀(AR) LLM의 추론 병목 현상을 해결하고자 합니다.

#Review #Diffusion Language Models #LLM Adaptation #Block-Diffusion #Autoregressive Models #Attention Masks #Parallel Generation #Transfer Learning #Generative Models

2025년 12월 9일

[논문리뷰] Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

논문은 복잡한 동적 장면의 기하학적 구조와 움직임을 비디오로부터 효율적으로 재구성하는 것을 목표로 합니다. 기존의 단편적이고 컴퓨팅 비용이 높은 3D 재구성 접근 방식의 한계를 극복하고, 단일의 통일된 모델로 깊이, 시공간 대응, 전체 카메라 파라미터 추론을 수행하는 4D 이해 프레임워크 를 제시하고자 합니다.

#Review #Dynamic Scene Reconstruction #4D Reconstruction #Point Tracking #Transformer Architecture #Feedforward Model #Query-based Inference #Computer Vision #Geometric Consistency

2025년 12월 9일

[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.

#Review #E-commerce #Foundation Agents #LLM Agents #Benchmark #Agent Evaluation #Tool Use #Multi-step Reasoning #Real-world Scenarios

2025년 12월 9일

[논문리뷰] DeepCode: Open Agentic Coding

대규모 언어 모델(LLM) 기반 코드 에이전트들이 정보 과부하 와 컨텍스트 병목 현상 으로 인해 과학 논문과 같은 복잡한 문서로부터 고품질의 코드베이스를 생성하는 데 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Agentic Coding #LLM #Code Generation #Repository Synthesis #Information Flow Management #Code Memory #CodeRAG #Automated Verification #Scientific Reproduction

2025년 12월 9일