[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges본 논문은 급변하는 Vision-Language-Action (VLA) 모델 분야에 대한 명확하고 구조화된 가이드를 제공하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Robotics#Foundation Models#Multi-modal Learning#Reinforcement Learning#Sim-to-Real Transfer#Human-Robot Interaction2025년 12월 21일댓글 수 로딩 중
[논문리뷰] 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation본 논문은 기존 MLLM이 3D 구조와 시간적 역학(4D)을 추론하는 능력이 부족하며, 특히 4D 인지 및 시간적 이해 가 약하다는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#4D Understanding#Perceptual Distillation#Region-level VQA#Video Question Answering#Temporal Perception#Depth Perception2025년 12월 21일댓글 수 로딩 중
[논문리뷰] 3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework본 논문은 단일 2D 이미지로부터 시각 효과(VFX) 및 게임 개발에 즉시 활용 가능한, 수정 가능한 생산 준비 완료(production-ready) 3D 텍스처 메시 장면 을 재구성하는 것을 목표로 합니다.#Review#3D Reconstruction#Generative AI#Indoor Scenes#Compositional Framework#Differentiable Rendering#Image-to-3D#VFX#Game Development2025년 12월 21일댓글 수 로딩 중
[Open WebUI] FileMetadataResponse의 meta 필드를 Optional로 변경하여 배치 추가 오류 수정Open WebUI에서 메타데이터가 없는 파일을 Knowledge에 배치 추가할 때 Pydantic 유효성 검사 오류가 발생하던 문제를, meta 필드를 Optional로 변경하여 수정한 버그 픽스를 분석합니다.#Open WebUI#Python#Pydantic#Bug Fix#Data Validation2025년 12월 20일댓글 수 로딩 중
[triton] Triton에서 cuBLAS를 활용한 mxfp8 및 nvfp4 블록 스케일 행렬 곱셈 벤치마킹Triton의 블록 스케일 행렬 곱셈 성능을 검증하기 위해 cuBLAS 기반의 베이스라인을 도입하고 튜토리얼을 개선했습니다.#Triton#cuBLAS#mxfp8#nvfp4#Performance2025년 12월 19일댓글 수 로딩 중
[Loki] Partition Ring Shuffle Sharding에 LRU 캐시 도입dskit 업데이트로 partition ring shuffle shard 캐시에 LRU 기반 바운디드 메모리 관리 추가.#Grafana Loki#Go#Performance#Memory Management#Caching2025년 12월 19일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 19일댓글 수 로딩 중
[triton] Triton PROTON: CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack API를 추가하여 성능을 대폭 개선Triton PROTON 라이브러리의 CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack 직렬화 API를 추가하여 성능을 3배~10배 향상시킨 코드 변경 분석.#Triton#PROTON#CUDA#Profiling#Optimization#MsgPack#C++#Python2025년 12월 19일댓글 수 로딩 중
[Ray Data] StreamingRepartition과 MapBatches 퓨전 규칙 개선batch_size가 target_num_rows의 배수일 때 연산자 퓨전 허용으로 중간 물질화 제거#Ray#Operator Fusion#Data Pipeline#Performance2025년 12월 19일댓글 수 로딩 중
[Grafana Loki] 스케줄러 Peer 연결 미종료로 인한 메모리 누수 수정streamSink 종료 시 Peer 연결을 닫지 않아 반대편 워커의 Serve()가 영원히 반환되지 않던 메모리 누수를 defer conn.Close()로 해결한 분석.#Grafana Loki#Go#Memory Leak#Distributed Systems#gRPC2025년 12월 19일댓글 수 로딩 중
[triton] CGAEncodingAttr::getDefault를 get1CTALayout/get1DLayout로 분리하여 multi-CTA 지원1CTA 전용이던 getDefault 함수를 명확한 이름의 두 함수로 분리하고, multi-CTA 환경에서의 coalesce 유틸리티를 수정한 분석.#Triton#MLIR#CGA#Multi-CTA#Encoding#Compiler2025년 12월 18일댓글 수 로딩 중
[Triton] ConSan에서 barrier 다중 도착 시 false positive deadlock 감지 수정barrier_expect를 arrive로 모델링하여 여러 TMA copy가 같은 barrier를 공유할 때 발생하는 오탐 deadlock 해결#Triton#ConSan#Concurrency Sanitizer#Bug Fix#TMA2025년 12월 19일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중
[논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text본 논문은 기존 텍스트 전용 또는 궤적 기반 이미지-투-비디오(I2V) 생성 모델의 한계를 극복하고, 더욱 풍부하고 사용자 지향적인 '프롬프트 가능한 월드 이벤트' 시뮬레이션을 가능하게 하는 것을 목표로 합니다.#Review#World Models#Video Generation#Multimodal Control#Trajectory Guidance#Reference Images#Promptable Events#Cross-Attention#Diffusion Models2025년 12월 18일댓글 수 로딩 중
[논문리뷰] StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors본 논문은 스테레오 비디오 변환 시 기존의 다단계 “Depth-Warp-Inpaint” (DWI) 파이프라인이 겪는 오류 전파, 깊이 모호성, 그리고 병렬 및 수렴 스테레오 형식 간의 불일치 문제를 해결하고자 합니다.#Review#Monocular-to-Stereo Conversion#Video Generation#Diffusion Models#Feed-Forward Architecture#Domain Switcher#Cycle Consistency#Unified Dataset#Depth Ambiguity2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model본 논문은 오디오와 비디오를 통합적으로 생성하는 기반 모델(foundation model) 인 Seedance 1.5 pro를 소개합니다.#Review#Audio-Visual Generation#Diffusion Transformer#Multimodal AI#Speech Synchronization#Video Generation#Reinforcement Learning from Human Feedback#Inference Acceleration2025년 12월 18일댓글 수 로딩 중
[논문리뷰] RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing본 논문은 기존 지시 기반 이미지 편집 모델들이 Instruction-Visual Complexity (IV-Complexity) 시나리오(복잡한 시각적 문맥, 모호한 지시, 다중 객체 참조, 세계 지식 및 인과적 추론 필요)에서 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#Image Editing#Vision-Language Models#Diffusion Models#Region-aligned Guidance#Reinforcement Learning#Instruction-Visual Complexity#Attention Mechanism2025년 12월 18일댓글 수 로딩 중
[논문리뷰] REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion본 논문은 최신 이미지 생성 모델인 Latent Diffusion Models (LDMs) 의 고질적인 문제인 느린 의미론적 정보 학습 및 샘플 품질 제한을 해결하고자 합니다.#Review#Latent Diffusion Models#Vision Foundation Models#Semantic Compression#Global-Local Semantics#Image Generation#Representation Entanglement#Transformer Architecture2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners본 논문은 자연어 처리 분야의 생성적 사전 훈련(generative pretraining) 성공 사례에서 영감을 받아, 다음 임베딩 예측(next-embedding prediction) 을 통해 비전 태스크에서 강력한 자기 지도 학습(self-supervised learning) 모델을 구축하는 것을 목표로 합니다.#Review#Self-supervised Learning#Generative Pretraining#Vision Transformer#Next-Embedding Prediction#Autoregressive Model#Image Classification#Semantic Segmentation#Causal Masking2025년 12월 18일댓글 수 로딩 중