[논문리뷰] HDINO: A Concise and Efficient Open-Vocabulary Detector논문은 기존 개방형 단어 객체 탐지(OVD) 모델들이 수동으로 큐레이션된 학습 데이터셋 과 자원 집약적인 교차 모달 특징 추출 에 과도하게 의존하는 문제를 해결하고자 합니다. 이러한 의존성을 제거하여 간결하면서도 효율적인 개방형 단어 객체 탐지기 를 개발하는 것을 목표로 합니다.#Review#Open-Vocabulary Object Detection#Transformer#DINO#CLIP#Semantic Alignment#Hard Example Mining#Feature Fusion#Two-stage Training2026년 3월 4일댓글 수 로딩 중
[논문리뷰] GroupEnsemble: Efficient Uncertainty Estimation for DETR-based Object DetectionDETR 기반 객체 탐지 모델이 의미론적 불확실성 만 제공하고 공간적 불확실성 을 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#Uncertainty Estimation#Object Detection#DETR#Deep Ensembles#MC-Dropout#Group DETR#Transformer#Autonomous Driving2026년 3월 4일댓글 수 로딩 중
[논문리뷰] EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding본 논문은 embodied task를 위해 탐색 과정과 동시에 3D 장면을 실시간으로 이해하는 문제를 해결하는 것을 목표로 합니다.#Review#3D Gaussian Splatting#Open-Vocabulary#Embodied AI#Online Reconstruction#Semantic 3D Scene Understanding#CLIP Features#Feed-Forward Neural Networks2026년 3월 4일댓글 수 로딩 중
[논문리뷰] CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video본 논문은 기존의 영상 확산 모델들이 겪는 계산 제약으로 인해 1K 이하의 낮은 해상도에 머무는 한계를 극복하고, 단일 시점 영상(perspective video) 입력으로부터 네이티브 4K 해상도(3840x1920) 의 고품질 360° 파노라마 영상을 생성하는 것을 목표로 합니다.#Review#4K 360° Video Generation#Spatio-Temporal Autoregressive#Diffusion Models#Cubemap#Context Attention#Virtual Reality#Perspective-to-Panorama2026년 3월 4일댓글 수 로딩 중
[논문리뷰] BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning본 연구는 강화 학습(RL) 과 검증 가능한 보상(Verifiable Rewards, RLVR) 이 소규모 언어 모델에게 물리적 추론 능력을 부여할 수 있는지, 또는 단순히 정답 패턴 매칭을 학습하는지에 대한 질문을 탐구합니다.#Review#Reinforcement Learning#Parameter-Efficient Fine-Tuning (PEFT)#Large Language Models (LLM)#Beam Mechanics#Verifiable Rewards#Engineering Reasoning#Structural Engineering#Group Relative Policy Optimization (GRPO)2026년 3월 4일댓글 수 로딩 중
[논문리뷰] ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors본 연구는 3D/4D 감독 없이 물리적으로 그럴듯한 관절형 인간-객체 상호작용(HOI)을 합성 하는 근본적인 문제를 해결하고자 합니다. 기존 제로샷 방법론들이 강체 객체 조작 에만 한정되며 명시적인 4D 기하학적 추론 이 부족하여 발생하는 비현실적인 상호작용 문제를 극복하는 것이 주된 목표입니다.#Review#Human-Object Interaction (HOI)#4D Reconstruction#Articulated Objects#Video Diffusion Models#Inverse Rendering#Zero-shot Learning#Motion Synthesis#3D Gaussians2026년 3월 4일댓글 수 로딩 중
[faster-qwen3-tts] SDPA 전환으로 BF16 StaticCache hidden-state 발산 수정eager attention에서 SDPA로 전환하여 StaticCache 패딩 길이에 따른 BF16 hidden-state 발산 문제를 해결한다#faster-qwen3-tts#TTS#CUDA Graphs#Attention2026년 3월 4일댓글 수 로딩 중
[Open WebUI] 저장 버튼 스피너 인라인 레이아웃 수정Open WebUI의 여러 모달에서 저장 버튼의 로딩 스피너가 레이아웃을 밀어내는 문제를 Tailwind CSS 클래스 조정으로 수정한 PR을 분석합니다.#Open WebUI#UI Fix#Svelte#Tailwind CSS#Layout2026년 3월 4일댓글 수 로딩 중
[Ray] NIXL 메타데이터 캐싱으로 GPU 텐서 전송 등록/해제 오버헤드 제거Ray의 Direct Transport에서 텐서 메모리 등록을 캐싱하여 반복적인 weight sync 시 NIXL 메타데이터 등록/해제 오버헤드를 제거한 PR 분석.#Ray#GPU#NIXL#Tensor Transport#Memory Registration#Performance2026년 3월 4일댓글 수 로딩 중
[sglang] SGLang, Helios 모델 통합으로 실시간 장편 비디오 생성의 새로운 지평을 열다SGLang이 Helios 모델을 통합하여 실시간 장편 비디오 생성 성능을 혁신적으로 개선했습니다.#SGLang#Helios#비디오 생성#AI 모델#최적화2026년 3월 4일댓글 수 로딩 중
[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.#MoE#Triton#Kernel Fusion#GPU Optimization#LLM Inference#SGLang2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Utonia: Toward One Encoder for All Point Clouds본 논문의 핵심 목표는 단일 인코더 로 원격 감지, 실외 LiDAR, 실내 RGB-D 시퀀스, 객체 중심 CAD 모델, 비디오 리프티드 포인트 클라우드 등 다양한 도메인의 포인트 클라우드를 통합 처리 하는 것입니다.#Review#Point Clouds#Self-supervised Learning#Multi-domain Learning#Foundation Model#Point Transformer#Representation Learning#Robotics#Spatial Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?이 논문은 통합 멀티모달 모델에서 생성(generation) 능력이 이해(understanding) 능력을 향상시키는지, 그리고 언제, 어떤 방식으로 향상시키는지 에 대한 불확실성을 해결하고자 합니다.#Review#Unified Multimodal Models#Multimodal Understanding#Generation-to-Understanding#Benchmark#Vision-Language Models#Generate-then-Answer#Model Evaluation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels논문은 기존 모노큘러 3D 추적 방식의 한계점(희소한 점만 추적하거나 느린 최적화 기반 dense 추적)을 극복하는 것을 목표로 합니다.#Review#3D Tracking#Dense Scene Flow#Monocular Video#World-centric#Feedforward Model#Deep Learning#Computer Vision#4D Reconstruction2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.#Review#LLM Post-Training#Catastrophic Forgetting#Direct Preference Optimization (DPO)#Reward-based Learning#Data Rectification#Binary Cross-Entropy#Reasoning Tasks#Knowledge Preservation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Spilled Energy in Large Language Models본 논문은 대규모 언어 모델(LLM)에서 발생하는 환각(hallucination) 을 추가적인 훈련 없이 효과적으로 탐지하는 것을 목표로 합니다.#Review#LLM Hallucination Detection#Energy-Based Models#Training-Free#Logit Analysis#Spilled Energy#Cross-Task Generalization#Autoregressive Models2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Qwen3-Coder-Next Technical Report본 논문은 코딩 에이전트에 특화된 오픈-웨이트 언어 모델인 Qwen3-Coder-Next 를 소개합니다. 800억 개의 총 파라미터 중 추론 시 30억 개만 활성화 되는 MoE(Mixture-of-Experts) 아키텍처를 통해 효율적인 추론과 강력한 코딩 능력을 동시에 달성하는 것을 목표로 합니다.#Review#Coding Agents#Large Language Models (LLMs)#Mixture-of-Experts (MoE)#Agentic Training#Software Engineering#Reinforcement Learning#Code Generation#Tool Usage2026년 3월 3일댓글 수 로딩 중
[논문리뷰] PRISM: Pushing the Frontier of Deep Think via Process Reward Model-Guided Inference논문은 DEEPTHINK 시스템의 주요 병목 현상인 인스턴스 추론 중 신뢰할 수 없는 정확성 신호 부족 을 해결하고자 합니다. 이는 깊은 추론 과정에서 오류를 증폭시키고, 소수의 올바른 해결책을 억압하며, 추가 컴퓨팅의 효율성을 저하시키는 문제를 야기합니다.#Review#DeepThink#Process Reward Model#Inference Algorithm#Population Refinement#Stochastic Mutation#Reasoning Benchmarks#Compute-Accuracy Tradeoff2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Next Embedding Prediction Makes World Models Stronger부분적으로 관측 가능하고 고차원적인 환경에서 모델 기반 강화 학습(MBRL) 에이전트의 장기적인 시간 종속성 포착 능력 을 개선하는 것이 목표입니다.#Review#Model-Based Reinforcement Learning#World Models#Decoder-Free#Temporal Transformer#Next-Embedding Prediction#Latent Representation#Partial Observability#Barlow Twins2026년 3월 3일댓글 수 로딩 중
[논문리뷰] NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing본 논문은 대규모 정렬된(paired) 비디오 데이터셋의 부족 으로 인해 특히 로컬 비디오 편집 에서 발생하는 문제점을 해결하고자 합니다.#Review#Video Editing#Diffusion Models#Unpaired Learning#Temporal Consistency#Sparse Control#Dense Synthesis#Degradation Simulation#Keyframe Guidance2026년 3월 3일댓글 수 로딩 중