[논문리뷰] Reasoning over mathematical objects: on-policy reward modeling and test time aggregation현재 언어 모델(LM)의 수학 및 과학 추론 능력 평가는 주로 숫자 값이나 multiple-choice 질문과 같은 단순화된 답변 형식에 의존합니다.#Review2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Prompt-Free Universal Region Proposal Network기존의 Region Proposal Network (RPN) 및 Open-Vocabulary Object Detection (OVD) 방법들은 잠재적 객체를 식별하기 위해 exemplar images, predefined categories, 또는 textual descriptions과 같은 외부 프롬프트에 의존하는 경향이 있습니다.#Review#Prompt-Free#Region Proposal Network#Universal Object Detection#Cross-Domain Generalization#Learnable Embedding#Self-Prompting#Centerness-Guided2026년 3월 19일댓글 수 로딩 중
[논문리뷰] ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM AgentsMulti-turn LLM Agents는 복잡하고 인터랙티브한 작업을 해결하는 데 점차 중요해지고 있으며, Reinforcement Learning (RL)은 long-horizon behavior를 개선하는 데 핵심적인 역할을 합니다.#Review#Multi-turn LLM Agents#Reinforcement Learning#Rollout-as-a-Service#Training-Rollout Decoupling#Sandbox Environments#HPC#Token-in/Token-out#Scalability2026년 3월 19일댓글 수 로딩 중
[논문리뷰] OSM-based Domain Adaptation for Remote Sensing VLMs원격 감지(Remote Sensing) 분야의 Vision-Language Models (VLMs)는 위성 및 항공 이미지의 풍부함에도 불구하고, 고품질의 도메인 특화 이미지-텍스트 주석(annotation)이 희소하고 생성 비용이 높다 는 문제에 직면해 있습니다.#Review2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy DistillationReinforcement Learning (RL)은 LLM Post-Training의 핵심으로 부상하며 Reasoning, Agentic Capabilities, Real-World Problem-Solving 발전에 기여하고 있습니다.#Review#LLM Post-Training#Cascade RL#Multi-Domain On-Policy Distillation#Mixture-of-Experts#Reasoning#Agentic Capabilities#Competitive Programming#Mathematical Olympiad2026년 3월 19일댓글 수 로딩 중
[논문리뷰] MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction단일 이미지로부터 관절형 3D 객체를 재구성하는 것은 객체의 기하학적 구조, Part 구조 및 motion parameter를 제한된 시각적 증거로부터 함께 추론해야 하므로 여전히 근본적인 도전 과제이다.#Review#Monocular 3D Reconstruction#Articulated Objects#Progressive Structural Reasoning#Kinematic Estimation#PartNet-Mobility#End-to-End2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Memento-Skills: Let Agents Design Agents현대의 Large Language Models (LLMs) 은 few-shot learning , supervised fine-tuning , post-training 을 통해 다양한 시나리오에서 탁월한 성능을 보이지만, 실제 활용을 위해서는 막대한 데이터와 컴퓨팅 자원을 요구하는 parameter optimization 이 필수적입니다.#Review#LLM Agents#Continual Learning#Skill Learning#Reinforcement Learning#Memory-based Agents#Agent Design#Read-Write Reflective Learning#Offline RL2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Matryoshka Gaussian Splatting3D Gaussian Splatting (3DGS)의 실질적인 배포를 위해서는 단일 모델에서 조정 가능한 충실도(fidelity)로 장면을 렌더링하는 LoD 기능이 매우 중요합니다.#Review#3D Gaussian Splatting#Level of Detail (LoD)#Continuous LoD#Matryoshka Representation Learning#Stochastic Budget Training#Neural Rendering2026년 3월 19일댓글 수 로딩 중
[논문리뷰] MOSS-TTS Technical ReportText-to-Speech (TTS)는 이제 Foundation Model처럼 동작하며, 다양한 화자, 언어, 스타일, 음향 조건에 걸쳐 Generalize하고, Controllable하며 Low-Latency Synthesis를 지원하며, Long-Form 콘텐츠에 대해 Stable해야 하는 Speech Generation의 광범위한 패러다임으로 진화하고 있습니다.#Review#Speech Generation#Foundation Model#Audio Tokenizer#Autoregressive Modeling#Voice Cloning#Duration Control#Multilingual TTS2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language ModelsMultimodal Large Language Models (MLLMs)는 Vision과 Language를 연결하는 데 상당한 발전을 이루었지만, 공간 이해와 시점 인지(viewpoint-aware) 추론 능력은 여전히 부족합니다.#Review#Vision-Language Models#3D Reasoning#Language-based Localization#Spatial Understanding#Situation Modeling#Global Layout Reconstruction#Monocular Video2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding최근 Multimodal Large Language Models (MLLMs)는 인상적인 Semantic Capability를 보여주지만, Fine-grained geometric reasoning 및 Physical dynamics와 관련된 'Spatial blindness' 문제를 겪고 있습니다.#Review#Video Generation Models#3D Priors#Scene Understanding#Spatial Reasoning#Multimodal Large Language Models (MLLMs)#Latent World Simulator#Adaptive Gated Fusion#Generative AI2026년 3월 19일댓글 수 로딩 중
[논문리뷰] FASTER: Rethinking Real-Time Flow VLAsVision-Language-Action (VLA) 모델의 실제 로봇 배포에서 실시간 실행(real-time execution)은 매우 중요합니다.#Review#Vision-Language-Action (VLA) Models#Real-Time Robotics#Action Chunking#Reaction Latency#Flow Matching#Horizon-Aware Schedule (HAS)#Time to First Action (TTFA)2026년 3월 19일댓글 수 로딩 중
[논문리뷰] F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World최근 Encoder-based 아키텍처에서 Decoder-based LLM embeddings로의 전환은 성능 향상을 가져왔지만, 현재 연구는 두 가지 주요 한계를 가지고 있습니다.#Review#Multilingual Embedding#LLM#Matryoshka Representation Learning#Knowledge Distillation#Model Pruning#MTEB Benchmark#Low-resource Languages#Open-source2026년 3월 19일댓글 수 로딩 중
[논문리뷰] EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing기존의 Video Object Removal 방법론들은 주로 입력 마스크에 의존하여 객체를 제거하며, 이로 인해 객체가 유발하는 그림자(shadow), 반사(reflection), 변형(deformation)과 같은 복잡한 시각적 부수 효과(side effects)를 제대로 처리하지 못하는 한계가 있습니다 [cite: 1, Figure 2].#Review#Video Object Removal#Video Object Insertion#Diffusion Models#Effect Erasing#Reciprocal Learning#Deep Learning#Computer Vision2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation TokensUnified multimodal modeling을 위한 시도는 language models과 마찬가지로 visual models도 semantically meaningful tokens으로 동작해야 한다는 요구사항을 제기한다.#Review2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol UnderstandingMultimodal Large Language Models (MLLMs)는 자연스러운 장면 해석에서 놀라운 성공을 거두었지만, 인간 인지의 기본 구성 요소인 Discrete Symbols 처리 능력은 여전히 중요한 미해결 과제로 남아 있습니다.#Review#Multimodal Large Language Models (MLLMs)#Discrete Symbols#Cognitive Mismatch#Symbol Understanding#Benchmark#Recognition-Reasoning Inversion#Human Cognition2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer기존의 Motion Generation 연구는 주로 Kinematic Control에 강점을 보이는 Continuous Diffusion Models 또는 Semantic Conditioning에 효과적인 Discrete Token-based Generators의 두 가지 패러다임을 따랐습니다.#Review#Motion Generation#Diffusion Models#Discrete Tokens#Kinematic Control#Semantic Conditioning#Motion Tokenizer#Perception-Planning-Control2026년 3월 19일댓글 수 로딩 중
[논문리뷰] 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation ModelImmersive VR/AR, virtual production, next-generation e-commerce 등 다양한 분야에서 customized subject의 dynamic하고 view-consistent한 비디오 생성에 대한 수요가 증가하고 있습니다.#Review#3D-aware video generation#subject-driven customization#multi-view conditioning#video diffusion models#LoRA#temporal dynamics#3Dapter#3DreamBooth2026년 3월 19일댓글 수 로딩 중
[triton] Custom DSL Plugin Ops 지원Triton 플러그인 시스템에 custom op 등록 기능을 추가하여, 서드파티가 자체 DSL 연산을 Triton 프론트엔드에 통합할 수 있도록 한 PR을 분석합니다.#Triton#Plugin System#DSL#Extensibility#Frontend2026년 3월 19일댓글 수 로딩 중