최신 포스트

[논문리뷰] Any to Full: Prompting Depth Anything for Depth Completion in One Stage

본 논문은 기존의 RGBD 융합 기반 깊이 완성(Depth Completion) 방법론들이 겪는 도메인 특이성 및 깊이 패턴 민감성 문제를 해결하고, 이단계 MDE 통합 접근 방식의 계산 오버헤드와 구조적 왜곡을 극복하는 것을 목표로 합니다.

#Review #Depth Completion #Monocular Depth Estimation (MDE)#Prompt Learning #Domain Generalization #Pattern Agnostic #One-stage Learning #Robotic Perception #Scale Consistency

2026년 3월 11일

[Grafana Loki] 배치 처리를 파이프라인 래퍼로 분리하여 캐시 통합 준비

실행기의 drain 로직에 섞여 있던 배치 처리를 독립 파이프라인으로 추출하여, 태스크 캐시 구현의 기반을 마련한 리팩터링 분석.

#Grafana Loki #Go #Refactoring #Pipeline #Arrow

2026년 3월 11일

[PyTorch] Inductor MPS Metal 셰이더 half-precision 타입 불일치 수정

Metal 셰이더 codegen에서 half 타입의 masked/where 연산 시 타입 불일치를 static_cast로 수정한다

#PyTorch #MPS #Metal #Bug Fix

2026년 3월 11일

[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

기존 VLM 벤치마크들이 대부분 크고 명확한 시각적 차이에 집중하고 특정 도메인에 국한되어 미묘한 비교 추론 능력을 평가하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Vision-Language Models #Comparative Reasoning #Subtle Differences #Benchmark #Multi-modal AI #Image Comparison #VQA #Fine-grained Analysis

2026년 3월 10일

[논문리뷰] Towards a Neural Debugger for Python

본 논문은 개발자들이 실제로 디버거를 사용하는 비순차적 상호작용 방식을 모델링하는 '신경망 디버거(neural debuggers)' 개념을 도입합니다.

#Review #Neural Debuggers #Python Execution Traces #Large Language Models (LLMs)#Markov Decision Process (MDP)#Program Understanding #Code Generation #Inverse Execution #CruxEval

2026년 3월 10일

[논문리뷰] Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

본 논문은 복잡한 논리적 분해가 필요 없는 단순한 단일 홉 사실 질문에서 LLM의 추론이 어떻게 파라메트릭 지식 회상에 영향을 미치는지 밝히는 것을 목표로 합니다. 추론이 직관과 달리 모델의 지식 경계를 확장하는 메커니즘을 이해하고, 이를 통해 모델 정확도를 개선할 수 있는 실용적인 전략을 제시하고자 합니다.

#Review #LLMs #Reasoning #Parametric Knowledge #Factual Recall #Hallucination #Computational Buffer #Factual Priming #Chain-of-Thought

2026년 3월 10일

[논문리뷰] The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

본 논문은 대규모 언어 모델(LLM)의 논리적 추론 능력 향상이 AI 시스템의 상황 인식(situational awareness)을 불가피하게 증대시키며, 이는 궁극적으로 전략적 기만(strategic deception) 과 같은 심각한 안전 위험으로 이어질 수 있음을 경고합니다.

#Review #Logical Reasoning #Situational Awareness #LLMs #Deceptive Alignment #AI Safety #RAISE Framework #Self-Modeling #Deduction #Induction #Abduction

2026년 3월 10일

[논문리뷰] Streaming Autoregressive Video Generation via Diagonal Distillation

대규모 확산 모델의 제한된 실시간 스트리밍 기능을 개선하고, 기존 자기회귀 모델의 높은 연산 비용으로 인한 낮은 품질 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Autoregressive Models #Diffusion Models #Distillation #Real-time #Streaming #Temporal Coherence #Flow Matching

2026년 3월 10일

[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

본 논문은 Vision-Language Model (VLM) 의 공간 지능을 스포츠 시나리오에서 벤치마킹하고 발전시키는 것을 목표로 합니다.

#Review #Spatial Intelligence #Vision-Language Models #Sports Analytics #3D Reconstruction #Dataset #Benchmark #Racket Sports #Human-Centric AI

2026년 3월 10일

[논문리뷰] SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

본 논문은 반복적인 자체 개선(recursive self-improvement)을 수행하는 AI 시스템에서 발생하는 미묘한 정렬 편향(alignment drift) 문제를 해결하는 것을 목표로 합니다.

#Review #Recursive Self-Improvement #Alignment Drift #AI Safety #Goal Drift Index (GDI)#Constraint Preservation #Regression Risk #Capability Alignment Ratio (CAR)

2026년 3월 10일

[논문리뷰] Reward Prediction with Factorized World States

본 연구는 AI 에이전트가 새로운 목표와 환경에 걸쳐 일반화할 수 있는 정확하고 일반화 가능한 보상 예측 모델 을 개발하는 것을 목표로 합니다. 특히 훈련 데이터의 편향과 일반화 한계가 있는 기존 지도학습 기반 보상 모델의 문제를 해결하고, 미세한 단계별 보상 평가를 위한 벤치마크 부족을 해소하고자 합니다.

#Review #Reward Prediction #World Models #State Representation #Large Language Models #Zero-shot Learning #Reinforcement Learning #Planning #Factorization

2026년 3월 10일

[논문리뷰] Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

본 논문은 Multimodal Large Language Models (MLLMs) 가 텍스트를 이미지 형태로 처리할 때 발생하는 '모달리티 갭(modality gap)'을 체계적으로 진단하고 해결하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Modality Gap #Visual Text Understanding #Error Analysis #Self-Distillation #Text-to-Image Conversion #Reasoning Collapse

2026년 3월 10일

[논문리뷰] Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)이 주로 사용하는 자기회귀(autoregressive) 아키텍처 의 한계를 극복하고, 텍스트, 음성, 이미지 전반에 걸친 이해 및 생성을 통합할 수 있는 새로운 확률적 모델링 대안 을 탐색하는 것을 목표로 합니다.

#Review #Multimodal AI #Discrete Diffusion Models #Masked Language Modeling #Unified Generative Models #Any-to-Any #Speech-to-Image #Visual Question Answering

2026년 3월 10일

[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.

#Review #Large Language Models (LLMs)#Code Generation #HTML #Interactive Applications #Benchmark #MINIAPPBENCH #Agentic Evaluation #MINIAPPEVAL #Real-World Principles #Human-AI Interaction

2026년 3월 10일

[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Models #Self-Evolution #Reinforcement Learning #Zero-Data #Multi-Agent Systems #Code Generation #Synthetic Data

2026년 3월 10일

[논문리뷰] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

통합 멀티모달 모델(UMM)이 강한 의미론적 이해와 강력한 생성 능력 사이에서 겪는 본질적인 상충 관계를 해결하고자 합니다. 이 논문은 InternVL-U 라는 경량의 4B 매개변수 UMM을 제안하여, 이해, 추론, 생성, 편집 능력을 하나의 통합 프레임워크 내에서 민주화하는 것을 목표로 합니다.

#Review #Unified Multimodal Models #Multimodal Large Language Model #Image Generation #Image Editing #Chain-of-Thought #Data Synthesis #Low-parameter Models

2026년 3월 10일

[논문리뷰] Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

논문은 3D 장면 편집 과정에서 발생하는 다중 뷰 일관성(multi-view consistency) 유지의 어려움 과 3D 일관성 편집 쌍 데이터의 극심한 부족 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Editing #Reinforcement Learning #Multi-view Consistency #Diffusion Models #Reward Modeling #3D Gaussian Splatting #FLUX-Kontext #VGGT

2026년 3월 10일

[논문리뷰] Fish Audio S2 Technical Report

본 논문은 기존 TTS 시스템의 한계를 극복하여, 자연어 지시를 따르는 세밀한 제어(fine-grained control) , 다중 화자 및 다중 턴(multi-speaker, multi-turn) 생성 , 그리고 장문 합성(long-form synthesis) 을 지원하는 오픈소스 TTS 시스템인 Fish Audio S2 를 개발하는 것을 목표로 합니다.

#Review #Text-to-Speech (TTS)#Multi-speaker #Multi-turn #Instruction Following #Dual-Autoregressive #Reinforcement Learning (RL)#Data Pipeline #SGLang

2026년 3월 10일

[논문리뷰] Do What I Say: A Spoken Prompt Dataset for Instruction-Following

현재 Speech Large Language Models (SLLMs) 평가 시 주로 사용되는 텍스트 프롬프트의 한계를 극복하고, 현실적인 음성 기반 명령어 환경 에서 SLLM의 성능을 평가할 수 있는 데이터셋을 구축하는 것이 목표입니다.

#Review #Speech Language Models #Instruction Following #Multilingual Dataset #Spoken Prompts #Benchmark #SLLM Evaluation #Prompt Diversity

2026년 3월 10일

[논문리뷰] Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

RLVR(Reinforcement Learning from Verifiable Rewards)을 통해 강화된 대규모 언어 모델(LLMs)이 겪는 심각한 과신(over-confidence) 문제와 이로 인한 캘리브레이션 저하 를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM Calibration #Over-confidence #Decoupled Optimization #Verifiable Rewards #Policy Optimization #Expected Calibration Error

2026년 3월 10일