최신 포스트

[논문리뷰] From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

본 논문은 다중모드 대규모 추론 모델(MLRMs) 의 콜드-스타트 초기화(cold-start initialization) 단계의 메커니즘을 분석하고 최적화하여, 모델의 다중모드 추론 성능과 시각적 기반(visual grounding) 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Cold-Start Initialization #Attention Mechanism #Visual Grounding #Large Multimodal Models (LMMs)#Reinforcement Learning (RLHF)#Data Synthesis #Visual Attention Score (VAS)

2026년 3월 9일

[논문리뷰] FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

본 논문은 Vision-Language Models (VLMs) 의 프롬프트 튜닝 과정에서 발생하는 시각 인코더의 전경 어텐션 시프트(foreground attention shift) 문제를 해결하여 예측 실패를 줄이고자 합니다.

#Review #Vision-Language Models #Prompt Tuning #Foreground Attention #Adaptive Learning #Generalization #Base-to-New Trade-off #Attention Guidance

2026년 3월 9일

[논문리뷰] CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

본 논문은 기존의 CoT(Chain-of-Thought) 기반 텍스트-투-이미지(T2I) 생성 방식이 복잡한 공간 레이아웃, 구조화된 시각 요소, 조밀한 텍스트 콘텐츠에 필요한 정밀도가 부족하다는 문제를 해결하고자 합니다.

#Review #Text-to-Image Generation #Chain-of-Thought #Code Generation #Multimodal Large Language Models #Structured Image Synthesis #Draft-Guided Refinement #Visual Reasoning

2026년 3월 9일

[논문리뷰] CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

이 논문은 기존의 통합 이미지 편집 모델들이 고정된 공유 백본을 사용함으로써 다중 조건(텍스트, 마스크, 참조 이미지) 입력 시 발생하는 태스크 간섭, 색상 번짐, 정체성/스타일 왜곡 등의 문제를 해결하고자 합니다.

#Review #Image Editing #Diffusion Models #Mixture-of-Experts (MoE)#Condition-Aware Routing #Contextual Image Editing #Mask Repaint #Latent Mixture #Diffusion Transformer

2026년 3월 9일

[논문리뷰] Believe Your Model: Distribution-Guided Confidence Calibration

대규모 추론 모델(LRMs)이 테스트 시 스케일링 기법을 통해 다수의 후보 응답을 생성할 때, 내부 모델의 신뢰도 점수와 분포 정보를 충분히 활용하지 못하여 오답을 확신하는 문제를 해결하고자 합니다. 신뢰도 분포의 사전 정보를 효과적으로 통합하여 답변 선택의 신뢰성을 향상시키는 것을 목표로 합니다.

#Review #Confidence Calibration #Test-Time Scaling #Large Reasoning Models (LRMs)#Gaussian Mixture Models (GMM)#Hierarchical Voting #Self-Reflection #Distributional Priors

2026년 3월 9일

[논문리뷰] Agentic Critical Training

본 논문은 LLM 에이전트가 단순한 모방을 넘어, 행동의 품질에 대한 자율적인 비판적 추론 및 진정한 자기 성찰 능력 을 개발하도록 훈련시키는 것을 목표로 합니다. 기존 모방 학습(IL)이 '무엇을 할지'만 가르치고 '왜 그 행동이 더 나은지'에 대한 이해가 부족하다는 한계를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Imitation Learning #Self-Reflection #Action Quality #Out-of-Distribution Generalization #Critical Reasoning #GRPO

2026년 3월 9일

[triton] Concurrency Sanitizer를 Vendor Target Hooks로 리팩터링

Triton의 Concurrency Sanitizer를 벤더 독립적인 인터페이스로 리팩터링하여 NVIDIA 외 다른 GPU 벤더도 지원할 수 있게 한 PR 분석.

#Triton #ConSan #Sanitizer #Refactoring #VendorHooks #Architecture

2026년 3월 9일

[triton] AMD GFX9 AsyncCopy를 위한 Padded Layout 선택 확장

AMD CDNA4(GFX9) GPU에서 async copy의 padded layout 선택을 8비트 데이터 타입과 더 넓은 kWidth로 확장하여 bank conflict를 줄인 PR 분석.

#Triton #AMD #CDNA4 #AsyncCopy #PaddedLayout #BankConflict

2026년 3월 9일

[Loki] query_range 요청에 캐시 비활성화 헤더 지원 추가

Cache-Control 헤더로 query_range 결과 캐시를 비활성화할 수 있도록 개선

#Grafana Loki #Cache #HTTP Headers #Performance

2026년 3월 9일

[PyTorch] Inductor mixed-order reduction 최적화

mix-order-reduction의 multi-stage를 기본 비활성화하여 shared memory 초과 문제를 방지한다

#PyTorch #Inductor #Triton #Compiler

2026년 3월 9일

[Grafana Loki] Thor(V2) 쿼리 엔진에 결과 캐시 미들웨어 추가

메트릭, 인스턴트 메트릭, 로그 쿼리 각각에 독립적인 결과 캐시를 추가하여 반복 쿼리의 GCS/오브젝트 스토어 접근을 제거한 성능 최적화 분석.

#Grafana Loki #Go #Performance #Cache #Query Engine

2026년 3월 9일

[논문리뷰] π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

본 논문은 플로우 기반 Vision-Language-Action (VLA) 모델이 온라인 강화 학습(RL)에서 겪는 문제를 해결하는 것을 목표로 합니다. 특히, 다단계 샘플링 시 계산하기 어려운 우도(likelihood) 문제와, 미세 조정 후 행동 다양성이 부족하여 사소한 편차에도 취약해지는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Flow-based Models #Vision-Language-Action (VLA) Models #Online Learning #Stochastic Differential Equation (SDE)#Contrastive Learning #Embodied AI #Robotics

2026년 3월 8일

[논문리뷰] WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

본 연구는 확산 기반 월드 모델의 높은 추론 비용 문제, 특히 대화형 사용 및 장기 롤아웃에 필요한 비용을 해결하는 것을 목표로 합니다. 기존 단일 모달 확산 모델을 위한 캐싱 정책이 다중 모달 토큰의 이질성과 비균일한 시간적 역학으로 인해 월드 모델에 제대로 적용되지 못하는 한계를 극복하고자 합니다.

#Review #World Models #Diffusion Models #Inference Acceleration #Feature Caching #Heterogeneous Tokens #Curvature Prediction #Adaptive Skipping

2026년 3월 8일

[논문리뷰] WildActor: Unconstrained Identity-Preserving Video Generation

본 논문은 기존 비디오 생성 모델이 동적인 움직임, 시점 변화에도 불구하고 일관된 전신(full-body) 신원(identity)을 유지 하는 데 실패하고, 얼굴 중심적 편향, 자세 고정(pose locking) 등의 문제를 겪는다는 점을 지적합니다.

#Review #Video Generation #Identity Preservation #Human-Centric Video #Large-scale Dataset #Diffusion Models #Attention Mechanism #Viewpoint Consistency

2026년 3월 8일

[논문리뷰] SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

다양한 이미지 손상(degradation)에 대해 단일 모델로 처리하는 올인원 이미지 복원(All-in-One Image Restoration) 프레임워크의 한계, 즉 특징 간섭과 전문가 특화 부족 문제를 해결하고자 합니다.

#Review #Image Restoration #Mixture of Experts #Degradation Representation #Spherical Embedding #Contrastive Learning #Adaptive Routing #All-in-One Model #Global-Local Fusion

2026년 3월 8일

[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

본 논문은 장기적이고 이력 의존적인 로봇 조작 태스크에서 메모리 기반의 Vision-Language-Action (VLA) 모델 의 체계적인 평가 및 발전을 위한 표준화된 벤치마크를 구축하는 것을 목표로 합니다. 기존 메모리 메커니즘 평가의 비표준화된 환경과 제한적인 이해를 개선하고자 합니다.

#Review #Robotics #Memory #Benchmark #Manipulation #Vision-Language-Action Models #Temporal Memory #Spatial Memory #Procedural Memory

2026년 3월 8일

[논문리뷰] Reasoning Models Struggle to Control their Chains of Thought

본 논문은 최신 추론 모델이 자신의 CoT (Chain-of-Thought)를 '의도적으로' 제어하여 모니터링을 회피할 수 있는 능력, 즉 CoT controllability 를 측정하고 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Model Controllability #AI Safety #Monitorability #Large Language Models (LLMs)#Reinforcement Learning (RL)#Evaluation Suite

2026년 3월 8일

[논문리뷰] Progressive Residual Warmup for Language Model Pretraining

Transformer 기반 Large Language Models (LLMs) 의 사전 훈련 안정성과 수렴 속도를 향상시키는 것을 목표로 합니다. 특히, 계층적으로 쌓인 Transformer 아키텍처에서 깊은 레이어들이 얕은 레이어들이 안정화되기 전에 기여하여 발생하는 비효율적인 업데이트 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Transformer #Pretraining Stability #Residual Connections #Warmup Schedule #Layer-wise Learning #Optimization

2026년 3월 8일

[논문리뷰] Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

본 논문은 기존 월드 모델의 수백 개의 잠재 토큰 이 실시간 계획 수립에 필요한 계산 비용을 과도하게 증가시키는 문제를 해결하고자 합니다.

#Review #World Model #Discrete Tokenizer #Latent Representation #Action Planning #Model Predictive Control #Real-time AI #Compression #Vision Foundation Model

2026년 3월 8일

[논문리뷰] PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

본 연구는 단일 RGB 이미지로부터 완전한 3D 실내 장면의 메쉬를 자동회귀 방식으로 재구성하는 것을 목표로 합니다.

#Review #Single-View 3D Reconstruction #Autoregressive Models #Mesh Generation #Scene Understanding #Transformer #Point Cloud Features #Pose Estimation

2026년 3월 8일