최신 포스트

[논문리뷰] Physical Simulator In-the-Loop Video Generation

본 논문은 확산 모델 기반 비디오 생성의 시각적 사실성이 물리 법칙(중력, 관성, 충돌 등)을 따르지 못하여 객체의 움직임이 일관성이 없고 비현실적인 문제를 해결하고자 합니다. 물리 시뮬레이터를 비디오 확산 과정에 통합하여 물리적으로 일관되고 시공간적으로 자연스러운 비디오 생성을 달성하는 것을 목표로 합니다.

#Review #Video Generation #Physical Simulation #Diffusion Models #Texture Consistency #Motion Controllability #Test-Time Optimization #4D Reconstruction

2026년 3월 8일

[논문리뷰] Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

본 논문은 컴퓨팅 자원이 제한된 환경(모바일, 엣지 디바이스)에서 VLM(Vision Language Model) 배포를 저해하는 모델 크기 확장의 문제를 해결하고자 합니다.

#Review #Vision Language Model (VLM)#LLM-based Vision Encoder #Efficient AI #Multimodal Understanding #Generative Pretraining #Resource-constrained Deployment #Temporal Reasoning

2026년 3월 8일

[논문리뷰] Mario: Multimodal Graph Reasoning with Large Language Models

본 연구는 대규모 언어 모델(LLM)이 멀티모달 그래프(MMG)에서 추론할 때 발생하는 두 가지 주요 과제, 즉 교차 모달 불일치(cross-modal inconsistency) 및 이종 모달 선호도(heterogeneous modality preference) 를 해결하는 것을 목표로 합니다.

#Review #Multimodal Graph #Large Language Models #Graph Reasoning #Cross-Modal Alignment #Modality Adaptation #Instruction Tuning #Vision-Language Model #Node Classification

2026년 3월 8일

[논문리뷰] Making Reconstruction FID Predictive of Diffusion Generation FID

변이형 오토인코더(VAE)의 재구성 FID (rFID) 와 잠재 확산 모델(LDM)의 생성 FID (gFID) 사이의 낮은 상관관계, 즉 '재구성-생성 딜레마'를 해결하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #VAE #FID #Generative Models #Evaluation Metrics #Image Generation #Reconstruction-Generation Dilemma #Interpolation

2026년 3월 8일

[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViT

사전 훈련된 Vision Transformer (ViT) 의 중간 레이어 행동을 심층적으로 분석하고, 분포 변화(distribution shift) 상황에서 어떤 레이어와 모듈이 최적의 선형 프로빙(linear probing) 성능을 보이는지 규명하는 것을 목표로 합니다.

#Review #Vision Transformer #Out-of-Distribution #Linear Probing #Distribution Shift #Foundation Models #Intermediate Layers #Module Analysis

2026년 3월 8일

[논문리뷰] HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

본 논문은 LLM 에이전트 가 장기 계획(long-horizon planning)에서 예산이나 다양성 요구 사항과 같은 강력한 제약 조건 을 처리할 때 발생하는 Constraint Drift 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Planning #Hierarchical Reinforcement Learning #Constrained Optimization #Large Language Models (LLMs)#Travel Itinerary Generation #Constraint Drift #Parallel Execution #Resource Allocation

2026년 3월 8일

[논문리뷰] FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Large Language Models (LLMs)의 장문 컨텍스트 처리 시 자기회귀(self-attention)의 2차 복잡도로 인한 성능 병목현상 , 특히 계산 집약적인 프리필(prefilling) 단계의 높은 오버헤드 를 해결하는 것이 목표입니다.

#Review #Long-Context LLMs #Prefilling #Sparse Attention #Pattern Discovery #Dynamic Thresholding #Attention Speedup #Transformer Optimization

2026년 3월 8일

[논문리뷰] Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

본 설문조사는 대규모 언어 모델(LLM)의 급증에 따라 발생하는 추론 시간의 효율성 및 최적 모델 선택의 필요성을 해결하고자 합니다.

#Review #LLM Inference #Model Routing #Model Cascading #Efficiency Optimization #Dynamic Model Selection #Multi-LLM Systems #Cost-Performance Trade-off #Adaptive AI Systems

2026년 3월 8일

[논문리뷰] Dynamic Chunking Diffusion Transformer

본 논문은 Diffusion Transformer (DiT)에서 고정된 패치화를 학습된 동적 청킹(dynamic chunking) 메커니즘 으로 대체하여 이미지 생성 품질을 유지하면서 연산 효율성을 극대화 하는 것을 목표로 합니다.

#Review #Diffusion Transformer #Dynamic Chunking #Adaptive Patching #Image Generation #Computational Efficiency #Token Reduction #Spatial Segmentation #Load Balancing

2026년 3월 8일

[논문리뷰] Demystifying Action Space Design for Robotic Manipulation Policies

로봇 조작 정책 학습에서 액션 공간 설계가 주로 경험적 휴리스틱에 의해 이루어져 최적화 및 안정성에 대한 체계적인 이해가 부족한 문제를 해결하는 것입니다. 이 연구는 시간적(절대값 vs. 델타) 및 공간적(조인트-공간 vs.

#Review #Robotic Manipulation #Action Space Design #Imitation Learning #Delta Actions #Joint Space Control #Task Space Control #Generalization #Control Stability

2026년 3월 8일

[논문리뷰] DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

기존 발표 자료 생성 에이전트의 한계(미리 정의된 워크플로, 콘텐츠에 구애받지 않는 템플릿, 내부 신호에만 의존하는 자기 성찰)를 극복하고자 합니다.

#Review #Agentic Systems #Presentation Generation #Large Language Models (LLMs)#Multimodal LLMs (MLLMs)#Environment-Grounded Reflection #Self-Correction #Dual-Agent Framework #Supervised Fine-tuning

2026년 3월 8일

[논문리뷰] Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

본 논문은 멀티 벡터 시각적 문서 검색(VDR) 시스템에서 발생하는 심각한 저장 효율성 병목 현상 을 해결하고 동시에 검색 성능을 향상시키는 것을 목표로 합니다. 기존 멀티 벡터 모델의 패치 기반 임베딩 방식이 초래하는 막대한 저장 비용과 문서 레이아웃 구조에 대한 명시적인 접지 부족 문제를 극복하고자 합니다.

#Review #Multi-Vector Retrieval #Visual Document Understanding #Document Parsing #Layout-Informed Embeddings #Information Bottleneck #Storage Efficiency #Late Interaction

2026년 3월 8일

[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

대규모 언어 모델(LLM)의 강화 학습(RL)에서 PPO의 표준 클리핑 메커니즘 이 저확률 액션의 상향 업데이트 마진을 엄격하게 제한하여 고-이점 꼬리 전략을 억제하고 급격한 엔트로피 붕괴를 유발하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Reinforcement Learning #Trust Region #Policy Optimization #Ratio Clipping #f-divergence #Entropy Regularization #Exploration #BandPO

2026년 3월 8일

[Open WebUI] 채팅 메시지 마이그레이션을 스트리밍+배치 처리로 전환하여 메모리 폭발 방지

fetchall()로 전체 데이터를 메모리에 로드하고 건별 INSERT하던 마이그레이션을 yield_per 스트리밍과 5000건 단위 배치 INSERT로 전환한 분석.

#Open WebUI #Python #Performance #SQLAlchemy #Migration

2026년 3월 8일

[vllm] NGram GPU 구현 - 비동기 스케줄러 호환 GPU 기반 N-gram Drafting

N-gram speculative decoding을 GPU에서 실행하여 CPU-GPU 동기화 오버헤드를 제거하고 비동기 스케줄링과 호환

#vllm #Performance

2026년 3월 7일

[Axolotl] 가중치 동기 로딩으로 OOM 방지

MoE 모델 로딩 시 비동기 텐서 전송을 비활성화하여 GPU OOM을 방지하는 수정

#Axolotl #MoE #OOM #Memory Optimization #Quantization

2026년 3월 7일

[triton] AMD FpSan dot 에뮬레이션의 MFMA/WMMA encoding 호환성 수정

FP Sanitizer의 dot 에뮬레이션에서 MFMA/WMMA 인코딩 대신 최적화된 blocked layout을 사용하고 cross-warp barrier를 추가하여 정확성을 보장한 PR을 분석합니다.

#Triton #AMD #FpSan #Bug Fix #MFMA

2026년 3월 6일

[Open WebUI] Artifacts 컴포넌트 메모리 누수 수정

Svelte store 구독 해제 누락으로 인한 메모리 누수 해결

#Open WebUI #Svelte #Memory Leak #Performance

2026년 3월 6일

[axolotl] ScatterMoE 커널 라우팅 통합: Softmax/Sigmoid 기반 라우팅과 Autotune Telemetry 추가

MoE 모델의 다양한 라우팅 전략(Softmax TopK, Sigmoid TopK)을 통합 함수로 정리하고, Triton autotune 결과를 자동 수집하는 telemetry callback을 추가한 사례를 분석합니다.

#Axolotl #MoE #ScatterMoE #Triton #Routing #Telemetry

2026년 3월 6일

[axolotl] 코드 품질 개선: CONTRIBUTING.md 플레이스홀더 수정, bare except 제거, convert.py 테스트 추가

axolotl의 CONTRIBUTING.md 플레이스홀더 문제를 수정하고, bare except를 구체적 예외로 변경하며, convert.py에 대한 단위 테스트를 추가한 사례를 분석합니다.

#Axolotl #Code Quality #Testing #Best Practices

2026년 3월 6일