최신 포스트

[논문리뷰] Monadic Context Engineering

본 논문은 현재 AI 에이전트 아키텍처가 겪는 상태 관리, 오류 처리, 동시성 문제로 인한 취약성을 해결하고자 합니다.

#Review #Monads #Functional Programming #AI Agents #State Management #Error Handling #Concurrency #Monad Transformers #Meta-Agents

2025년 12월 29일

[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.

#Review #Real-time Video Generation #Multimodal Diffusion #On-Policy Distillation #Interactive AI Avatars #Video Streaming #Anchor-Heavy Identity Sinks #Lip Synchronization

2025년 12월 29일

[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

본 논문은 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 핵심 구성 요소인 텍스트 인코더의 두 가지 주요 과제를 해결하고자 합니다.

#Review #Text Encoder #Diffusion Models #Text Embedding #Evaluation Benchmark #MLLM Fine-tuning #Layer-wise Weighting #Text-to-Image Generation #Text-to-Video Generation

2025년 12월 29일

[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone

본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Vision-Language Models #Vision-Language-Action Models #Robotics #Multimodal AI #Action Planning #Long-Horizon Planning #Bidirectional Attention

2025년 12월 29일

[논문리뷰] Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation

본 논문은 투명하거나 반사되는 객체에 대한 깊이 및 법선 추정의 고질적인 문제를 해결하고자 합니다.

#Review #Video Diffusion Model #Depth Estimation #Normal Estimation #Transparent Objects #Robotics #Data Generation #LoRA Fine-tuning

2025년 12월 29일

[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language Models

Diffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Language Models #Post-Training #Reinforcement Learning #GRPO #FlexAttention #LMDeploy #Math Reasoning #SFT

2025년 12월 29일

[논문리뷰] Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss

본 논문은 Mixture-of-Experts (MoE) 모델에서 라우터의 결정이 개별 전문가의 실제 역량과 충분히 연동되지 않아 발생하는 성능 한계를 해결하고자 합니다. 라우터와 전문가 간의 약한 결합 문제를 개선하여 모델 성능을 향상시키는 동시에 효율성을 유지하는 가벼운 보조 손실 함수를 제안하는 것이 목표입니다.

#Review #Mixture-of-Experts (MoE)#Router-Expert Coupling #Auxiliary Loss #Expert Specialization #Large Language Models (LLMs)#Computational Efficiency

2025년 12월 29일

[논문리뷰] An Information Theoretic Perspective on Agentic System Design

논문은 에이전트형 언어 모델(LM) 시스템, 특히 컴프레서-프레딕터(compressor-predictor) 아키텍처 의 설계에 대한 체계적인 이해 부족을 해결하고자 합니다.

#Review #Agentic Systems #Language Models #Mutual Information #Rate-Distortion Theory #Compute Efficiency #Scaling Laws #Compressor-Predictor Architecture #On-device AI

2025년 12월 29일

[논문리뷰] Act2Goal: From World Model To General Goal-conditioned Policy

본 논문은 장기 로봇 조작(long-horizon robotic manipulation)에서 기존 목표 조건부 정책(GCP)이 겪는 문제점, 즉 장기 일관성 유지의 어려움과 국소적 교란에 대한 반응성의 부족을 해결하고자 합니다.

#Review #Goal-Conditioned Policy #World Models #Robotic Manipulation #Multi-Scale Temporal Hashing #Online Adaptation #Hindsight Experience Replay #LoRA Finetuning #Zero-shot Generalization

2025년 12월 29일

[vllm] 비동기 스케줄링 기본 활성화로 GPU 유휴 시간 제거

async scheduling을 기본값으로 전환하여 스케줄링과 GPU 실행의 파이프라이닝을 통한 throughput 향상

#vllm #Performance

2025년 12월 29일

[Open WebUI] xlsx 라이브러리 동적 로딩으로 번들 868KB 감소

정적 import를 dynamic import로 전환하여 초기 페이지 로딩 속도 개선

#Open WebUI #Bundle Size #Dynamic Import #Performance

2025년 12월 28일

[Open WebUI] YAML 라이브러리 동적 로딩으로 번들 130KB 감소

정적 import 대신 동적 import()로 yaml 라이브러리를 필요 시에만 로드하여 초기 번들 크기 절감.

#Open WebUI #TypeScript #Performance #Bundle Size #Code Splitting

2025년 12월 28일

[논문리뷰] UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture

본 연구는 Multimodal Large Language Models (MLLMs) 이 이미지의 미학, 품질, 구조, 텍스처와 같은 지각 수준의 특성을 이해하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Perceptual Understanding #Image Aesthetics #Image Quality #Image Structure #Image Texture #MLLM Benchmark #Visual Question Answering #Reward Model

2025년 12월 28일

[논문리뷰] TimeBill: Time-Budgeted Inference for Large Language Models

시간 제약이 있는 시스템(예: 로봇 공학, 자율 주행)에서 대규모 언어 모델(LLM)의 응답 성능을 유지하면서 주어진 시간 예산 내에 추론을 완료하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Inference #Time Budgeting #KV Cache Eviction #Response Length Prediction #Execution Time Estimation #Real-time AI #Performance Optimization

2025년 12월 28일

[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

이 논문은 기존 자동 슬라이드 생성 시스템이 사용자 선호도를 충분히 반영하지 못하여 만족스럽지 못한 결과물을 초래하는 문제를 해결하고자 합니다.

#Review #Personalized Slide Generation #Preference Learning #Large Language Models #Multimodal AI #Chain-of-Speech #Agentic Framework #Document-to-Slides

2025년 12월 28일

[논문리뷰] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

본 논문은 대규모 시각-언어 모델(VLM)이 미세한 시각적 증거(fine-grained visual evidence) 를 놓치고, 도메인 간 일반화 능력이 떨어지며, 추론 시 높은 비용을 유발하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Vision-Language Models (VLMs)#Perceptual Shaping #KL-Divergence #Chart Understanding #Data Augmentation #Reinforcement Learning (RL)#GRPO

2025년 12월 28일

[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents

본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.

#Review #Software Engineering Agents #Execution-free Feedback #Reward Model #Reinforcement Learning #Test-Time Scaling #Calibration #AUC #SWE-Bench

2025년 12월 28일

[논문리뷰] SVBench: Evaluation of Video Generation Models on Social Reasoning

현재 텍스트-투-비디오(T2V) 생성 모델이 시각적 사실성과 모션 충실도에서 발전했음에도 불구하고, 사회적으로 일관된 행동 을 생성하는 데 근본적인 한계가 있음을 지적합니다.

#Review #Video Generation #Social Reasoning #Benchmark #Evaluation #Agent-based Pipeline #Vision-Language Models #Social Cognition

2025년 12월 28일

[논문리뷰] ProEdit: Inversion-based Editing From Prompts Done Right

본 논문은 기존의 inversion-based visual editing 방법론들이 소스 이미지 정보를 과도하게 주입하여, 대상 이미지의 편집 영역에서 주체의 속성(자세, 수, 색상 등)을 제대로 수정하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Inversion-based Editing #Text-to-Image Editing #Text-to-Video Editing #Diffusion Models #Flow-based Models #Attention Mechanism #Latent Space Manipulation #Plug-and-Play

2025년 12월 28일

[논문리뷰] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding

기존의 날씨 모델들이 예측(예: nowcasting, inversion)과 이해(예: 진단적 추론, 질의응답) 태스크를 개별적으로 다루는 문제를 해결하고자 합니다.

#Review #Foundation Model #Multimodal AI #Weather Nowcasting #Radar Inversion #Weather Understanding #Chain-of-Thought #Shared Attention

2025년 12월 28일