최신 포스트

[pydantic-ai] 클라이언트 연결 해제 시 StopAsyncIteration 방지를 위한 aclosing 적용

_stream_text_deltas를 aclosing으로 감싸 클라이언트 중단 시 비동기 제너레이터가 올바르게 정리되도록 수정한 사례를 분석합니다.

#pydantic-ai #asyncio #Streaming #Bug Fix #Resource Management

2026년 2월 16일

[논문리뷰] Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

논문은 멀티모달 대규모 언어 모델(MLLMs)이 미세한 시각 정보를 인식하는 데 겪는 어려움, 즉 전역적 컨텍스트에 의해 중요한 세부 정보가 가려지는 문제를 해결하고자 합니다.

#Review #Multimodal Perception #Fine-Grained Analysis #Knowledge Distillation #Region-to-Image #MLLMs #ZoomBench #Reinforcement Learning

2026년 2월 15일

[논문리뷰] Xiaomi-Robotics-0: An Open-Sourced Vision-Language-Action Model with Real-Time Execution

본 논문은 대규모 VLA 모델의 높은 추론 지연 시간으로 인한 실시간 로봇 제어의 어려움과, 사전 학습된 VLM의 시각-의미론적 지식 손실(catastrophic forgetting) 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Real-Time Robotics #Diffusion Transformer #Flow Matching #Asynchronous Execution #Robot Manipulation #Pre-training #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis

본 논문은 시각적 추론을 위한 Vision-Language Model (VLM)에서 강화 학습(RL)이 실제로 어떤 능력을 향상시키는지에 대한 모호함을 해결하고자 합니다.

#Review #Reinforcement Learning #Visual Reasoning #Vision-Language Models #Causal Probing #Model Merging #Parameter Analysis #Transformer Layers #Functional Localization

2026년 2월 15일

[논문리뷰] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

이 연구는 기존 비디오-명령어 데이터가 불완전하고 세분화된 정보 및 신뢰성 있는 주석이 부족하여 범용적인 비디오 이해 MLLM 의 성능을 제약하는 문제를 해결하고자 합니다.

#Review #Video Understanding #Multimodal Large Language Models (MLLMs)#Instruction Tuning #Data Curation #Attribute-Structured Data #Quality Verification #Temporal Grounding #Video Captioning

2026년 2월 15일

[논문리뷰] Self-EvolveRec: Self-Evolving Recommender Systems with LLM-based Directional Feedback

기존 추천 시스템 코드 진화 프레임워크들이 스칼라 지표(NDCG, Hit Ratio)에만 의존하여 진단적 통찰력을 제공하지 못하고, 고정된 검색 공간에 갇혀 혁신을 제한한다는 문제를 해결하고자 합니다.

#Review #Recommender System #LLM-based Code Evolution #Directional Feedback #User Simulator #Model Diagnosis Tool #Agentic AI #AutoML

2026년 2월 15일

[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #LLM Agents #Tool-use #Scientific Reasoning #Benchmarking #Interactive Environment #Data Synthesis #Error Recovery #Multi-step Tasks

2026년 2월 15일

[논문리뷰] RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models

본 논문은 Vision-Language-Action (VLA) 모델 훈련 시, 시뮬레이션을 정적 데이터 소스로만 활용하고 폐쇄 루프 인터랙션을 충분히 활용하지 못하는 기존 Supervised Fine-Tuning (SFT) 기반 sim-real co-training의 한계를 극복하고자 합니다.

#Review #Reinforcement Learning #Sim-to-Real #Co-training #VLA Models #Robotic Manipulation #Supervised Fine-tuning #Catastrophic Forgetting

2026년 2월 15일

[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

본 논문은 현대 비전 아키텍처가 시각 신호의 본질적인 중복성과 변별 정보의 희소성을 효율적으로 다루지 못한다는 문제의식에서 출발합니다.

#Review #Multimodal AI #Video Understanding #Sparse Attention #Vision Transformer #Codec-Aligned Processing #Self-Supervised Learning #Predictive Coding #Efficient AI

2026년 2월 15일

[논문리뷰] On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

본 논문은 강화 학습(RL)으로 파인튜닝된 비전 언어 모델(VLM) 의 강건성(robustness) 및 사고 과정(Chain-of-Thought, CoT) 일관성 을 평가하는 것을 목표로 합니다.

#Review #VLM #RL Fine-tuning #Chain-of-Thought #Robustness #Faithfulness #Textual Perturbations #Visual Grounding #Uncertainty Calibration

2026년 2월 15일

[논문리뷰] MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

본 논문은 실세계 임상 애플리케이션에서 일반 목적의 의료 이해 및 추론을 발전시키기 위한 MedXIAOHE 라는 의료 비전-언어 파운데이션 모델을 제안합니다.

#Review #Medical LLMs #Multimodal Foundation Models #Continual Pre-training #Entity-Aware Learning #Reinforcement Learning #Medical Diagnosis #Instruction Following #Unified Benchmarking

2026년 2월 15일

[논문리뷰] Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

대규모 언어 모델(LLM)의 후처리 훈련에서 데이터 다양성이 중요함에도 불구하고, 기존 텍스트 기반 또는 일반 임베딩 기반 다양성 지표는 태스크 관련 특징을 제대로 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Data Synthesis #LLMs #Feature Space #Sparse Autoencoders #Diversity Metrics #Post-Training #Instruction Tuning #Feature Activation Coverage

2026년 2월 15일

[논문리뷰] Learning Image-based Tree Crown Segmentation from Enhanced Lidar-based Pseudo-labels

본 연구는 항공 이미지에서 나무 수관을 자동으로 분할하고 구분하는 데 있어 텍스처 및 부분적 겹침으로 인한 어려움을 해결하고자 합니다.

#Review #Instance Segmentation #Tree Crown Delineation #Remote Sensing #Lidar Data #Multispectral Imagery #Pseudo-labeling #Segment Anything Model (SAM)#Deep Learning

2026년 2월 15일

[논문리뷰] Intelligent AI Delegation

본 논문은 기존 AI 태스크 분해 및 위임 방식의 한계(단순한 휴리스틱, 환경 변화에 대한 취약성)를 극복하고자 합니다.

#Review #AI Delegation #Multi-agent Systems #Task Decomposition #Agentic AI #Trust & Safety #LLM #Adaptive Coordination

2026년 2월 15일

[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

기존 VLLM 기반 지리 위치 추정(geolocation) 모델이 AI 생성 CoT 데이터의 불완전성, 비합리적인 학습 전략, 지역적 편향, 그리고 미세한 위치 주석 부족으로 인해 겪는 한계를 해결하고자 합니다.

#Review #Geolocation #Reinforcement Learning #Vision-Language Models #Chain-of-Thought #Geospatial AI #Dataset #Reward Function

2026년 2월 15일

[논문리뷰] FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

본 논문은 Diffusion Models 및 Flow Matching 과 같은 반복적인 생성 정책(iterative generative policies)을 Maximum Entropy Reinforcement Learning (Max-Ent RL) 과 결합할 때 발생하는 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Maximum Entropy RL #Kinetic Energy Regularization #Schrödinger Bridge #Generative Policies #Flow Matching #Actor-Critic

2026년 2월 15일

[논문리뷰] DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

본 연구는 고도로 전문화된 CUDA 커널 생성 태스크에서 diffusion large language models (dLLMs) 의 잠재력을 탐색하고, 이 분야의 고품질 학습 데이터 부족 및 dLLM의 적합성 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion LLM #CUDA Kernel Generation #Reinforcement Learning #Code Generation #High-Performance Computing #Bi-phase Curated RL #CuKe Dataset

2026년 2월 15일

[논문리뷰] CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

기존 Video Language Models (VideoLMs)의 밀집 RGB 프레임 인코딩으로 인한 높은 계산 오버헤드 및 희소 키프레임 샘플링으로 인한 제한적인 시간 범위 문제를 해결하는 것이 목표입니다.

#Review #Video Language Models #Codec Primitives #Efficient Tokenization #Motion Vectors #Residuals #Temporal Reasoning #Long-Context Understanding #Video Compression

2026년 2월 15일

[논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models

본 논문은 리소스 제약이 있는 환경에서 LLM 추론의 메모리 및 대역폭 병목 현상을 해결하기 위한 양자화 기술에 초점을 맞춥니다.

#Review #Quantization #Large Language Models #Post-Training Quantization #Bit-Plane Decomposition #Variable Quantization Grid #Low-Bit Quantization #Model Compression #Hessian-Induced Geometry

2026년 2월 15일

[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.

#Review #Robotic Manipulation #Vision-Language-Action (VLA)#Foundation Models #Action Manifold Learning #Diffusion Transformers #Data Curation #Embodied AI

2026년 2월 15일