[논문리뷰] RLinf-Co: Reinforcement Learning-Based Sim-Real Co-Training for VLA Models본 논문은 Vision-Language-Action (VLA) 모델 훈련 시, 시뮬레이션을 정적 데이터 소스로만 활용하고 폐쇄 루프 인터랙션을 충분히 활용하지 못하는 기존 Supervised Fine-Tuning (SFT) 기반 sim-real co-training의 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Sim-to-Real#Co-training#VLA Models#Robotic Manipulation#Supervised Fine-tuning#Catastrophic Forgetting2026년 2월 15일댓글 수 로딩 중
[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence본 논문은 현대 비전 아키텍처가 시각 신호의 본질적인 중복성과 변별 정보의 희소성을 효율적으로 다루지 못한다는 문제의식에서 출발합니다.#Review#Multimodal AI#Video Understanding#Sparse Attention#Vision Transformer#Codec-Aligned Processing#Self-Supervised Learning#Predictive Coding#Efficient AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs본 논문은 강화 학습(RL)으로 파인튜닝된 비전 언어 모델(VLM) 의 강건성(robustness) 및 사고 과정(Chain-of-Thought, CoT) 일관성 을 평가하는 것을 목표로 합니다.#Review#VLM#RL Fine-tuning#Chain-of-Thought#Robustness#Faithfulness#Textual Perturbations#Visual Grounding#Uncertainty Calibration2026년 2월 15일댓글 수 로딩 중
[논문리뷰] MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs본 논문은 실세계 임상 애플리케이션에서 일반 목적의 의료 이해 및 추론을 발전시키기 위한 MedXIAOHE 라는 의료 비전-언어 파운데이션 모델을 제안합니다.#Review#Medical LLMs#Multimodal Foundation Models#Continual Pre-training#Entity-Aware Learning#Reinforcement Learning#Medical Diagnosis#Instruction Following#Unified Benchmarking2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs대규모 언어 모델(LLM)의 후처리 훈련에서 데이터 다양성이 중요함에도 불구하고, 기존 텍스트 기반 또는 일반 임베딩 기반 다양성 지표는 태스크 관련 특징을 제대로 포착하지 못하는 문제를 해결하고자 합니다.#Review#Data Synthesis#LLMs#Feature Space#Sparse Autoencoders#Diversity Metrics#Post-Training#Instruction Tuning#Feature Activation Coverage2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Learning Image-based Tree Crown Segmentation from Enhanced Lidar-based Pseudo-labels본 연구는 항공 이미지에서 나무 수관을 자동으로 분할하고 구분하는 데 있어 텍스처 및 부분적 겹침으로 인한 어려움을 해결하고자 합니다.#Review#Instance Segmentation#Tree Crown Delineation#Remote Sensing#Lidar Data#Multispectral Imagery#Pseudo-labeling#Segment Anything Model (SAM)#Deep Learning2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Intelligent AI Delegation본 논문은 기존 AI 태스크 분해 및 위임 방식의 한계(단순한 휴리스틱, 환경 변화에 대한 취약성)를 극복하고자 합니다.#Review#AI Delegation#Multi-agent Systems#Task Decomposition#Agentic AI#Trust & Safety#LLM#Adaptive Coordination2026년 2월 15일댓글 수 로딩 중
[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics기존 VLLM 기반 지리 위치 추정(geolocation) 모델이 AI 생성 CoT 데이터의 불완전성, 비합리적인 학습 전략, 지역적 편향, 그리고 미세한 위치 주석 부족으로 인해 겪는 한계를 해결하고자 합니다.#Review#Geolocation#Reinforcement Learning#Vision-Language Models#Chain-of-Thought#Geospatial AI#Dataset#Reward Function2026년 2월 15일댓글 수 로딩 중
[논문리뷰] FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching본 논문은 Diffusion Models 및 Flow Matching 과 같은 반복적인 생성 정책(iterative generative policies)을 Maximum Entropy Reinforcement Learning (Max-Ent RL) 과 결합할 때 발생하는 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Maximum Entropy RL#Kinetic Energy Regularization#Schrödinger Bridge#Generative Policies#Flow Matching#Actor-Critic2026년 2월 15일댓글 수 로딩 중
[논문리뷰] DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels본 연구는 고도로 전문화된 CUDA 커널 생성 태스크에서 diffusion large language models (dLLMs) 의 잠재력을 탐색하고, 이 분야의 고품질 학습 데이터 부족 및 dLLM의 적합성 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion LLM#CUDA Kernel Generation#Reinforcement Learning#Code Generation#High-Performance Computing#Bi-phase Curated RL#CuKe Dataset2026년 2월 15일댓글 수 로딩 중
[논문리뷰] CoPE-VideoLM: Codec Primitives For Efficient Video Language Models기존 Video Language Models (VideoLMs)의 밀집 RGB 프레임 인코딩으로 인한 높은 계산 오버헤드 및 희소 키프레임 샘플링으로 인한 제한적인 시간 범위 문제를 해결하는 것이 목표입니다.#Review#Video Language Models#Codec Primitives#Efficient Tokenization#Motion Vectors#Residuals#Temporal Reasoning#Long-Context Understanding#Video Compression2026년 2월 15일댓글 수 로딩 중
[논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models본 논문은 리소스 제약이 있는 환경에서 LLM 추론의 메모리 및 대역폭 병목 현상을 해결하기 위한 양자화 기술에 초점을 맞춥니다.#Review#Quantization#Large Language Models#Post-Training Quantization#Bit-Plane Decomposition#Variable Quantization Grid#Low-Bit Quantization#Model Compression#Hessian-Induced Geometry2026년 2월 15일댓글 수 로딩 중
[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.#Review#Robotic Manipulation#Vision-Language-Action (VLA)#Foundation Models#Action Manifold Learning#Diffusion Transformers#Data Curation#Embodied AI2026년 2월 15일댓글 수 로딩 중
[pydantic-ai] xAI 프로바이더에서 gRPC 이벤트 루프 불일치 버그 수정xAI AsyncClient가 생성 시점과 다른 이벤트 루프에서 사용될 때 발생하는 RuntimeError를 지연 생성 패턴으로 해결한 사례를 분석합니다.#pydantic-ai#xAI#gRPC#asyncio#Bug Fix2026년 2월 14일댓글 수 로딩 중
[Ray RLlib] 커넥터 최적화: 벌크 데이터 추출과 리스트 연산 개선Ray RLlib의 학습 커넥터에서 타임스텝별 개별 추출을 벌크 추출로, append 루프를 extend로 변경하여 데이터 처리 성능을 개선한 PR을 분석합니다.#Ray#RLlib#Performance#Python#Connector#Reinforcement Learning2026년 2월 13일댓글 수 로딩 중
[Ray Serve] Pack 스케줄링 최적화: O(replicas x total_replicas)에서 O(replicas x nodes)로Ray Serve의 pack 스케줄링 전략에서 레플리카마다 전체 리소스를 재계산하던 O(N^2) 로직을 사전 계산 + 증분 업데이트로 변경하여 대규모 배포 성능을 크게 개선한 PR을 분석합니다.#Ray#Ray Serve#Performance#Scheduling#Python#Optimization2026년 2월 13일댓글 수 로딩 중
[Grafana Loki] batchDecoratorReader에서 읽기 에러 시 패닉을 방지하는 수정레코드 배치 데코레이터가 non-EOF 에러에서 스키마 불일치로 패닉하던 문제를 수정하고, 항상 데코레이션 로직을 적용하도록 변경한 분석.#Grafana Loki#Go#Error Handling#Panic#Arrow#Data Pipeline2026년 2월 13일댓글 수 로딩 중
[Loki] Rate Batcher 도입으로 UpdateRates RPC 호출 대폭 감소O(D*P)/초의 RPC를 O(P)/30초로 배치하여 프론트엔드 부하 최소화#Loki#Performance2026년 2월 12일댓글 수 로딩 중
[논문리뷰] χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies본 논문은 장시간 로봇 조작 태스크에서 발생하는 분포 불일치(distributional inconsistencies) 문제를 해결하여 생산 수준의 로봇 강건성(robustness)을 달성하는 것을 목표로 합니다.#Review#Robotic Manipulation#Distributional Shift#Imitation Learning#Model Arithmetic#Stage Advantage#Train-Deploy Alignment#Resource-Efficient AI#Long-Horizon Tasks2026년 2월 12일댓글 수 로딩 중
[논문리뷰] dVoting: Fast Voting for dLLMs본 논문은 확산 대규모 언어 모델( dLLMs )의 추론 능력을 훈련 없이 향상시키면서 기존 테스트 시간 스케일링 기법의 비효율성으로 인한 높은 추론 비용 문제를 해결하는 것을 목표로 합니다. 특히, dLLMs의 유연한 디코딩 프로세스를 활용하여 병렬 테스트 시간 스케일링의 잠재력을 최대한 발휘하고자 합니다.#Review#dLLMs#Diffusion Models#Test-Time Scaling#Voting#Reasoning#Masked Language Models#Parallel Decoding#Remasking2026년 2월 12일댓글 수 로딩 중