[논문리뷰] OpenClaw-RL: Train Any Agent Simply by Talking본 논문은 AI 에이전트가 사용자 피드백, 툴 실행 결과, GUI 상태 변화 등 '다음 상태 신호(next-state signals)' 를 통해 실시간으로 지속적인 학습을 수행하도록 하는 프레임워크를 제안합니다.#Review#Reinforcement Learning (RL)#Agentic AI#Online Learning#Next-State Signals#Process Reward Models (PRM)#On-Policy Distillation (OPD)#Multi-Modal Agents2026년 3월 11일댓글 수 로딩 중
[논문리뷰] MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents본 논문은 여러 embodied AI 에이전트 로부터 동시에 수집된 다중의 장기 에고센트릭 비디오 를 이해하고 추론하는 새로운 문제를 해결하는 것을 목표로 합니다.#Review#Egocentric Vision#Multi-Agent Systems#Video Question Answering#Long-Horizon Reasoning#Embodied AI#Benchmark Dataset#Shared Memory#Dynamic Retrieval2026년 3월 11일댓글 수 로딩 중
[논문리뷰] LLM2Vec-Gen: Generative Embeddings from Large Language Models기존 입력 중심의 텍스트 임베딩 방식은 다양한 입력이 유사한 출력으로 매핑되어야 하는 '입력-출력 격차' 문제와 LLM의 안전성 및 추론 능력 전이의 한계를 가집니다.#Review#Large Language Models#Text Embeddings#Generative AI#Self-Supervised Learning#Knowledge Distillation#Semantic Search#Retrieval-Augmented Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Just-in-Time: Training-Free Spatial Acceleration for Diffusion TransformersDiffusion Transformers(DiT)의 높은 계산 비용, 특히 공간적 중복성으로 인한 실용적 배포의 어려움을 해결하는 것이 주요 목표입니다.#Review#Diffusion Transformers#Spatial Acceleration#Training-Free#Generative AI#Flow Matching#ODE Solvers#Inference Speedup#Resource Allocation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] In-Context Reinforcement Learning for Tool Use in Large Language Models본 논문은 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하도록 훈련할 때, 기존 SFT(Supervised Fine-Tuning) 기반 파이프라인의 높은 레이블링 데이터 비용 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Tool Use#In-Context Learning#Few-Shot Learning#SFT-free#Data Efficiency#Curriculum Learning2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Hindsight Credit Assignment for Long-Horizon LLM Agents본 논문은 Long-Horizon, Multi-Step 태스크에서 희소한 보상(Sparse Rewards) 으로 인해 LLM 에이전트 가 겪는 Credit Assignment 의 어려움을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Credit Assignment#Hindsight Credit Assignment#Policy Optimization#Sparse Rewards#Long-Horizon Tasks#Generative Verification2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Flash-KMeans: Fast and Memory-Efficient Exact K-Means본 논문은 기존 GPU 기반 K-평균 구현이 메모리 I/O 병목 현상 과 아토믹 쓰기 경합 으로 인해 온라인 시스템에서 비효율적이라는 문제를 해결하고자 합니다.#Review#K-Means Clustering#GPU Acceleration#Memory Optimization#IO-Aware Computing#Online Primitive#Hardware-Aware Algorithms#Contention-Free Operations#AI Workloads2026년 3월 11일댓글 수 로딩 중
[논문리뷰] EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation본 논문은 비디오 생성 모델(VGM) 이 생성하는 물리적으로 비현실적인 동작(physical hallucinations)과 픽셀-로봇 동작 변환(geometric retargeting) 에서 발생하는 누적 오류로 인해 zero-shot 로봇 조작 의 성공률이 낮은 문제를 해결하는 것을 목표로 합니다.#Review#Zero-Shot Manipulation#Video Generation Models#Vision-Language Models#Compositional Constraints#Robotics#Trajectory Optimization#Real-Robot Control2026년 3월 11일댓글 수 로딩 중
[논문리뷰] CodePercept: Code-Grounded Visual STEM Perception for MLLMs이 논문은 MLLMs 가 STEM (과학, 기술, 공학, 수학) 분야에서 시각적 추론에 실패하는 근본적인 원인이 인지 능력 부족인지 추론 능력 부족인지를 규명하는 데서 출발합니다. 연구의 핵심 목표는 MLLMs 의 시각적 인지 능력을 체계적으로 향상시키기 위해 실행 가능한 코드를 강력한 인지 매체로 확립하는 것입니다.#Review#Multimodal Large Language Models (MLLMs)#STEM Visual Reasoning#Code-Grounded Perception#Image-to-Code Translation#Data Generation#Benchmark#Reinforcement Learning#Matplotlib2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models기존 다중 에이전트 강화 학습(MARL), 특히 Policy-Space Response Oracles (PSRO) 에서 심층 강화 학습(DRL) 오라클 이 생성하는 '블랙박스' 신경망 정책의 불투명성 문제를 해결하고, 인간이 해석 가능한 정책 을 생성하는 새로운 프레임워크를 제시하는 것이 목표입니다.#Review#Multi-Agent Reinforcement Learning#Policy-Space Response Oracles#Large Language Models#Program Synthesis#Interpretable AI#Game Theory#Code Generation2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams본 논문은 실세계의 동적 환경에서 지식이 지속적으로 진화하거나 점진적으로 출현할 때 대규모 언어 모델(LLMs) 이 이에 적응하는 능력의 한계를 해결하고자 합니다.#Review#Online Adaptation#Continual Learning#Knowledge Streams#Large Language Models#Benchmarking#State Tracking#Retrieval Augmented Generation#Agentic Memory2026년 3월 11일댓글 수 로딩 중
[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization#Large Language Models (LLMs)#Generalization#Robustness#Reasoning Tasks2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning본 논문은 LLM(Large Language Model) 훈련 시 희소한 스칼라 보상에만 의존하여 발생하는 비효율적인 탐색 문제 를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Natural Language Feedback#Exploration#Group-Level Feedback#Self-Refinement#Sample Efficiency2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Any to Full: Prompting Depth Anything for Depth Completion in One Stage본 논문은 기존의 RGBD 융합 기반 깊이 완성(Depth Completion) 방법론들이 겪는 도메인 특이성 및 깊이 패턴 민감성 문제를 해결하고, 이단계 MDE 통합 접근 방식의 계산 오버헤드와 구조적 왜곡을 극복하는 것을 목표로 합니다.#Review#Depth Completion#Monocular Depth Estimation (MDE)#Prompt Learning#Domain Generalization#Pattern Agnostic#One-stage Learning#Robotic Perception#Scale Consistency2026년 3월 11일댓글 수 로딩 중
[Grafana Loki] 배치 처리를 파이프라인 래퍼로 분리하여 캐시 통합 준비실행기의 drain 로직에 섞여 있던 배치 처리를 독립 파이프라인으로 추출하여, 태스크 캐시 구현의 기반을 마련한 리팩터링 분석.#Grafana Loki#Go#Refactoring#Pipeline#Arrow2026년 3월 11일댓글 수 로딩 중
[PyTorch] Inductor MPS Metal 셰이더 half-precision 타입 불일치 수정Metal 셰이더 codegen에서 half 타입의 masked/where 연산 시 타입 불일치를 static_cast로 수정한다#PyTorch#MPS#Metal#Bug Fix2026년 3월 11일댓글 수 로딩 중
[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?기존 VLM 벤치마크들이 대부분 크고 명확한 시각적 차이에 집중하고 특정 도메인에 국한되어 미묘한 비교 추론 능력을 평가하기 어렵다는 문제점을 해결하고자 합니다.#Review#Vision-Language Models#Comparative Reasoning#Subtle Differences#Benchmark#Multi-modal AI#Image Comparison#VQA#Fine-grained Analysis2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Towards a Neural Debugger for Python본 논문은 개발자들이 실제로 디버거를 사용하는 비순차적 상호작용 방식을 모델링하는 '신경망 디버거(neural debuggers)' 개념을 도입합니다.#Review#Neural Debuggers#Python Execution Traces#Large Language Models (LLMs)#Markov Decision Process (MDP)#Program Understanding#Code Generation#Inverse Execution#CruxEval2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs본 논문은 복잡한 논리적 분해가 필요 없는 단순한 단일 홉 사실 질문에서 LLM의 추론이 어떻게 파라메트릭 지식 회상에 영향을 미치는지 밝히는 것을 목표로 합니다. 추론이 직관과 달리 모델의 지식 경계를 확장하는 메커니즘을 이해하고, 이를 통해 모델 정확도를 개선할 수 있는 실용적인 전략을 제시하고자 합니다.#Review#LLMs#Reasoning#Parametric Knowledge#Factual Recall#Hallucination#Computational Buffer#Factual Priming#Chain-of-Thought2026년 3월 10일댓글 수 로딩 중
[논문리뷰] The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness본 논문은 대규모 언어 모델(LLM)의 논리적 추론 능력 향상이 AI 시스템의 상황 인식(situational awareness)을 불가피하게 증대시키며, 이는 궁극적으로 전략적 기만(strategic deception) 과 같은 심각한 안전 위험으로 이어질 수 있음을 경고합니다.#Review#Logical Reasoning#Situational Awareness#LLMs#Deceptive Alignment#AI Safety#RAISE Framework#Self-Modeling#Deduction#Induction#Abduction2026년 3월 10일댓글 수 로딩 중