[논문리뷰] MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning본 논문은 기존의 ReAct나 Chain-of-Thought (CoT)와 같은 에이전트 패러다임이 가진 환경 인식의 시간적 역전 문제를 해결하고자 한다 .#Review#LLM Agent#Long-Horizon#Cognitive Map#Affordance Theory#Epistemic Bottleneck#Interactive Agent#Environment Understanding2026년 5월 13일댓글 수 로딩 중
[논문리뷰] M2Retinexformer: Multi-Modal Retinexformer for Low-Light Image Enhancement본 논문은 기존의 Retinex 기반 딥러닝 기법들이 RGB 정보에만 의존하여 장면의 기하학적 구조나 조명 분포를 효과적으로 해석하지 못한다는 한계를 해결하고자 합니다.#Review#Low-light Image Enhancement#Retinex Theory#Multi-modal Learning#Transformer#Cross-attention#Depth Estimation#Semantic Features2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Learning Agentic Policy from Action Guidance본 논문은 Agentic RL에서 기반 모델의 탐색 능력이 부족할 때 발생하는 학습 정체 문제를 해결하고자 합니다. 기존의 Agentic RL은 보상 상태가 모델의 'In-capability region'을 벗어난 경우, 유효한 학습 신호를 얻지 못해 훈련이 중단되는 구조적 한계를 가집니다 .#Review#Agentic Reinforcement Learning#Action Guidance#Reachability Barrier#Minimal Intervention#Mixed-Policy Optimization2026년 5월 13일댓글 수 로딩 중
[논문리뷰] HAGE: Harnessing Agentic Memory via RL-Driven Weighted Graph Evolution본 논문은 기존의 에이전트 메모리 시스템이 정적인 검색(Static Lookup)이나 고정된 휴리스틱 그래프 탐색에 의존하여 장기 기억 활용의 효율성이 저하되는 문제를 해결하고자 합니다.#Review#Agentic Memory#Graph-based Retrieval#Reinforcement Learning#Query-Conditioned Traversal#Multi-Relational Graph#Memory-Augmented Generation2026년 5월 13일댓글 수 로딩 중
[논문리뷰] From Pixels to Concepts: Do Segmentation Models Understand What They Segment?본 논문은 최신 promptable segmentation 모델들이 시각적 살점(salient cues)에 과도하게 의존하여 semantically invalid한 프롬프트에도 정확한 마스크를 생성하는 '개념적 기반(concept-faithful grounding)'의 결여 문제를 해결하고자 합니다 .#Review#Promptable Segmentation#Counterfactual Evaluation#Semantic Grounding#Visual Hallucination#Multimodal Reasoning#Open-Vocabulary Segmentation2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Frequency Bias and OOD Generalization in Neural Operators under a Variable-Coefficient Wave Equation본 논문은 Neural Operator가 학습 분포 내(In-Distribution)에서는 뛰어난 성능을 보이지만, 물리적으로 구조화된 분포 변화(Structured distribution shifts)가 발생할 때 어떻게 일반화되는지에 대한 근본적인 의문을 해결하고자 합니다.#Review#Neural Operator#Operator Learning#Frequency Bias#Out-of-Distribution#PDE#Wave Equation2026년 5월 13일댓글 수 로딩 중
[논문리뷰] FrameSkip: Learning from Fewer but More Informative Frames in VLA Training본 논문은 기존 VLA 모델 학습 과정에서 무분별하게 모든 프레임을 동일한 비중으로 사용하는 'Temporal supervision imbalance' 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Robot Manipulation#Frame Selection#Temporal Supervision#Data Curation#Policy Learning#Embodied AI2026년 5월 13일댓글 수 로딩 중
[논문리뷰] FeatCal: Feature Calibration for Post-Merging Models모델 병합(Model Merging)은 공동 학습(joint training)이나 개별 배포 없이 여러 task expert의 능력을 통합할 수 있는 효율적인 방법이지만, 병합된 모델이 원본 expert 모델보다 성능이 떨어지는 현상이 빈번하게 발생한다.#Review#Model Merging#Feature Drift#Calibration#Closed-form Solution#Feature Calibration#Forward-order Schedule2026년 5월 13일댓글 수 로딩 중
[논문리뷰] F-GRPO: Factorized Group-Relative Policy Optimization for Unified Candidate Generation and Ranking본 논문은 LLM 기반의 검색 및 추천 시스템에서 발생하는 결합된 list-to-rank 최적화 문제를 해결하고자 한다. 기존의 Black-box LLM 접근법은 후보군 생성과 순위 결정을 단일 결과물로 출력하여 두 과정 간의 기여도를 명확히 구분하지 못하는 한계가 있다.#Review#LLM#Reinforcement Learning#Retrieval & Ranking#GRPO#Factorized Policy#Sequential Recommendation#Multi-hop Question Answering2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.#Review#Image Editing#Reward Modeling#Benchmark#Multimodal Large Language Models#Reinforcement Learning#Visual Reasoning2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Context Training with Active Information Seeking본 논문은 LLM이 배포 후 새로운 정보나 전문 지식이 필요한 상황에서 겪는 적응력의 한계를 해결하기 위해 제안되었습니다. 기존의 closed-loop Context Training 방식은 모델의 내재된 지식에만 의존하므로, 모델이 모르는 외부 지식을 스스로 발견하거나 수정하는 데 결정적인 한계가 있습니다.#Review#Context Training#Active Information Seeking#Beam Search#Working Memory#LLM Optimization#Context Pollution#Generalization2026년 5월 13일댓글 수 로딩 중
[논문리뷰] AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation본 논문은 기존 consistency distillation 기반 모델들이 고정된 NFE budgets에 종속되어 sampling step이 증가할 때 오히려 성능이 저하되는 구조적 한계를 해결하기 위해 AnyFlow를 제안한다.#Review#Video Diffusion Models#Flow Map#Any-Step Distillation#On-Policy Distillation#Test-Time Scaling#Backward Simulation#Causal Video Generation2026년 5월 13일댓글 수 로딩 중
[pydantic-ai] Pydantic AI, 도구 검색 기능 도입으로 에이전트의 도구 관리 혁신Pydantic AI가 네이티브 도구 검색과 사용자 정의 전략을 도입하여 대규모 도구 세트 관리를 최적화합니다.#Pydantic AI#Agent#Tool Management#Optimization#LLM2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor 최적화 도입vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor를 도입하여 Intel XPU의 2D 블록 읽기 성능을 향상시킵니다.#vLLM#Triton#Optimization#Deep Learning#LLM2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM XPU 가속을 위한 MXFP4 W4A4 GEMM 커널 도입 분석vLLM의 XPU 플랫폼 지원 확대를 위해 MXFP4 양자화 형식을 지원하는 전용 GEMM 커널 추가 및 최적화 과정을 살펴봅니다.#vLLM#XPU#MXFP4#Quantization#GEMM#Performance2026년 5월 13일댓글 수 로딩 중
[flashinfer] FlashInfer Mamba SSU 커널 최적화: Async State Prefetching과 Vectorized Load를 통한 성능 혁신FlashInfer의 Mamba SSU 커널이 Async State Prefetching, Vectorized Load 등으로 극적인 성능 향상을 이루었습니다.#FlashInfer#Mamba#SSU#Kernel Optimization#Triton#CUDA#Performance2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM ROCm 환경에서 AITER를 활용한 Multi-Head Convolutions(MHC) 성능 최적화 및 안정성 개선vLLM ROCm 환경에서 AITER 커널을 통합하여 MHC 연산 성능을 크게 향상시키고, Tilelang 의존성을 제거하여 안정성을 높인 PR 분석#vLLM#ROCm#AITER#MHC#Performance Optimization#Bugfix#DeepSeek V42026년 5월 13일댓글 수 로딩 중
[논문리뷰] δ-mem: Efficient Online Memory for Large Language Models본 연구는 LLM이 장기적인 대화와 에이전트 작업에서 과거 이력을 효과적으로 누적하고 재사용하지 못하는 문제를 해결하고자 합니다. 기존의 방식인 Context Window 확장은 연산 복잡도가 Quadratic하게 증가하고, 정보 누락이나 Context rot 현상이 발생하는 한계가 있습니다.#Review#Large Language Models#Online Memory#Associative Memory#Low-rank Correction#Delta-rule Learning#Attention Mechanism2026년 5월 12일댓글 수 로딩 중
[논문리뷰] WildRelight: A Real-World Benchmark and Physics-Guided Adaptation for Single-Image Relighting본 논문은 최신 생성형 모델 기반의 싱글 이미지 리라이팅 기법들이 합성 데이터셋에서는 우수한 성능을 보이지만, 실제 환경(in-the-wild)에서의 성능은 크게 검증되지 않았다는 문제 의식에서 출발한다.#Review#Single-Image Relighting#Dataset#Inverse Rendering#Diffusion Posterior Sampling#Test-Time Adaptation#Sim-to-Real2026년 5월 12일댓글 수 로딩 중
[논문리뷰] The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes본 연구는 OPD와 OPSD가 시스템 프롬프트 및 지식 내재화에는 효과적이나, 최근 연구들에서 보고된 학습 불안정성(instability) 및 성능 저하(degradation) 문제를 근본적으로 규명하고자 합니다.#Review#On-Policy Distillation#Self-Distillation#Language Models#Reverse-KL#Privileged Information#Optimization Stability#RLVR2026년 5월 12일댓글 수 로딩 중