[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.#Triton#Compiler#Optimization#LLVM#GPU2026년 2월 6일댓글 수 로딩 중
[Triton] TMA im2col 모드 — LLVM Lowering 구현TMA im2col 시리즈의 다섯 번째 PR로, im2col descriptor 생성과 TMA 복사의 LLVM IR lowering을 구현한다#Triton#NVIDIA#TMA#im2col#LLVM#Compiler2026년 2월 6일댓글 수 로딩 중
[논문리뷰] V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval기존 MLLM 기반 검색 시스템이 정적 시각 인코딩에 의존하고 시각적 증거를 능동적으로 검증하지 못해 시각적으로 모호한 경우 추론 오류가 발생하는 문제를 해결하고자 합니다. 시각적 검사에 기반한 증거 기반 에이전트 추론 프로세스 를 통해 범용 멀티모달 검색의 정확성과 신뢰성을 향상시키는 것을 목표로 합니다.#Review#Multimodal Retrieval#Agentic AI#Large Language Models (LLMs)#Visual Tools#Chain-of-Thought (CoT)#Reinforcement Learning#Curriculum Learning#Evidence-Driven Reasoning2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning본 논문은 기존 MLLMs가 겪는 미세한 공간 이해 및 연속적인 행동 계획의 한계를 극복하고, 복잡한 시각적 추론을 위한 새로운 패러다임을 제시하는 것을 목표로 합니다.#Review#Video Generation#Visual Reasoning#Zero-Shot Generalization#Test-Time Scaling#Visual Context#Sequential Planning#Continuous Manipulation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] SwimBird: Eliciting Switchable Reasoning Mode in Hybrid Autoregressive MLLMs기존 MLLM(Multimodal Large Language Models)이 고정된 추론 패턴(텍스트 전용, 시각 전용, 시각-텍스트 혼합)과 시각적 사고(visual thought)의 고정된 길이로 인해 시각 집중 태스크에서 성능 저하 및 텍스트 기반 논리 추론 능력 손상을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Reasoning Modes#Hybrid Autoregressive#Latent Visual Reasoning#Dynamic Mode Selection#Supervised Fine-tuning#Vision-Language Tasks2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Steering LLMs via Scalable Interactive Oversight본 논문은 대규모 언어 모델(LLM)이 복잡하고 장기적인 태스크를 자동화함에 따라 발생하는 '감독 격차(supervision gap)' 문제를 해결하고자 합니다. 이는 비전문가 사용자가 충분한 도메인 전문성 없이 AI 시스템을 효과적으로 조종하고 복잡한 출력을 검증하기 어려운 문제를 지칭합니다.#Review#Scalable Oversight#Interactive AI#Large Language Models#Human-AI Collaboration#Product Requirement Documents#Reinforcement Learning#Structured Interaction#Vibe Coding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 보안 취약점을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Agent Security#Intrinsic Risk Sensing#Adaptive Defense#Hierarchical Screening#Attack Detection#S2Bench Benchmark2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Semantic Search over 9 Million Mathematical Theorems본 논문은 기존 검색 도구가 논문 단위로만 작동하여 특정 수학적 정리, 보조 정리, 명제 검색이 어려운 문제를 해결하고자 합니다. 대규모 수학적 정리 코퍼스에 대한 시맨틱 검색 시스템 을 구축하여, 연구자와 AI 에이전트가 특정 수학적 지식을 효율적으로 찾을 수 있도록 지원하는 것을 목표로 합니다.#Review#Semantic Search#Theorem Retrieval#LLMs#Dense Retrieval#Mathematical Information Retrieval#Vector Embeddings#Mathematical Dataset#RAG2026년 2월 5일댓글 수 로딩 중
[논문리뷰] SAGE: Benchmarking and Improving Retrieval for Deep Research Agents본 논문은 심층 연구 에이전트 워크플로우에서 LLM 기반 검색기 가 얼마나 효과적으로 기여할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.#Review#Deep Research Agents#Scientific Literature Retrieval#LLM-based Retrievers#Benchmarking#Test-time Scaling#Information Retrieval#Query Decomposition#RAG2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation#Large Language Models#Reasoning#Benchmark#Deep Search#Error Analysis#Scientific Problem Solving#Context Understanding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Reinforcement World Model Learning for LLM-based Agents대규모 언어 모델(LLM) 기반 에이전트가 현실 환경에서 행동 결과(action consequences)를 예측하고 환경 역학에 적응하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#LLM-based Agents#World Model Learning#Reinforcement Learning#Self-Supervised#Environment Dynamics#Sim-to-Real Reward#Textual States2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Reinforced Attention Learning본 논문은 기존 RL 기반 LLM 후처리 방식이 MLLM에서 시각적 추론을 위한 '생성할 내용'에만 초점을 맞추어 제한적인 성능 향상을 보이거나 심지어 성능을 저하시키는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Multimodal LLMs#Attention Mechanisms#Policy Gradient#Knowledge Distillation#Visual Grounding#Post-training2026년 2월 5일댓글 수 로딩 중
[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다.#Review#Video Generation#Implicit Reasoning#Benchmark#Evaluation#Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)2026년 2월 5일댓글 수 로딩 중
[논문리뷰] ProAct: Agentic Lookahead in Interactive EnvironmentsProAct는 인터랙티브 환경에서 LLM 에이전트가 겪는 긴 시퀀스 의사결정 문제, 특히 누적되는 시뮬레이션 오류 와 높은 분산의 가치 추정 으로 인한 한계를 극복하는 것을 목표로 합니다. 이를 통해 에이전트의 정확한 다중 턴 예측 능력 과 안정적인 정책 최적화 를 달성하고자 합니다.#Review#Agentic AI#Large Language Models#Reinforcement Learning#Lookahead Reasoning#Monte-Carlo Tree Search#Supervised Fine-Tuning#Value Estimation#Simulation Drift2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Multi-Task Learning#Reinforcement Learning#Policy Optimization#GRPO#Task Reweighting#Robustness#Reasoning Benchmarks2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Length-Unbiased Sequence Policy Optimization: Revealing and Controlling Response Length Variation in RLVR본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 GRPO 및 GSPO 와 같은 주류 알고리즘이 겪는 응답 길이 편향(length bias) 문제를 분석하고 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning with Verifiable Rewards#LLMs#Policy Optimization#Response Length Bias#Sequence-level Clipping#Length-Unbiased Optimization#Multimodal Reasoning2026년 2월 5일댓글 수 로딩 중
[논문리뷰] LatentMem: Customizing Latent Memory for Multi-Agent Systems본 논문은 LLM 기반 멀티 에이전트 시스템(MAS)의 메모리 설계가 겪는 두 가지 근본적인 문제, 즉 (i) 역할 인지적 맞춤화 부재로 인한 메모리 동질화 와 (ii) 과도하게 세분화된 메모리 항목으로 인한 정보 과부하 를 해결하고자 합니다.#Review#Multi-Agent Systems#LLM Memory#Latent Representation#Role-Aware#Token Efficiency#Policy Optimization#Continual Adaptation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions논문은 물리 기반 휴머노이드 로봇이 고수준의 목표만으로도 다양한 객체와 상호작용하는 복잡한 로코-조작(loco-manipulation) 행동을 생성하고 일반화하는 데 있어 기존 방법론의 확장성 및 견고성 한계를 해결하고자 합니다.#Review#Human-Object Interaction#Physics-Based Simulation#Generative Control#Reinforcement Learning#Imitation Learning#Variational Policy#Failure Recovery#Loco-Manipulation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Dr. Kernel: Reinforcement Learning Done Right for Triton Kernel Generations본 논문은 대규모 언어 모델(LLMs)을 활용하여 고품질 GPU 커널 코드를 생성하는 과정에서 발생하는 보상 해킹(reward hacking) 및 게으른 최적화(lazy optimization)와 같은 문제점을 해결하고, 실제 성능 향상으로 이어지는 견고한 강화 학습(RL) 방법론을 체계적으로 연구하는 것을 목표로 합니다.#Review#Reinforcement Learning#Kernel Generation#Triton#GPU Optimization#LLMs#Reward Hacking#Multi-turn Interaction#Code Generation2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long Context이 논문은 현재 자동회귀 비디오 생성 모델들이 짧은 컨텍스트 윈도우와 학생-교사 불일치로 인해 장기적인 일관성(forgetting-drifting dilemma)을 유지하기 어렵다는 문제를 해결하고자 합니다.#Review#Video Generation#Autoregressive Models#Long Context#Temporal Consistency#Diffusion Models#Context Forcing#Memory Management#Distribution Matching Distillation2026년 2월 5일댓글 수 로딩 중