최신 포스트

[Triton] Gluon Dialect verifier 강화 및 에러 메시지 개선

NVMMASharedEncoding 검증, TMA 함수 verifier 추가, DotOpMMASmemLoader를 fallible하게 변경하여 illegal instruction 방지

#Triton #Gluon #MLIR #Verifier #Error Handling

2025년 12월 14일

[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지

AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.

#Triton #AMD #Warp Pipeline #Gluon #LLVM #GPU Optimization

2025년 12월 11일

[논문리뷰] VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

멀티모달 이해, 생성 및 재구성 표현을 단일 토크나이저 내에서 통합하는 핵심 과제를 해결하고자 합니다. 기존의 듀얼 인코더 방식의 복잡성과 이산형 토크나이저의 의미 이해 능력 저하 문제를 극복하고, 연속형 의미 특징 과 이산형 미세 토큰 을 동시에 생성할 수 있는 통합 토크나이저를 제안하는 것이 목표입니다.

#Review #Multimodal Learning #Vector Quantization #Autoencoder #Unified Tokenizer #Image Generation #Image Reconstruction #Vision Transformers #Semantic Features

2025년 12월 11일

[논문리뷰] Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

본 논문은 기존 MLLM(Multimodal Large Language Models) 이 복잡한 VideoQA(Video Question Answering) 태스크에서 시공간적 관계 모델링 및 시간적 진화의 인과적 역학을 이해하는 데 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #VideoQA #MLLMs #Tool Learning #Spatiotemporal Reasoning #Video Toolkit #Agentic AI

2025년 12월 11일

[논문리뷰] Thinking with Images via Self-Calling Agent

본 논문은 희소한 고품질 추론 데이터로 인해 강화 학습을 통한 MLLM의 Interleaved Multimodal Chain-of-Thought (iMCoT) 최적화가 어렵다는 문제점을 해결하고자 합니다.

#Review #Multimodal LLMs #Self-Calling Chain-of-Thought #Reinforcement Learning #Visual Reasoning #Agentic AI #Tool Calling #Group Relative Policy Optimization

2025년 12월 11일

[논문리뷰] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

이 논문은 대규모 언어 모델(LLM)이 다양한 시나리오에서 사실적으로 정확한 텍스트를 생성하는 능력을 포괄적으로 평가하기 위한 새로운 온라인 리더보드 스위트인 The FACTS Leaderboard 를 소개합니다.

#Review #LLM Evaluation #Factuality Benchmark #Multimodal AI #Knowledge Grounding #Parametric Knowledge #Retrieval Augmented Generation #Automated Scoring

2025년 12월 11일

[논문리뷰] T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

논문은 러시아어 오픈소스 LLM의 한계, 특히 추론 능력과 효율적인 추론을 위한 통합 생태계의 부재를 해결하고자 합니다.

#Review #Russian LLM #Hybrid Reasoning #Speculative Decoding #Cyrillic Tokenizer #Instruction Tuning #Reward Modeling #T-Math Benchmark

2025년 12월 11일

[논문리뷰] Stronger Normalization-Free Transformers

본 논문은 트랜스포머 아키텍처에서 필수적이었던 정규화 계층(Normalization Layers)의 의존성을 제거 하고, 단순히 기존 정규화 계층의 성능에 필적하는 것을 넘어 이를 능가하는 새로운 점별 함수(point-wise function)를 발견 하는 것을 목표로 합니다.

#Review #Normalization-Free Transformers #Point-wise Functions #Error Function #Deep Learning #Transformer Architecture #Generalization #Normalization Layers

2025년 12월 11일

[논문리뷰] ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

본 논문은 강력한 Vision-Language Model (VLM) 을 탑재한 최신 비디오 통합 모델들이 추론 기반 시각 편집(reason-informed visual editing) 에서 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Video Editing #Reasoning #Unified Models #Self-Reflective Learning #Vision-Language Models (VLMs)#Diffusion Models #RVE-Bench

2025년 12월 11일

[논문리뷰] OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

본 논문은 대규모 언어 모델(LLMs)이 생성하는 길고 복잡한 CoT(Chain-of-Thought) 추론 과정의 신뢰할 수 없는 중간 단계를 효율적으로 검증하는 문제를 해결하고자 합니다.

#Review #LLM Verification #Chain-of-Thought #Process-based Verifier #Outcome-based Verifier #Active Learning #Reinforcement Learning #Mathematical Reasoning #AI Alignment

2025년 12월 11일

[논문리뷰] MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

본 논문은 기존 모션 캡처 파이프라인의 종(species) 또는 템플릿(template) 의존성 문제를 해결하고, 단일 모노큘러 비디오에서 임의의 리깅된 3D 에셋(asset) 에 대한 카테고리 불가지론적 모션 캡처(CAMoCap) 를 달성하는 것을 목표로 합니다.

#Review #3D Motion Capture #Monocular Video #Arbitrary Skeletons #Motion Retargeting #Deep Learning #Inverse Kinematics #Transformer Architecture #Category-Agnostic

2025년 12월 11일

[논문리뷰] MOA: Multi-Objective Alignment for Role-Playing Agents

본 논문은 역할극 에이전트(RPA)가 다중 턴 지시 따르기, 도메인 지식 습득, 일관된 언어 스타일 유지 등 여러 상충하는 기술들을 동시에 습득해야 하는 문제를 해결하고자 합니다.

#Review #Role-Playing Agents #Multi-Objective Reinforcement Learning #LLM Alignment #Persona Consistency #Dialogue Generation #Reward Shaping #Off-Policy Guidance

2025년 12월 11일

[논문리뷰] Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

본 논문은 대규모 추론 모델(LRM)이 국제 수학 올림피아드(IMO) 수준의 초고난도 수학 문제를 해결하는 데 있어 긴 컨텍스트 길이의 제약 으로 인해 발생하는 병목 현상을 극복하는 것을 목표로 합니다.

#Review #Mathematical Reasoning #Long-Horizon Reasoning #Multi-Agent System #Reinforcement Learning #Olympiad Problems #Lemma Memory #Context Length #OREAL-H

2025년 12월 11일

[논문리뷰] H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

본 논문은 일상적인 인간-객체 상호작용 비디오를 물리적으로 접지된 로봇 조작 비디오 로 변환하여 로봇이 인간 비디오로부터 조작 기술을 학습할 수 있도록 하는 것을 목표로 합니다.

#Review #Video-to-Video Translation #Robot Learning #Human-Robot Transfer #Diffusion Models #Unpaired Data Learning #Pose-Guided Generation #Embodiment Gap Bridging

2025년 12월 11일

[논문리뷰] From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models

본 논문은 눈에 보이지 않는 미세한 엔티티(원자, 분자)의 공간적 관계를 인식하고 추론하는 능력인 MiSI (Microscopic Spatial Intelligence) 개념을 도입하고, Vision-Language Models (VLMs) 의 해당 도메인 잠재력을 평가하는 것을 목표로 합니다.

#Review #Vision-Language Models #Microscopic Spatial Intelligence #Molecular Structures #Benchmarking #PDBbind Dataset #Spatial Reasoning #Drug Discovery

2025년 12월 11일

[논문리뷰] Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents

본 논문은 복잡한 인터랙티브 태스크에서 LLM 에이전트가 직면하는 프라이버시 제약으로 인해 중앙 집중식 최적화 및 동적 환경 간 공동 진화가 어려운 문제를 해결하고자 합니다.

#Review #Federated Learning (FL)#LLM Agents #Self-Evolution #Privacy-Preserving #Multi-Environment #Parameter-Efficient Fine-Tuning #Low-Rank Aggregation #Reinforcement Learning

2025년 12월 11일

[논문리뷰] Evaluating Gemini Robotics Policies in a Veo World Simulator

이 논문은 현실감, 확장성, 안전성 측면에서 기존 물리 기반 시뮬레이터가 가진 한계를 극복하고, 제너럴리스트 로봇 정책 평가를 위한 새로운 방법론을 제시합니다.

#Review #Robotics #Policy Evaluation #World Model #Video Generation #Out-of-Distribution (OOD)#Safety #Gemini Robotics #Veo Simulator

2025년 12월 11일

[논문리뷰] Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale

본 논문은 산업 규모의 저장소에서 작동할 수 있는 오픈소스 AI 소프트웨어 엔지니어인 Confucius Code Agent (CCA) 를 제시하여, 기존 오픈소스 에이전트의 확장성 및 장기 컨텍스트/메모리 한계를 극복하고, 독점 에이전트의 투명성, 확장성, 제어 가능성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #AI Agent #Software Engineering #Open-Source #LLM #Orchestrator #Context Management #Long-term Memory #Meta-agent

2025년 12월 11일

[논문리뷰] Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

텍스트-3D 자동회귀(autoregressive) 생성 모델에 강화 학습(RL) 을 체계적으로 적용하고 그 효과를 분석하는 것을 목표로 합니다. 특히, 3D 객체의 복잡한 기하학적 구조와 미세한 질감을 고려하여 보상 설계 와 RL 알고리즘 선택 이 3D 생성 성능에 미치는 영향을 심층적으로 탐구합니다.

#Review #Reinforcement Learning #Text-to-3D Generation #Autoregressive Models #Reward Modeling #Hierarchical RL #3D Benchmarking #ShapeLLM-Omni

2025년 12월 11일

[논문리뷰] Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

이 논문은 대규모 언어 모델(LLM) 에이전트가 국제 수학 올림피아드(IMO) 수준의 기하학 문제 를 해결하는 데 있어 기존 전문가 시스템의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Agents #Geometry Problem Solving #Reinforcement Learning #Curriculum Learning #Auxiliary Construction #Symbolic Reasoning #IMO

2025년 12월 11일