최신 포스트

[논문리뷰] Adaptation of Agentic AI

본 논문은 급성장하는 에이전트 AI 시스템의 적응(adaptation) 연구 분야를 체계적인 프레임워크로 통합하고, 에이전트 적응과 툴 적응 모두를 포괄하는 통일된 관점을 제공하는 것을 목표로 합니다.

#Review #Agentic AI #Adaptation #Agent Adaptation #Tool Adaptation #Reinforcement Learning #Fine-tuning #Modular AI

2025년 12월 18일

[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and Videos

본 논문은 기존 멀티모달 대규모 언어 모델(MLLM)의 맹목적인 도구 사용(blind tool-use) 패턴으로 인한 추론 오버헤드 증가와 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Adaptive Tool-Use #Reinforcement Learning #Chain-of-Thought #Vision-Language Models #Visual Reasoning #AT-GRPO

2025년 12월 18일

[Triton] Gluon 검증 로직을 C++ verifier로 이동 — 차원 축소 로드 지원

Python assert 기반 검증을 C++ verifier로 이동하여 dimension-reducing load를 올바르게 지원한다

#Triton #Gluon #MLIR #Verifier #Refactoring

2025년 12월 18일

[Triton] Frontend에서 scaled batched matrix multiply 지원

dot_scaled의 shape 검증을 마지막 2차원 기준으로 변경하여 BMM 연산을 올바르게 처리

#Triton #Frontend #BMM #MXFP #Bug Fix

2025년 12월 18일

[Triton] AMD scf.if else 분기 누락 버그 수정 — deduceMinCountBetweeOps

scf.if에 else 영역이 없을 때 async wait count가 잘못 계산되는 버그 수정

#Triton #AMD #MLIR #Bug Fix #Compiler

2025년 12월 18일

[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석

Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.

#Triton #AMD #GEMM #GPU #Optimization

2025년 12월 18일

[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성

파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.

#Triton #NVIDIA #WGMMA #Pipeline #Optimization

2025년 12월 17일

[논문리뷰] WAY: Estimation of Vessel Destination in Worldwide AIS Trajectory

이 논문은 기존의 AIS 데이터 기반 선박 목적지 예측 모델 이 직면했던 ROI(관심 지역) 제약 , 불규칙한 시공간적 데이터 로 인한 편향 문제, 그리고 장거리 예측 능력 부족 을 해결하는 것을 목표로 합니다.

#Review #AIS data #vessel destination estimation #deep learning #transformer #channel attention #trajectory analysis #Gradient Dropout #maritime surveillance

2025년 12월 17일

[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

본 논문은 대규모 언어 모델(LLM)의 컨텍스트 창 확장과 관련된 계산 및 메모리 오버헤드 문제를 해결하기 위해 Vision-Text Compression (VTC) 패러다임을 탐구합니다.

#Review #Vision-Text Compression (VTC)#Long Context Understanding #Vision-Language Models (VLMs)#Benchmark #Information Retrieval #Associative Reasoning #Multimodal AI

2025년 12월 17일

[논문리뷰] Universal Reasoning Model

본 연구는 Universal Transformer (UT) 모델이 ARC-AGI 와 같은 복잡한 추론 태스크에서 성능 향상을 보이는 근본적인 원인을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Universal Transformer #Recurrent Neural Networks #ARC-AGI #Reasoning Tasks #Nonlinearity #Convolutional Gating #Truncated Backpropagation #Model Efficiency

2025년 12월 17일

[논문리뷰] Step-GUI Technical Report

논문은 GUI 자동화 분야에서 고품질 훈련 데이터를 효율적이고 신뢰성 있게 확보하는 근본적인 문제를 해결하고자 합니다. 또한, 이종 기기 간의 표준화된 인터페이스를 구축하여 사용자 개인 정보를 보호하고, 실제 일상적인 사용 패턴에 기반한 평가 벤치마크를 통해 에이전트의 실용성을 검증하는 것을 목표로 합니다.

#Review #GUI Automation #Self-Evolving Pipeline #Reinforcement Learning #Multimodal LLMs #Privacy-Preserving AI #Human-Computer Interaction #Model Context Protocol #Benchmarking

2025년 12월 17일

[논문리뷰] Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

본 논문은 기존의 AI 생성 비디오 탐지 모델이 이진 분류에만 초점을 맞추고 설명 가능성이 부족하다는 한계를 해결하고자 합니다.

#Review #AI-Generated Video Detection #Multimodal Large Language Model (MLLM)#Artifact Reasoning #Explainable AI #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Video Forensics

2025년 12월 17일

[논문리뷰] SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

대규모 언어 모델(LLM) 에이전트가 방대한 동적 컨텍스트에 직면했을 때 정적인 프롬프트로 인해 발생하는 '수정(Corrective)' 및 '강화(Enhancement)' 실패 를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Prompt Optimization #Context Management #Online Learning #Agent Effectiveness #Self-Evolving Prompts #Trace-Based Learning #Dual-Stream Routing

2025년 12월 17일

[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.

#Review #Video Reasoning #Reinforcement Learning #Multi-Turn Reasoning #Agent System #Long Videos #Synthetic Data #Any-Horizon Reasoning #Large Language Models

2025년 12월 17일

[논문리뷰] Robust and Calibrated Detection of Authentic Multimedia Content

본 논문은 기존 딥페이크 탐지 방법론의 한계, 즉 생성 모델의 재합성 가능성(resynthesis indistinguishability) 으로 인한 높은 오탐율과 적대적 공격에 대한 취약성 을 극복하는 것을 목표로 합니다.

#Review #Deepfake Detection #Content Authenticity #Generative Models #Adversarial Robustness #Image Inversion #Plausible Deniability #Diffusion Models #Multimedia Forensics

2025년 12월 17일

[논문리뷰] Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

기존 래스터 이미지 편집 시 발생하는 일관성 문제(semantic drift, geometric misalignment)를 해결하는 것이 목표입니다.

#Review #Image Editing #Diffusion Models #Layer Decomposition #RGBA Layers #Variational Autoencoder (VAE)#Multi-stage Training #Photoshop Documents (PSD)#Inherent Editability

2025년 12월 17일

[논문리뷰] MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

본 논문은 MLLM(Multi-modal Large Language Models)이 물리적 환경에서 일반적인 비서 역할을 수행하기 위해 필수적인 비디오 기반 공간 지능 을 평가할 수 있는 포괄적인 벤치마크의 부재를 해결하고자 합니다.

#Review #Video-Based Spatial Intelligence #MLLM Benchmark #Spatial Reasoning #Multi-Modal Learning #Perception #Planning #Prediction #Cross-Video Reasoning #Human-AI Gap

2025년 12월 17일

[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training

본 논문은 기존 자기 지도 학습(Self-Supervised Learning) 패러다임이 잠재 공간 목표(latent-space objectives)에 의존하거나 과도한 휴먼 큐레이션을 통해 편향을 도입하는 한계를 지적합니다.

#Review #Pixel Supervision #Self-Supervised Learning #Masked Autoencoders (MAE)#Visual Pre-training #Foundation Models #Representation Learning #Web-Scale Data #Computer Vision

2025년 12월 17일

[논문리뷰] IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

논문은 기존 비디오 편집 모델이 겪는 배경 무결성 유지, 제한된 데이터에서의 효과 학습, 픽셀 수준 일관성 부족 등의 문제를 해결하여, 텍스트 지시에 따라 정확하고 효율적인 비디오 시각 효과(VFX) 편집 을 수행하는 것을 목표로 합니다.

#Review #Video VFX Editing #In-Context Learning #Diffusion Transformers #Few-Shot Learning #LoRA #Spatiotemporal Tokenization #Instruction-Guided

2025년 12월 17일

[논문리뷰] HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

현재 멀티모달 대규모 언어 모델(MLLM)이 가진 높은 연산 및 메모리 요구사항으로 인한 온디바이스 배포의 어려움을 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Model #Edge AI #Efficient Inference #Visual Resolution Compressor #Dual Consistency Learning #Vision Transformer #Quantization #Low-Latency

2025년 12월 17일