최신 포스트

[Triton] AMD FAv3 pingpong에서 s_xxx 명령어 배치 최적화

Memory cluster와 compute cluster 사이의 스칼라 명령어 배치를 개선하여 GPU 파이프라인 활용도를 높임

#Triton #AMD #Scheduling #Performance #FlashAttention

2025년 11월 3일

[vllm] Suffix Decoding - Arctic Inference의 접미사 매칭 기반 Spec Decode

Arctic Inference의 Suffix Decoding을 통합하여 이전 출력의 접미사 패턴을 활용한 speculative decoding

#vllm #Performance

2025년 11월 3일

[Triton] gfx1250에 Gluon async_copy API 추가

AMD gfx1250 타겟에서 Gluon 프론트엔드를 통한 async global-to-shared copy 지원

#Triton #Compiler

2025년 11월 3일

[논문리뷰] Visual Jigsaw Post-Training Improves MLLMs

본 논문은 기존 MLLM(Multimodal Large Language Models)의 텍스트 중심 후속 훈련 패러다임이 시각 신호에 대한 세밀한 이해를 과소평가한다는 문제점을 해결하고자 합니다.

#Review #MLLMs #Post-training #Self-supervised Learning #Visual Understanding #Jigsaw Puzzles #RLVR #Multimodal Perception #Spatial Reasoning

2025년 9월 30일

[논문리뷰] StableToken: A Noise-Robust Semantic Speech Tokenizer for Resilient SpeechLLMs

기존 시맨틱 음성 토크나이저의 노이즈에 대한 취약성 문제를 해결하는 것이 주요 목표입니다. 사소한 음향 교란에도 토큰 시퀀스가 급격히 변하여 다운스트림 SpeechLLMs 의 학습 부담을 증가시키는 불안정성을 극복하고, 노이즈에 강건하며 일관된 토큰 시퀀스를 생성하는 새로운 패러다임을 제시하고자 합니다.

#Review #Speech Tokenizer #Noise Robustness #Semantic Tokens #SpeechLLMs #Voting-LFQ #Consensus Training #Automatic Speech Recognition #Speech Synthesis

2025년 9월 30일

[논문리뷰] SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

본 논문은 Diffusion Transformer (DiT) 모델, 특히 비디오 생성에서 긴 시퀀스 길이로 인한 어텐션의 2차 시간 복잡도 문제를 해결하고자 합니다.

#Review #Diffusion Transformers #Sparse Attention #Linear Attention #Model Acceleration #Video Generation #Attention Mechanisms #Fine-tuning

2025년 9월 30일

[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

본 논문은 기존 비디오 생성 모델의 높은 연산 복잡성(O(N^2))과 느린 추론 속도로 인한 비효율성을 해결하여, 고해상도(720x1280), 고품질, 장시간(분 단위) 비디오를 빠르고 효율적으로 생성 하는 소형 확산 모델인 SANA-Video를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Model #Linear Attention #Transformer #Long Video #Efficient Inference #Constant Memory #Low-Cost Training #RTX Deployment

2025년 9월 30일

[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark

본 논문은 기존 벤치마크들이 통합 멀티모달 모델의 이해 및 생성 능력을 개별적으로 평가하는 한계를 지적하며, 모델의 아키텍처적 통합 이 실제적으로 이러한 역량 간의 시너지 효과 를 유도하는지에 대한 근본적인 질문에 답하는 것을 목표로 합니다.

#Review #Unified Models #Multimodal AI #Benchmark #Capability Synergy #Visual Understanding #Image Generation #Dual-Evaluation Protocol

2025년 9월 30일

[논문리뷰] Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

현재 LLM 추론을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론(예: PPO, GRPO)은 일반적인 제어 설정에 맞춰 설계되어 학습 불안정성 및 다양성 붕괴와 같은 문제에 직면합니다.

#Review #Reinforcement Learning #LLM Reasoning #Policy Valuation #Markov Decision Process #Diversity #Math Reasoning #Verifiable Rewards

2025년 9월 30일

[논문리뷰] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing

본 연구는 기존 데이터셋의 한계, 특히 실제 적용에 필요한 체계적인 구조와 난이도 높은 시나리오의 부족으로 인해 이미지 생성 및 편집을 위한 통합 멀티모달 모델의 성능이 제약받는 문제를 해결하고자 합니다.

#Review #Image Generation #Image Editing #Multimodal AI #Dataset #Instruction Following #Taxonomy #GPT-40

2025년 9월 30일

[논문리뷰] Multiplayer Nash Preference Optimization

기존 RLHF의 Bradley-Terry 모델 이 실제 세계의 비전이적(non-transitive)이고 이질적인 선호도를 포착하지 못하는 한계를 해결하고자 합니다.

#Review #RLHF #LLM Alignment #Nash Equilibrium #Multiplayer Games #Preference Optimization #Non-transitive Preferences #Game Theory

2025년 9월 30일

[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reward Modeling #Instruction-Guided Editing #Online RL #Visual Language Models #Benchmark #Self-Ensembling

2025년 9월 30일

[논문리뷰] EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering

기존 LLM 스티어링 프레임워크들이 겪는 계산 비효율성 , 제한된 확장성 , 및 부족한 기능성 문제를 해결하는 것을 목표로 합니다. 이는 연구 진행과 실제 배포를 저해하는 요인으로, 본 논문은 고성능 과 확장성 을 갖춘 통합 LLM 스티어링 프레임워크 를 구축하여 이러한 한계를 극복하고자 합니다.

#Review #LLM Steering Framework #vLLM Integration #Hidden State Manipulation #Inference Optimization #Extensibility #Modular Architecture #Reasoning Mitigation #Hallucination Reduction

2025년 9월 30일

[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual Interaction

컴퓨터 비전, 음성 및 텍스트를 아우르는 다중 모달 인터랙티브 인간 에이전트 시스템에서 기존의 모듈형 파이프라인 방식이 야기하는 컨텍스트 불일치, 지연 및 오류 누적 문제를 해결하고자 합니다.

#Review #Digital Human #Multimodal AI #Real-time Streaming #Video Generation #Diffusion Models #Transformer Architecture #Audiovisual Synchronization #World Modeling

2025년 9월 29일

[논문리뷰] X-CoT: Explainable Text-to-Video Retrieval via LLM-based Chain-of-Thought Reasoning

본 논문은 기존 임베딩 모델 기반 텍스트-비디오 검색 시스템의 한계, 즉 낮은 데이터 품질의 영향 및 랭킹 결과에 대한 설명 부족 문제를 해결하는 것을 목표로 합니다. 특히, 검색 모델의 동작과 텍스트-비디오 데이터 품질을 평가하기 위해 랭킹 결과를 해석할 수 있는 설명 가능한 검색 시스템 인 X-CoT를 제안합니다.

#Review #Text-to-Video Retrieval #LLM #Chain-of-Thought #Explainable AI #Multimodal Retrieval #Bradley-Terry Model #Video Annotation

2025년 9월 29일

[논문리뷰] WoW: Towards a World omniscient World model Through Embodied Interaction

본 논문은 수동적 관찰에 의존하는 기존 비디오 생성 모델의 한계(물리적 인과관계 이해 부족)를 극복하고, 대규모의 인과관계가 풍부한 실제 상호작용 데이터 를 통해 로봇이 물리적 직관을 습득할 수 있는 세계 모델(World Model) 을 개발하는 것을 목표로 합니다.

#Review #World Model #Embodied AI #Robotics #Diffusion Models #Physical Reasoning #Vision Language Models #Interaction Data #Self-Optimization

2025년 9월 29일

[논문리뷰] Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation

Multimodal Large Language Models (MLLMs)의 자동 회귀 토큰 생성 과정에서 시각적 입력이 출력 토큰에 미치는 영향을 설명하고, 언어적 선험 지식과 지각적 증거의 상대적 영향력을 정량화하는 것을 목표로 합니다.

#Review #MLLM #Interpretability #Attribution #Token Generation #Black-box Explanation #Hallucination Diagnosis #Multimodality #VQA

2025년 9월 29일

[논문리뷰] WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

본 논문은 웹사이트 코드 생성과 같이 시각적 요소와 사용자 상호작용 피드백이 중요한 태스크에서, 기존 코드 에이전트들이 단순한 코드 실행 피드백에만 의존하여 실제 웹사이트 품질을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Website Generation #Code Agent #LLM #VLM #Reinforcement Learning #Multi-Level Feedback #GUI Agent #Step-GRPO

2025년 9월 29일

[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.

#Review #AI Assistants #Multimodal Benchmarking #Audio Understanding #Speech Synthesis #Vision-Language Models #Role-play #Safety #Robustness

2025년 9월 29일

[논문리뷰] Variational Reasoning for Language Models

언어 모델(LLM)의 추론 능력 훈련에 사용되는 지도 미세 조정(SFT) 및 강화 학습(RL) 방법론의 한계를 극복하고, 생각 과정(thinking traces) 을 잠재 변수 로 간주하여 변분 추론(Variational Inference) 을 통해 최적화하는 원칙적이고 안정적인 프레임워크를 제시하는 것을 목표로 합니다.

#Review #Variational Inference #Language Models #Reasoning #ELBO #IWAE #Reinforcement Learning #Latent Variables #Forward-KL

2025년 9월 29일