[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.#Triton#AMD#WMMA#LinearLayout#GPU Layout#gfx12502025년 12월 29일댓글 수 로딩 중
[논문리뷰] Yume-1.5: A Text-Controlled Interactive World Generation Model본 논문은 대규모 파라미터 크기, 긴 추론 단계, 빠르게 증가하는 히스토리컬 컨텍스트, 그리고 텍스트 기반 제어 능력 부족과 같은 기존 비디오 확산 모델의 한계를 극복하여 사실적이고 상호작용적이며 연속적인 가상 세계를 실시간으로 생성 하는 것을 목표로 합니다.#Review#Interactive World Generation#Video Diffusion Models#Text-to-Video#Image-to-Video#Real-time Generation#Temporal-Spatial-Channel Modeling#Self-Forcing2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Web World Models본 논문은 고정된 컨텍스트의 웹 프레임워크와 완전히 생성형 세계 모델(World Model) 사이의 간극을 메우는 Web World Model (WWM) 개념을 제안합니다. 언어 에이전트가 지속적으로 활동, 기억, 학습할 수 있는 제어 가능하면서도 무한히 확장 가능한 환경 을 구축하는 것이 주된 목표입니다.#Review#Web World Model#LLM#Neuro-symbolic AI#Procedural Generation#Hybrid Architecture#Deterministic Generation#Persistent Environments#TypeScript2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Video-BrowseComp: Benchmarking Agentic Video Research on Open Web본 논문은 기존 벤치마크들이 텍스트 및 정적 멀티모달 정보 탐색에 초점을 맞추고 동적인 웹 비디오 콘텐츠를 간과하는 문제점을 해결하고자 합니다.#Review#Agentic AI#Video Understanding#Web Browsing#Benchmark#Multimodal LLMs#Temporal Grounding#Cross-Source Reasoning#Information Seeking2025년 12월 29일댓글 수 로딩 중
[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs이 논문은 에이전트가 모호한 자연어 지시를 받아 복잡하고 장거리인 환경에서 특정 객체 인스턴스를 찾아내는 Interactive Instance Object Navigation (IION) 태스크를 도입합니다.#Review#Embodied AI#Vision and Language Navigation#Instance Object Navigation#Active Dialog#Large Language Models (LLMs)#Benchmark#Human-Robot Interaction2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Training AI Co-Scientists Using Rubric Rewards언어 모델(LLM)이 개방형 연구 목표에 대해 모든 제약 조건을 따르는 고품질 연구 계획을 생성하는 데 어려움을 겪는 문제를 해결합니다. 특히, 느리고 비용이 많이 드는 실험 실행을 통한 검증 없이, 다양한 개방형 연구 목표 에 대한 더 나은 연구 계획 을 생성하도록 모델을 훈련하는 방법을 연구하는 것을 목표로 합니다.#Review#AI Co-Scientists#Research Plan Generation#Reinforcement Learning (RL)#Self-Grading#Rubric Rewards#Language Models (LLMs)#Scientific Discovery2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling본 논문은 수술 로봇 학습의 주요 병목인 시각 관측 및 정확한 로봇 움직임 데이터의 부족 문제 를 해결하고자 합니다. 대량의 수술 비디오가 존재하지만 로봇 액션 레이블이 없어 모방 학습에 직접 활용하기 어렵습니다. 따라서, 세계 모델을 통해 일반화 가능하고 데이터 효율적인 수술 로봇 정책 을 학습하는 것을 목표로 합니다.#Review#Surgical Robotics#World Models#Video Generation#Imitation Learning#Inverse Dynamics Model#Synthetic Data#Vision-Language-Action Models#Data Scarcity2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Stream-DiffVSR: Low-Latency Streamable Video Super-Resolution via Auto-Regressive Diffusion본 논문은 기존 확산 모델 기반 비디오 초해상화(VSR) 방법들이 높은 지각 품질(perceptual quality)을 제공함에도 불구하고, 미래 프레임 의존성 및 다단계 노이즈 제거 과정으로 인한 높은 지연 시간 때문에 실시간 온라인 적용이 불가능하다는 문제를 해결하고자 합니다.#Review#Video Super-Resolution#Diffusion Models#Low-Latency#Streamable#Auto-Regressive#Model Distillation#Temporal Consistency#Perceptual Quality2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SpotEdit: Selective Region Editing in Diffusion Transformers본 논문은 기존 Diffusion Transformer 기반 이미지 편집 모델들이 변경되지 않은 영역까지 포함하여 전체 이미지를 일관적으로 처리하고 디노이징하는 방식의 비효율성과 품질 저하 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Transformer#Image Editing#Selective Editing#Computational Efficiency#Training-Free#Region-Aware#Perceptual Similarity2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents본 논문은 복잡한 GUI 태스크에서 자율 에이전트 개발을 위한 에이전트 강화 학습( Agentic RL )의 주요 병목인 태스크 완료 검증의 비효율성과 신뢰성 문제 를 해결하고자 합니다.#Review#Agentic RL#Self-Verifying Agents#GUI Automation#Evidence Curation#LLM-as-a-Judge#Reward Shaping#AndroidLab2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting이 논문은 3D Gaussian Splatting (3D-GS) 기반의 Open-vocabulary segmentation (OVS)에서 512-차원 CLIP 특징 과 같은 고차원 특징을 효율적으로 렌더링하는 문제를 해결하는 것을 목표로 합니다.#Review#3D Gaussian Splatting#Open-vocabulary Segmentation#Neural Rendering#High-dimensional Features#Quantile Sampling#Real-time Rendering#Feature Distillation2025년 12월 29일댓글 수 로딩 중
[논문리뷰] OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding기존 옴니모달 대규모 언어 모델(OmniLLMs) 이 겪는 미세한 크로스모달 이해(fine-grained cross-modal understanding) 및 멀티모달 정렬(multimodal alignment) 의 한계를 해결하는 것을 목표로 합니다.#Review#Omnimodal Understanding#Audio-Guided Perception#Active Learning Agents#Cross-Modal Alignment#Tool-Use#Video Understanding#Multimodal LLMs2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Nested Browser-Use Learning for Agentic Information Seeking정보 탐색(IS) 에이전트의 현재 브라우저 도구 사용이 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 국한되어 실제 브라우징을 통한 풍부한 정보 접근이 제한되는 문제를 해결하고자 합니다.#Review#Agentic Information Seeking#LLM Agents#Browser Automation#Nested Framework#Tool Learning#Context Efficiency#Deep Web2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Monadic Context Engineering본 논문은 현재 AI 에이전트 아키텍처가 겪는 상태 관리, 오류 처리, 동시성 문제로 인한 취약성을 해결하고자 합니다.#Review#Monads#Functional Programming#AI Agents#State Management#Error Handling#Concurrency#Monad Transformers#Meta-Agents2025년 12월 29일댓글 수 로딩 중
[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.#Review#Real-time Video Generation#Multimodal Diffusion#On-Policy Distillation#Interactive AI Avatars#Video Streaming#Anchor-Heavy Identity Sinks#Lip Synchronization2025년 12월 29일댓글 수 로딩 중
[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models본 논문은 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 핵심 구성 요소인 텍스트 인코더의 두 가지 주요 과제를 해결하고자 합니다.#Review#Text Encoder#Diffusion Models#Text Embedding#Evaluation Benchmark#MLLM Fine-tuning#Layer-wise Weighting#Text-to-Image Generation#Text-to-Video Generation2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Vision-Language Models#Vision-Language-Action Models#Robotics#Multimodal AI#Action Planning#Long-Horizon Planning#Bidirectional Attention2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Diffusion Knows Transparency: Repurposing Video Diffusion for Transparent Object Depth and Normal Estimation본 논문은 투명하거나 반사되는 객체에 대한 깊이 및 법선 추정의 고질적인 문제를 해결하고자 합니다.#Review#Video Diffusion Model#Depth Estimation#Normal Estimation#Transparent Objects#Robotics#Data Generation#LoRA Fine-tuning2025년 12월 29일댓글 수 로딩 중
[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language ModelsDiffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.#Review#Diffusion Language Models#Post-Training#Reinforcement Learning#GRPO#FlexAttention#LMDeploy#Math Reasoning#SFT2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Coupling Experts and Routers in Mixture-of-Experts via an Auxiliary Loss본 논문은 Mixture-of-Experts (MoE) 모델에서 라우터의 결정이 개별 전문가의 실제 역량과 충분히 연동되지 않아 발생하는 성능 한계를 해결하고자 합니다. 라우터와 전문가 간의 약한 결합 문제를 개선하여 모델 성능을 향상시키는 동시에 효율성을 유지하는 가벼운 보조 손실 함수를 제안하는 것이 목표입니다.#Review#Mixture-of-Experts (MoE)#Router-Expert Coupling#Auxiliary Loss#Expert Specialization#Large Language Models (LLMs)#Computational Efficiency2025년 12월 29일댓글 수 로딩 중