[논문리뷰] Diversity Has Always Been There in Your Visual Autoregressive ModelsVisual Autoregressive (VAR) 모델이 겪는 다양성 붕괴(diversity collapse) 문제를 해결하고, 추가적인 훈련 없이 모델의 내재된 생성 다양성을 발현시키면서도 이미지 품질과 텍스트-이미지 정렬을 효과적으로 유지하는 것을 목표로 합니다.#Review#Visual Autoregressive Models#Diversity Collapse#Generative Diversity#Soft-Suppression Regularization#Soft-Amplification Regularization#Training-Free#Image Generation#Singular Value Decomposition2025년 11월 23일댓글 수 로딩 중
[Open WebUI] 외부 임베딩 API 호출을 병렬화하여 50배 성능 향상순차적으로 배치 처리하던 외부 임베딩 요청을 asyncio.gather로 병렬 실행하고, 동기 함수를 async로 전환하여 대규모 문서 처리 속도를 극적으로 개선한 최적화.#Open WebUI#Python#Performance#asyncio#Embeddings#RAG2025년 11월 23일댓글 수 로딩 중
[Ray] DefaultCollateFn 병렬화로 Arrow-to-Tensor 변환 가속ThreadPoolExecutor를 활용한 컬럼별 병렬 텐서 변환 최적화#Ray#PyTorch#Apache Arrow#Performance2025년 11월 22일댓글 수 로딩 중
[triton] Out-of-tree TTIR/TTGIR 패스 플러그인 시스템Triton에 플러그인 시스템을 도입하여 외부에서 TTIR/TTGIR 컴파일 패스를 등록하고 실행할 수 있도록 한 PR을 분석합니다. 동적 라이브러리 로딩과 C API 기반 확장 메커니즘을 살펴봅니다.#Triton#Plugin System#MLIR#Compiler Pass#Extensibility2025년 11월 22일댓글 수 로딩 중
[Triton] Gluon의 to_linear_layout에서 TensorMemory 레이아웃 지원to_linear_layout 함수가 Distributed, Shared에 더해 TensorMemory 인코딩도 처리할 수 있도록 확장#Triton#Gluon#NVIDIA#TensorMemory#LinearLayout2025년 11월 21일댓글 수 로딩 중
[pydantic-ai] Anthropic 캐시 가능 타입에 document 추가Anthropic prompt caching에서 document 타입이 누락되어 캐시가 적용되지 않던 문제를 수정#Python#Pydantic AI#Anthropic#Bug Fix#Caching2025년 11월 21일댓글 수 로딩 중
[vllm] GPU Model Runner V2 - 차세대 모델 실행 엔진vLLM의 GPU 모델 러너를 V2로 재설계하여 비동기 처리, 메모리 관리, 스케줄링 효율을 대폭 개선#vllm#Performance2025년 11월 21일댓글 수 로딩 중
[Triton] clamp 최적화를 scalar에도 적용 — fmin.xorsign.abs 활용Hopper 이상에서 clamp(x, -limit, limit) 패턴을 scalar 값에도 min.xorsign.abs로 최적화#Triton#NVIDIA#Compiler Optimization#PTX#Scalar2025년 11월 21일댓글 수 로딩 중
[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO이 연구는 기존의 텍스트 기반 다음 이벤트 예측(NEP)의 한계를 넘어, 비디오를 답변으로 제공 하는 새로운 패러다임인 Video-Next-Event Prediction (VNEP) 을 개척합니다.#Review#Video Generation#Next Event Prediction#Reinforcement Learning#Vision-Language Model#Video Diffusion Model#Joint Optimization#Multimodal AI#Procedural Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models본 논문은 최신 생성 비디오 모델의 추론 능력을 체계적이고 신뢰할 수 있게 평가하기 위한 벤치마크 스위트인 V-ReasonBench 를 제안합니다.#Review#Video Generation#Reasoning Benchmark#Chain-of-Frame#Evaluation#Multimodal AI#Physical Dynamics#Spatial Cognition#Pattern Inference2025년 11월 20일댓글 수 로딩 중
[논문리뷰] TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval본 연구는 신경 임베딩 기반 정보 검색(IR) 시스템이 영어 중심의 아키텍처에서 뛰어난 성능을 보임에도 불구하고, 튀르키예어와 같이 형태론적으로 복잡하고 자원이 부족한 언어 에 대한 비교 가능한 발전이 부족하다는 문제의식에서 시작되었습니다.#Review#Information Retrieval#Turkish Language#Late-Interaction Models#ColBERT#Dense Retrieval#MUVERA#Benchmarking#Low-Resource NLP#Fine-tuning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding본 논문은 기존 MLLM이 긴 비디오 컨텍스트 처리 시 효율성과 효과성 사이의 균형을 맞추기 어려운 문제를 해결하고자 합니다.#Review#Long Video Understanding#Hybrid Mamba-Transformer#Vision-Language Model#Token Compression#Vision-to-Text Aggregation#Efficient LLM#Multimodal AI2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation본 논문은 시각 콘텐츠 생성 과정에서 발생하는 장기적인 구성, 다중 엔티티 관계 및 미묘한 지시사항 준수와 같은 문제점을 해결하기 위해, 텍스트 기반 추론(think)을 시각 생성(generate) 과정에 실시간으로 상호 연동(interleaving) 하는 프레임워크인 Thinking-while-Generating (TWIG) 를 제안합니다.#Review#Visual Generation#Textual Reasoning#Interleaving#Large Multimodal Models (LMMs)#Chain-of-Thought (CoT)#Zero-shot Learning#Supervised Fine-tuning (SFT)#Reinforcement Learning (RL)2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Step-Audio-R1 Technical Report오디오 언어 모델이 추론 과정을 거치면 성능이 저하되는 기존의 문제, 즉 '텍스트 대리 추론' 현상을 해결하고, 오디오 도메인에서 진정한 추론 능력을 성공적으로 활성화하는 것을 목표로 합니다. 이는 오디오 인텔리전스에 대한 심층적 사고의 이점을 입증하고자 합니다.#Review#Audio Reasoning#Multimodal LLMs#Modality-Grounded Reasoning Distillation (MGRD)#Chain-of-Thought#Reinforcement Learning#Audio Understanding#Self-Distillation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Scaling Spatial Intelligence with Multimodal Foundation Models본 연구는 최신 멀티모달 파운데이션 모델(Multimodal Foundation Models, MLLMs)이 가진 공간 지능(spatial intelligence)의 부족함을 해결하고, SenseNova-SI 계열 모델을 통해 대규모 데이터 스케일링을 통해 공간 지능을 효과적으로 육성하는 방법을 탐구하는 것을 목표로 합니다.#Review#Spatial Intelligence#Multimodal Foundation Models#Data Scaling#Perspective-taking#Visual Question Answering#Emergent Capabilities#Embodied AI#Benchmark Evaluation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.#Review#Reinforcement Learning#Vision-Language-Action Models#Reward Shaping#World Models#Self-Referential Learning#Robotics#Trajectory Optimization2025년 11월 20일댓글 수 로딩 중
[논문리뷰] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking수술 비디오 세분화는 컴퓨터 지원 수술에 필수적이지만, 기존 SAM2 와 같은 iVOS 모델은 도메인 격차, 제한된 장기 추적 능력, 다중 소스 데이터셋 간의 주석 불일치 문제에 직면해 있습니다.#Review#Surgical Video Segmentation#Interactive Video Object Segmentation#Long-term Tracking#Foundation Models#Domain Adaptation#Semantic Learning#Prompt-based Segmentation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] SAM 3D: 3Dfy Anything in Images본 논문은 단일 이미지로부터 시각적으로 기반한 3D 객체 재구성을 위한 SAM 3D 라는 생성 모델을 제시합니다. 가려짐 과 장면 복잡성 이 흔한 자연 이미지에서 객체의 기하학적 형태, 텍스처, 레이아웃 을 예측하여 완전한 장면 재구성을 가능하게 하는 것을 목표로 합니다.#Review#3D Reconstruction#Generative Models#Single Image 3D#Object Reconstruction#Scene Understanding#Data Engine#Model-in-the-Loop#Human Preference2025년 11월 20일댓글 수 로딩 중
[논문리뷰] PartUV: Part-Based UV Unwrapping of 3D Meshes이 논문은 AI 생성 메시와 같이 시끄럽고 불규칙한 3D 메시에서 기존 UV unwrapping 방법이 야기하는 과도한 차트 분할 및 부적절한 경계 문제를 해결하고자 합니다.#Review#UV Unwrapping#3D Meshes#Part-Based Decomposition#Neural Fields#Geometric Heuristics#Parameterization#Texture Mapping2025년 11월 20일댓글 수 로딩 중