[논문리뷰] Qwen3-VL Technical ReportQwen3-VL은 기존 Qwen 시리즈 중 가장 강력한 Vision-Language Model (VLM) 을 개발하여 광범위한 멀티모달 벤치마크에서 뛰어난 성능을 달성하는 것을 목표로 합니다.#Review#Vision-Language Model#Multimodal Reasoning#Long-Context#Interleaved Data#Mixture-of-Experts#DeepStack#Agentic AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] PretrainZero: Reinforcement Active Pretraining본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.#Review#Reinforcement Learning#Active Learning#Pretraining#Large Language Models#Self-Supervised Learning#Masked Language Modeling#Generalization#Reasoning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and Video기존 MLLM(Multimodal Large Language Models)이 단일 태스크나 단일 모달리티(이미지 또는 비디오)에 국한되는 한계를 넘어, 이미지와 비디오 이해를 아우르는 다양한 시각 태스크를 동시에 처리할 수 있는 범용적인 추론 모델 인 'All-in-one multimodal reasoning generalist' 를 개발하는 것을 목표로 합니다.#Review#Multimodal LLMs#Reinforcement Learning#Visual Reasoning#Generalist Model#Image Understanding#Video Understanding#Multitask Learning#EMA-GRPO2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Jina-VLM: Small Multilingual Vision Language Model본 연구는 VLM의 실용적 배포를 저해하는 두 가지 주요 과제를 해결하는 것을 목표로 합니다. 첫째, 비전 적응 과정에서 발생하는 다국어 성능 저하 문제를 극복하고, 둘째, 고품질 VLM 훈련 및 배포의 높은 계산 비용을 줄여 접근성을 높이는 것입니다.#Review#Vision-Language Model#Multilingual VLM#Small VLM#Visual Question Answering#Attention Pooling#Image Tiling#SigLIP#Qwen2025년 12월 3일댓글 수 로딩 중
[논문리뷰] In-Context Representation Hijacking본 논문은 LLM의 내부 표현을 조작하여 안전 장치를 우회하는 새로운 형태의 탈옥(jailbreak) 공격인 'Doublespeak'을 소개합니다.#Review#LLM Jailbreak#In-Context Learning#Representation Hijacking#Mechanistic Interpretability#LLM Safety#Adversarial Attack#Semantic Shift2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment본 논문은 Normalizing Flows (NFs) 의 생성 품질이 학습된 의미론적 표현의 부족으로 제한되는 문제를 해결하고자 합니다.#Review#Normalizing Flows#Representation Alignment#Generative Models#TARFlow#Image Generation#Classification#Training Acceleration#Reverse Pass2025년 12월 3일댓글 수 로딩 중
[논문리뷰] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation본 논문은 기존 확산 모델이 구조화된 다단계 시나리오, 특히 가변 길이 레시피 이미지 생성에서 일관성 및 유연성 부족을 겪는 문제를 해결합니다. 유연하고 일관되며 의미론적으로 분리된 다단계 레시피 이미지 생성을 위한 통합 프레임워크를 개발하는 것을 목표로 합니다.#Review#Multi-step Image Generation#Recipe Illustration#Diffusion Models#Consistent Generation#Regional Control#Positional Encoding#Ingredient Consistency#Procedural Content Generation2025년 12월 3일댓글 수 로딩 중
[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs기존 벤치마크들이 규칙 기반 교란이나 짧은 캡션에 의존하여 미세한 이미지-텍스트 정렬 능력을 측정하는 데 한계가 있음을 지적하며, AlignBench 라는 새로운 벤치마크를 통해 VLM의 미세한 이미지-텍스트 정렬 능력 을 평가하는 것을 목표로 합니다.#Review#Image-Text Alignment#Multimodal Benchmarking#Hallucination Detection#Vision-Language Models#Synthetic Data Generation#Fine-Grained Analysis#Captioning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Adversarial Confusion Attack: Disrupting Multimodal Large Language Models본 논문은 기존의 오분류나 탈옥(jailbreak) 공격과 달리, 멀티모달 대규모 언어 모델(MLLMs)이 일관성 없거나 자신감 있게 틀린 출력을 생성하도록 유도하여 시스템적인 혼란(confusion)을 야기하는 새로운 유형의 적대적 공격인 Adversarial Confusion Attack 을 제안합니다.#Review#Adversarial Attack#Multimodal Large Language Models (MLLMs)#Entropy Maximization#Confusion Attack#Black-box Transfer#PGD#AI Agent Safety2025년 12월 3일댓글 수 로딩 중
[Ray] StreamingRepartition과 MapBatches 연산자 퓨전으로 스케줄링 오버헤드 제거Ray Data의 StreamingRepartition과 MapBatches를 퓨전하여 불필요한 스케줄링 오버헤드를 줄이고 collate 성능을 개선한 분석.#Ray#Python#Performance#Operator Fusion#Distributed Computing2025년 12월 3일댓글 수 로딩 중
[vllm] xxHash로 Prefix Caching 해싱 성능 가속고성능 해시 함수 xxHash를 도입하여 prefix caching의 블록 해시 계산 속도를 대폭 개선#vllm#Performance2025년 12월 3일댓글 수 로딩 중
[Triton] 성능 진단 테스트에서 stack trace 생성 비활성화diagnostics context에서 stacktraces 옵션 제거로 테스트 시간 15분 → 1초 이하로 단축#Triton#Testing#Performance#Developer Experience2025년 12월 3일댓글 수 로딩 중
[SGLang] MoE 모델을 위한 Single Batch Overlap 기법Hopper GPU에서 MoE 모델의 compute와 communication을 overlap하여 추론 성능을 향상시킨다#SGLang#MoE#GPU Optimization#Inference2025년 12월 3일댓글 수 로딩 중
[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video Generation본 논문은 기존 오디오 기반 아바타 비디오 생성 모델에서 잘 다루어지지 않았던 음악 공연 비디오 생성 및 카메라 모션 제어의 한계를 극복하고자 합니다.#Review#Music-Driven Video Generation#Diffusion Models#Multi-Stage Framework#Camera Control#Lip-Sync#Temporal Coherence#Video Diffusion Transformer2025년 12월 2일댓글 수 로딩 중
[논문리뷰] WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning본 논문은 기존 비디오 LLM이 긴 비디오(수 시간~수 일)를 처리할 때 직면하는 제한된 컨텍스트 용량 및 시각적 세부 정보 손실 문제를 해결하고자 합니다.#Review#Long Video Reasoning#Multimodal Memory#Adaptive Retrieval#Video Large Language Models#Knowledge Graph#Multiscale Temporal Reasoning#Episodic Memory#Semantic Memory2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation본 논문은 비디오 생성 모델이 시각 데이터(비디오 컨텍스트) 만을 사용하여 인간의 인지와 유사한 시공간 지능(Visuospatial Intelligence) 을 발휘할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Video Generation#Spatial Reasoning#Visuospatial Intelligence#Diffusion Models#Context-Guided Generation#Scene Navigation#Object Grounding#Out-of-Domain Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation본 논문은 기존 비디오-오디오 생성 모델이 모노 출력에 국한되어 공간적 몰입감이 부족하며, 기존 바이노럴 접근 방식이 2단계 파이프라인(모노 생성 후 공간화)으로 인한 오류 누적과 시공간 불일치 문제를 겪는 한계를 해결하고자 합니다.#Review#Binaural Audio Generation#Spatial Audio#Video-Driven#End-to-End#Conditional Flow Matching#Multimodal AI#Deep Learning#Audio-Visual Synthesis2025년 12월 2일댓글 수 로딩 중
[논문리뷰] The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models본 연구는 대규모 언어 모델(LLMs)의 내재된 메커니즘을 탐구하여 LLM이 유추 추론을 수행하는 방식을 이해하는 것을 목표로 합니다. 특히, LLM이 관계형 개념을 추출하고 새로운 상황에 적용하며, 표면적 유사성을 넘어 구조적 정렬을 통해 병렬 관계를 어떻게 식별하는지 밝히고자 합니다.#Review#Analogical Reasoning#Large Language Models#Mechanistic Interpretability#Proportional Analogies#Story Analogies#Structural Alignment#Attention Knockout#Patchscopes2025년 12월 2일댓글 수 로딩 중
[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.#Review#Table Recognition#Self-supervised Learning#Vision-Language Models#Reinforcement Learning#Question Answering#Data Augmentation#GRPO2025년 12월 2일댓글 수 로딩 중