최신 포스트

[논문리뷰] UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs

본 논문은 제한된 리소스를 가진 엣지 디바이스에서 대규모 언어 모델(LLM)의 효율적인 배포를 가능하게 하는 것을 목표로 합니다.

#Review #LLM Compression #Quantization #Pruning #Edge AI #Adaptive Deployment #Transformer #State Space Models #Hybrid Models #One-shot Compression

2025년 12월 3일

[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images

본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.

#Review #Multimodal LLM #Tool Learning #Code Generation #Reinforcement Learning #Image Manipulation #Robustness #Error Recovery #Programming Vision

2025년 12월 3일

[논문리뷰] Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach

사전 학습된 Vision-Language-Action (VLA) 모델 을 지도 미세 조정(SFT)한 후 추론 시 발생하는 불안정성 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language-Action Models #Anti-Exploration #Test-Time Scaling #Pseudo-Count #Coin Flipping Network #Offline Reinforcement Learning #Robotics

2025년 12월 3일

[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다.

#Review #Spatial Reasoning #Vision Language Models #Reinforcement Learning #Tool Augmentation #Robotics #Multi-Tool Use #Embodied AI

2025년 12월 3일

[논문리뷰] SkillFactory: Self-Distillation For Learning Cognitive Behaviors

본 논문은 기반 언어 모델(LLM)이 처음부터 갖추지 못한 인지적 스킬(예: 검증, 백트래킹, 재시도) 을 외부의 더 강력한 모델 없이 스스로 학습하도록 하는 SkillFactory 프레임워크를 제안합니다. 이를 통해 모델이 복잡한 추론 태스크에서 더 잘 일반화하고 견고성을 갖추도록 하는 것을 목표로 합니다.

#Review #Self-Distillation #Cognitive Skills #Reinforcement Learning #Supervised Fine-Tuning #Language Models #Reasoning #Verification #Retrying

2025년 12월 3일

[논문리뷰] SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment

본 논문은 LLM을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 외부 감독(인간 주석의 희소성, 보상 모델 해킹, 프롬프트 민감도)의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Alignment #Stable Rank #Intrinsic Reward #Reinforcement Learning #Geometric Properties #Group Relative Policy Optimization #Annotation-Free Alignment

2025년 12월 3일

[논문리뷰] RELIC: Interactive Video World Model with Long-Horizon Memory

논문은 실시간 장기 스트리밍, 일관된 공간 메모리, 정밀한 사용자 제어라는 세 가지 핵심 요소를 동시에 만족하는 상호작용 가능한 비디오 월드 모델 을 구축하는 것을 목표로 합니다. 기존 접근 방식들이 이 중 하나만을 다루거나, 장기 메모리 메커니즘이 실시간 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Interactive World Model #Video Generation #Long-Horizon Memory #Real-Time Streaming #Diffusion Models #Autoregressive Models #Spatial Consistency #Unreal Engine

2025년 12월 3일

[논문리뷰] Qwen3-VL Technical Report

Qwen3-VL은 기존 Qwen 시리즈 중 가장 강력한 Vision-Language Model (VLM) 을 개발하여 광범위한 멀티모달 벤치마크에서 뛰어난 성능을 달성하는 것을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Reasoning #Long-Context #Interleaved Data #Mixture-of-Experts #DeepStack #Agentic AI

2025년 12월 3일

[논문리뷰] PretrainZero: Reinforcement Active Pretraining

본 연구는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 강화 학습(RL) 을 활용하여 일반적인 추론 능력을 향상하고, 도메인 특정적인 검증 가능한 보상에 대한 의존성을 줄이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Active Learning #Pretraining #Large Language Models #Self-Supervised Learning #Masked Language Modeling #Generalization #Reasoning

2025년 12월 3일

[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and Video

기존 MLLM(Multimodal Large Language Models)이 단일 태스크나 단일 모달리티(이미지 또는 비디오)에 국한되는 한계를 넘어, 이미지와 비디오 이해를 아우르는 다양한 시각 태스크를 동시에 처리할 수 있는 범용적인 추론 모델 인 'All-in-one multimodal reasoning generalist' 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Reinforcement Learning #Visual Reasoning #Generalist Model #Image Understanding #Video Understanding #Multitask Learning #EMA-GRPO

2025년 12월 3일

[논문리뷰] Jina-VLM: Small Multilingual Vision Language Model

본 연구는 VLM의 실용적 배포를 저해하는 두 가지 주요 과제를 해결하는 것을 목표로 합니다. 첫째, 비전 적응 과정에서 발생하는 다국어 성능 저하 문제를 극복하고, 둘째, 고품질 VLM 훈련 및 배포의 높은 계산 비용을 줄여 접근성을 높이는 것입니다.

#Review #Vision-Language Model #Multilingual VLM #Small VLM #Visual Question Answering #Attention Pooling #Image Tiling #SigLIP #Qwen

2025년 12월 3일

[논문리뷰] In-Context Representation Hijacking

본 논문은 LLM의 내부 표현을 조작하여 안전 장치를 우회하는 새로운 형태의 탈옥(jailbreak) 공격인 'Doublespeak'을 소개합니다.

#Review #LLM Jailbreak #In-Context Learning #Representation Hijacking #Mechanistic Interpretability #LLM Safety #Adversarial Attack #Semantic Shift

2025년 12월 3일

[논문리뷰] Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment

본 논문은 Normalizing Flows (NFs) 의 생성 품질이 학습된 의미론적 표현의 부족으로 제한되는 문제를 해결하고자 합니다.

#Review #Normalizing Flows #Representation Alignment #Generative Models #TARFlow #Image Generation #Classification #Training Acceleration #Reverse Pass

2025년 12월 3일

[논문리뷰] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation

본 논문은 기존 확산 모델이 구조화된 다단계 시나리오, 특히 가변 길이 레시피 이미지 생성에서 일관성 및 유연성 부족을 겪는 문제를 해결합니다. 유연하고 일관되며 의미론적으로 분리된 다단계 레시피 이미지 생성을 위한 통합 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Multi-step Image Generation #Recipe Illustration #Diffusion Models #Consistent Generation #Regional Control #Positional Encoding #Ingredient Consistency #Procedural Content Generation

2025년 12월 3일

[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

기존 벤치마크들이 규칙 기반 교란이나 짧은 캡션에 의존하여 미세한 이미지-텍스트 정렬 능력을 측정하는 데 한계가 있음을 지적하며, AlignBench 라는 새로운 벤치마크를 통해 VLM의 미세한 이미지-텍스트 정렬 능력 을 평가하는 것을 목표로 합니다.

#Review #Image-Text Alignment #Multimodal Benchmarking #Hallucination Detection #Vision-Language Models #Synthetic Data Generation #Fine-Grained Analysis #Captioning

2025년 12월 3일

[논문리뷰] Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

본 논문은 기존의 오분류나 탈옥(jailbreak) 공격과 달리, 멀티모달 대규모 언어 모델(MLLMs)이 일관성 없거나 자신감 있게 틀린 출력을 생성하도록 유도하여 시스템적인 혼란(confusion)을 야기하는 새로운 유형의 적대적 공격인 Adversarial Confusion Attack 을 제안합니다.

#Review #Adversarial Attack #Multimodal Large Language Models (MLLMs)#Entropy Maximization #Confusion Attack #Black-box Transfer #PGD #AI Agent Safety

2025년 12월 3일

[Triton] 벤치마크 실행을 위한 optional dependency 추가

2025년 12월 4일

[Ray] StreamingRepartition과 MapBatches 연산자 퓨전으로 스케줄링 오버헤드 제거

Ray Data의 StreamingRepartition과 MapBatches를 퓨전하여 불필요한 스케줄링 오버헤드를 줄이고 collate 성능을 개선한 분석.

#Ray #Python #Performance #Operator Fusion #Distributed Computing

2025년 12월 3일

[vllm] xxHash로 Prefix Caching 해싱 성능 가속

고성능 해시 함수 xxHash를 도입하여 prefix caching의 블록 해시 계산 속도를 대폭 개선

#vllm #Performance

2025년 12월 3일

[Triton] 성능 진단 테스트에서 stack trace 생성 비활성화

diagnostics context에서 stacktraces 옵션 제거로 테스트 시간 15분 → 1초 이하로 단축

#Triton #Testing #Performance #Developer Experience

2025년 12월 3일