#LVLM

3개의 포스트

[논문리뷰] Visual Memory Injection Attacks for Multi-Turn Conversations

본 논문은 대규모 시각-언어 모델(LVLM)의 다중 턴 대화 환경에서의 보안 취약점을 해결하고자 합니다.

#Review #LVLM #Adversarial Attacks #Multi-Turn Conversations #Visual Memory Injection #Stealthy Attacks #Benign Anchoring #Context-Cycling

2026년 2월 18일

[논문리뷰] Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

기존 대규모 시각-언어 모델(LVLM) 기반 지리 위치 특정(Geolocalization) 방법론이 지도 활용이라는 인간의 일반적인 전략을 간과하고 내부 추론에만 의존하는 한계를 극복하고자 합니다.

#Review #Geolocalization #LVLM #Map-Augmented Agent #Reinforcement Learning #Parallel Test-Time Scaling #Tool Use #MAPBench

2026년 1월 11일

[논문리뷰] Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

본 연구는 최근 LVLM(Large Vision-Language Model) 기반 텍스트-투-이미지(T2I) 모델 이 이미지 생성에서 높은 품질을 달성했음에도 불구하고, 사회적 편향을 얼마나 증폭시키는지에 대한 이해가 부족하다는 문제의식을 제기합니다.

#Review #Text-to-Image #LVLM #Social Bias #System Prompts #Bias Mitigation #Meta-Prompting #Fairness #Generative AI

2025년 12월 4일