#Visual Language Model

2개의 포스트

[논문리뷰] One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

멀티모달 질의응답 시스템은 고해상도 시각적 입력과 긴 컨텍스트 처리에 따른 과도한 컴퓨팅 리소스 소모로 인해 실시간 서비스 구현에 한계를 겪고 있습니다. 기존의 Visual Language Models (VLM)은 멀티모달 입력을 처리할 때 너무 많은 토큰을 생성하여 Latency와 Throughput 저하를 유발합니다.

#Review #Multimodal QA #Latent Memory #Resource-Constrained #Token Efficiency #Evidence Retrieval #Visual Language Model

2026년 6월 9일

[논문리뷰] UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

본 논문은 UI(사용자 인터페이스) 코딩에서 기존 시각 언어 모델(VLM) 의 제한적인 멀티모달 코딩 능력과 단일 턴 생성 패러다임의 한계를 극복하고자 합니다.

#Review #Visual Language Model #UI-to-Code Generation #Interactive UI #UI Editing #UI Polishing #Reinforcement Learning #Multimodal Coding #Test-Time Scaling

2025년 11월 16일