[논문리뷰] One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA멀티모달 질의응답 시스템은 고해상도 시각적 입력과 긴 컨텍스트 처리에 따른 과도한 컴퓨팅 리소스 소모로 인해 실시간 서비스 구현에 한계를 겪고 있습니다. 기존의 Visual Language Models (VLM)은 멀티모달 입력을 처리할 때 너무 많은 토큰을 생성하여 Latency와 Throughput 저하를 유발합니다.#Review#Multimodal QA#Latent Memory#Resource-Constrained#Token Efficiency#Evidence Retrieval#Visual Language Model2026년 6월 9일댓글 수 로딩 중
[논문리뷰] UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation본 논문은 UI(사용자 인터페이스) 코딩에서 기존 시각 언어 모델(VLM) 의 제한적인 멀티모달 코딩 능력과 단일 턴 생성 패러다임의 한계를 극복하고자 합니다.#Review#Visual Language Model#UI-to-Code Generation#Interactive UI#UI Editing#UI Polishing#Reinforcement Learning#Multimodal Coding#Test-Time Scaling2025년 11월 16일댓글 수 로딩 중