[논문리뷰] Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment본 논문은 지능형 조립 어시스턴트가 2D 다이어그램과 실제 카메라 영상을 정렬하는 과정에서 겪는 Depiction Gap 문제를 해결하기 위해 수행되었습니다.#Review#Vision-Language Models#Cross-depiction Alignment#Assembly Guidance#Diagram-to-video Matching#Mechanistic Analysis2026년 4월 1일댓글 수 로딩 중