[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다.#Review#World Model#Diffusion Transformer#Long-context Modeling#Camera Control#6-DoF Trajectory#Efficiency#Video Generation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models본 논문은 기존 VLM(Vision-Language Model)의 짧은 텍스트 컨텍스트 길이(일반적으로 77 토큰)로 인해 발생하는 바이오메디컬 이미지 캡션의 토큰 손실 문제 를 해결하고, 긴 컨텍스트 캡션이 모델 성능에 미치는 영향을 탐구하는 것을 목표로 합니다.#Review#Biomedical Vision-Language Models#Long-context Modeling#Contrastive Learning#Token Efficiency#Zero-shot Classification#Medical Image Retrieval2025년 10월 8일댓글 수 로딩 중