[논문리뷰] ARGenSeg: Image Segmentation with Autoregressive Image Generation Model본 논문은 기존 MLLM 기반 분할 방법론이 픽셀 수준의 미세한 시각적 디테일을 포착하는 데 한계가 있음을 지적하며, Autoregressive Generation 기반의 새로운 패러다임인 ARGenSeg 를 제안합니다.#Review#Image Segmentation#Autoregressive Generation#Multimodal Large Language Models (MLLMs)#Visual Understanding#VQ-VAE#Multi-scale Prediction#Referring Expression Segmentation#Image Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention오디오-비주얼 음성 분리(AVSS) 분야에서 기존 모델들의 높은 연산 비용과 파라미터 수로 인해 발생하는 실용적 배포의 한계를 해결하는 것을 목표로 합니다.#Review#Audio-Visual Speech Separation#Deep Learning#Efficiency#Discrete Lip Semantics#Global-Local Attention#Lightweight Models#VQ-VAE2025년 10월 1일댓글 수 로딩 중