[논문리뷰] MMAE: A Massive Multitask Audio Editing Benchmark본 연구는 instruction-based audio editing 분야의 급격한 발전에도 불구하고, 이를 체계적으로 평가할 수 있는 통합적인 인프라가 부재하다는 문제점을 해결하고자 합니다.#Review#Audio Editing#Benchmark#Multitask Learning#Rubric-based Evaluation#Instruction Following#Consistency2026년 6월 7일댓글 수 로딩 중
[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and Video기존 MLLM(Multimodal Large Language Models)이 단일 태스크나 단일 모달리티(이미지 또는 비디오)에 국한되는 한계를 넘어, 이미지와 비디오 이해를 아우르는 다양한 시각 태스크를 동시에 처리할 수 있는 범용적인 추론 모델 인 'All-in-one multimodal reasoning generalist' 를 개발하는 것을 목표로 합니다.#Review#Multimodal LLMs#Reinforcement Learning#Visual Reasoning#Generalist Model#Image Understanding#Video Understanding#Multitask Learning#EMA-GRPO2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Mask-to-Height: A YOLOv11-Based Architecture for Joint Building Instance Segmentation and Height Classification from Satellite Imagery도시 계획, 3D 도시 모델링 및 인프라 모니터링에 필수적인 건물 인스턴스 분할 및 높이 분류의 정확도를 높이는 것을 목표로 합니다. 특히, 연속적인 높이 회귀 대신 이산적인 높이 분류 를 통해 실제 도시 계획 요구사항에 더 잘 부합하고 노이즈에 강한 통합 프레임워크를 제시합니다.#Review#Building Instance Segmentation#Height Classification#YOLOv11#Satellite Imagery#Multitask Learning#Remote Sensing#Urban Planning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] POWSM: A Phonetic Open Whisper-Style Speech Foundation Model본 논문은 자동 음성 인식(ASR), 음소 인식(PR), 철자-음소 변환(G2P), 음소-철자 변환(P2G)과 같은 개별적으로 연구되어온 음소 관련 태스크들을 단일의 통합 프레임워크 에서 수행하는 것을 목표로 합니다.#Review#Phonetic Foundation Model#Multitask Learning#Speech Recognition#Phone Recognition#Grapheme-to-Phoneme#Encoder-Decoder#Low-Resource Speech2025년 10월 31일댓글 수 로딩 중
[논문리뷰] SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model기존 멀티모달 임베딩 모델의 한계인 제한된 모달리티 지원, 불안정한 학습 메커니즘, 산업 도메인 간극을 해결하는 것을 목표로 합니다. 이를 통해 다양한 실세계 시나리오에서 효과적인 옴니모달 임베딩(omni-modal embedding) 을 제공하는 SAIL-Embedding 이라는 파운데이션 모델을 제안합니다.#Review#Omni-modal Embedding#Multimodal Learning#Recommendation Systems#Hard Negative Mining#Contrastive Learning#Large Language Models (LLMs)#Data Balancing#Multitask Learning2025년 10월 15일댓글 수 로딩 중