#Multi-task Learning

24개의 포스트

[논문리뷰] CIPER: A Unified Framework for Cross-view Image-retrieval and Pose-estimation

본 논문은 기존의 Cross-view geo-localization 접근 방식인 이미지 검색(Image Retrieval)과 포즈 추정(Pose Estimation)이 별도의 파이프라인으로 운용되어 발생하는 비효율성을 해결하고자 합니다 .

#Review #Cross-view Geo-localization #Image Retrieval #Pose Estimation #Transformer #Multi-task Learning #Bidirectional Cross-attention

2026년 6월 8일

[논문리뷰] Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

본 논문은 기존의 embodied AI 모델들이 특정 작업이나 로봇 플랫폼에만 고도화되어 있어 발생하는 파편화(fragmentation) 문제를 해결하기 위해 통합 모델을 제안합니다. 현재의 방식은 데이터 활용도가 낮고 일반화 성능이 제한적이라는 한계가 있습니다.

#Review #Embodied Intelligence #Vision-Language-Action Models #Flow-matching #Multi-task Learning #Cross-embodiment #Reinforcement Learning

2026년 5월 28일

[논문리뷰] Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

본 연구는 UMM 학습 시 이해와 생성 작업 간에 발생하는 아키텍처적 충돌과 이로 인한 성능 트레이드오프 문제를 해결하고자 한다. 기존의 다중 작업 학습(Multi-task learning)은 복잡한 파이프라인과 데이터 균형 조정 기법을 필요로 하며, 종종 한 작업의 성능 향상이 다른 작업의 저하를 초래하는 한계가 있다.

#Review #Unified Multimodal Models #Intelligent Image Editing #Instruction Tuning #Data Synthesis #Multi-task Learning #Reasoning-intensive

2026년 5월 20일

[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Gaussian GRPO #Optimal Transport #Multi-task Learning #Visual Reasoning

2026년 4월 9일

[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning

저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.

#Review #Vision-Language Models #Reinforcement Learning #Visual Reasoning #Multi-task Learning #Chain-of-Thought #Data Diversity #Reward Engineering

2026년 4월 6일

[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing

최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.

#Review #VectorGym #SVG Generation #Multi-task Learning #Reinforcement Learning #VLM-as-a-Judge

2026년 3월 31일

[논문리뷰] KARL: Knowledge Agents via Reinforcement Learning

본 논문은 기업 검색 에이전트가 복잡하고 검증하기 어려운 에이전트성 검색 태스크에서 최첨단 성능 을 달성하도록 강화 학습 을 통해 훈련하는 시스템인 KARL 을 제안합니다.

#Review #Reinforcement Learning #Knowledge Agents #Enterprise Search #Grounded Reasoning #Multi-task Learning #Off-policy RL #Test-time Compute #Agentic Synthesis

2026년 3월 5일

[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation Models

이 논문은 비디오 파운데이션 모델(VFM)의 통합된 역량을 평가하기 위한 파편화되고 제한적인 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #Video Foundation Models #Unified Evaluation #Multi-task Learning #Video Understanding #Video Generation #Video Editing #Video Reconstruction #Agentic Evaluation #Cinematic Dimensions

2026년 2월 25일

[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

RLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Prompt Engineering #Compositional Generalization #Verifiable Rewards #Curriculum Learning #Mathematical Reasoning #Multi-task Learning

2026년 2월 12일

[논문리뷰] Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making

본 논문은 기존 의료 LLM이 보이는 수동적인 질문-답변 방식과 개방형 임상 상담에서의 환각 문제를 해결하고자 합니다. 능동적인 정보 획득, 장기적 추론, 적응형 환각 억제 기능을 갖춘 임상 등급의 의사결정 지원 시스템인 Baichuan-M3 를 개발하여 신뢰할 수 있는 의료 의사결정을 목표로 합니다.

#Review #Medical LLM #Clinical Decision Support #Reinforcement Learning #Hallucination Suppression #Multi-task Learning #Speculative Decoding #Quantization #Clinical Inquiry

2026년 2월 8일

[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

본 논문은 실제 환경에서 발생하는 스캔, 기울어짐, 왜곡, 화면 촬영, 조명 변화와 같은 물리적 왜곡에 강건한 문서 파싱 모델 을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Visual Language Model (VLM)#Robustness #Multi-task Learning #Layout Analysis #OCR #Real-world Scenarios #Parameter Efficiency

2026년 2월 1일

[논문리뷰] End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions

본 논문은 아동-성인 상호작용에서 정확한 전사 및 화자 역할 분리(speaker role diarization)의 어려움을 해결하는 것을 목표로 합니다.

#Review #End-to-End ASR #Speaker Diarization #Child Speech Processing #Whisper Model #Serialized Output Training #Multi-task Learning #State-Machine Decoding

2026년 1월 26일

[논문리뷰] VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

기존 Vision-Language-Action (VLA) 모델이 복잡하고 장기적인 내비게이션 태스크에서 부족했던 명시적 추론 능력 과 영구적인 기억 구조 의 부재를 해결하는 것을 목표로 합니다.

#Review #Embodied Navigation #VLA Model #Adaptive Reasoning #Chain-of-Thought (CoT)#Linguistic Memory #Reinforcement Learning #Sim-to-Real Transfer #Multi-task Learning

2026년 1월 13일

[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models

본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Online Post-training #Scalable Robot Learning #Distributed Systems #Multi-task Learning #Imitation Learning #Reinforcement Learning

2026년 1월 6일

[논문리뷰] Streaming Video Instruction Tuning

이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.

#Review #Streaming Video Understanding #Large Language Models (LLMs)#Instruction Tuning #Multi-task Learning #Real-time AI Assistant #Temporal Reasoning #Focal Loss #Video Question Answering

2025년 12월 24일

[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation

기존 비디오 생성 모델들이 단일 모달리티 조건화 및 제한된 모달 다양성으로 인해 세계를 총체적으로 이해하는 데 한계 가 있음을 지적하며, 이를 극복하기 위해 다중 모달리티(세분화 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵) 및 다중 훈련 패러다임 을 통합하여 세계 인식 비디오 생성 을 향상시키는 것을 목표로 합니다.

#Review #Video Generation #Multi-modal Learning #Multi-task Learning #Zero-shot Generalization #Diffusion Models #World Models #Video Understanding

2025년 12월 8일

[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks

본 연구는 기존 지시 기반 이미지 편집(IBIE) 방법론의 한계, 특히 제한된 데이터셋 다양성과 품질로 인한 복잡한 편집 태스크에서의 성능 저하 문제를 해결하고자 합니다.

#Review #Instruction-based Image Editing #Dataset #Multi-modal LLM #Image Generation #Style Transfer #Multi-task Learning #Fine-tuning

2025년 9월 19일

[논문리뷰] SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

본 논문은 과도한 잔향, 왜곡, 클리핑, 음색 불균형 등 다양한 오디오 품질 문제를 해결하는 통합적이고 텍스트 제어 가능한 음악 복원 및 마스터링 모델 을 개발하는 것을 목표로 합니다.

#Review #Music Restoration #Audio Mastering #Generative Models #Flow Matching #Text-to-Audio #Audio Quality Enhancement #Multi-task Learning #Dataset Creation

2025년 8월 7일

[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding

본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.

#Review #3D Vision-Language Models #Reasoning #Scene Understanding #Reinforcement Learning #Chain-of-Thought #Dynamic View Selection #Multi-task Learning

2025년 8월 4일

[논문리뷰] PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding

본 논문은 기존 특허 텍스트 임베딩 벤치마크가 특허 고유의 복잡한 특징(긴 문서, 비대칭 매칭, 도메인 간 이해)을 충분히 반영하지 못하는 문제를 해결합니다.

#Review #Patent Text Embedding #Benchmark #Multi-task Learning #Patent Retrieval #Sentence Embeddings #Knowledge Distillation #Cross-Domain Retrieval #Prompt Engineering

2025년 10월 29일

[논문리뷰] LongCat-Video Technical Report

본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.

#Review #Video Generation #Diffusion Transformer #RLHF #Sparse Attention #Long Video Generation #Coarse-to-Fine Generation #Multi-task Learning #World Models

2025년 10월 28일

[논문리뷰] E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker

본 논문은 효율적인 검색과 효과적인 리스트와이즈 재랭킹 사이의 성능 격차를 해소하기 위해, 단일 텍스트 임베딩 모델을 확장하여 두 가지 기능을 모두 수행할 수 있는 통일된 프레임워크 E²RANK 를 제안합니다.

#Review #Text Embedding #Listwise Reranking #Information Retrieval #Pseudo Relevance Feedback #Contrastive Learning #Multi-task Learning #Efficiency #LLM-based Ranking

2025년 10월 28일

[논문리뷰] Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations

이 논문은 기존 자동화된 학술 발표 자료 생성 방법론이 가진 제한된 스토리텔링, 낮은 미적 품질, 그리고 자체 조정 능력 부족 문제를 해결하고자 합니다.

#Review #Self-Improvement Agent #Academic Presentation #Aesthetic Evaluation #Reinforcement Learning #Multi-task Learning #Presentation Generation #LLM-based Agents #Human Feedback

2025년 10월 8일

[논문리뷰] Regression Language Models for Code

본 논문은 다양한 프로그래밍 언어 및 컴파일 수준의 코드 실행으로부터 메모리 사용량, 지연 시간, 신경망 정확도 와 같은 수치적 메트릭을 예측하는 문제를 다룹니다.

#Review #Regression Language Model #Code Performance Prediction #Static Analysis #Neural Architecture Search #Text-to-Text Regression #Multi-task Learning #T5Gemma #ONNX

2025년 10월 1일