[논문리뷰] Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments본 논문은 기존의 embodied AI 모델들이 특정 작업이나 로봇 플랫폼에만 고도화되어 있어 발생하는 파편화(fragmentation) 문제를 해결하기 위해 통합 모델을 제안합니다. 현재의 방식은 데이터 활용도가 낮고 일반화 성능이 제한적이라는 한계가 있습니다.#Review#Embodied Intelligence#Vision-Language-Action Models#Flow-matching#Multi-task Learning#Cross-embodiment#Reinforcement Learning2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning본 연구는 UMM 학습 시 이해와 생성 작업 간에 발생하는 아키텍처적 충돌과 이로 인한 성능 트레이드오프 문제를 해결하고자 한다. 기존의 다중 작업 학습(Multi-task learning)은 복잡한 파이프라인과 데이터 균형 조정 기법을 필요로 하며, 종종 한 작업의 성능 향상이 다른 작업의 저하를 초래하는 한계가 있다.#Review#Unified Multimodal Models#Intelligent Image Editing#Instruction Tuning#Data Synthesis#Multi-task Learning#Reasoning-intensive2026년 5월 20일댓글 수 로딩 중
[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Gaussian GRPO#Optimal Transport#Multi-task Learning#Visual Reasoning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.#Review#Vision-Language Models#Reinforcement Learning#Visual Reasoning#Multi-task Learning#Chain-of-Thought#Data Diversity#Reward Engineering2026년 4월 6일댓글 수 로딩 중
[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing최근 Vision-Language Models (VLMs)가 구조화된 코드 생성에 뛰어난 능력을 보이고 있으나, 실제 디자인 워크플로우 수준의 복잡한 SVG를 다루는 벤치마크는 여전히 부족합니다.#Review#VectorGym#SVG Generation#Multi-task Learning#Reinforcement Learning#VLM-as-a-Judge2026년 3월 31일댓글 수 로딩 중
[논문리뷰] KARL: Knowledge Agents via Reinforcement Learning본 논문은 기업 검색 에이전트가 복잡하고 검증하기 어려운 에이전트성 검색 태스크에서 최첨단 성능 을 달성하도록 강화 학습 을 통해 훈련하는 시스템인 KARL 을 제안합니다.#Review#Reinforcement Learning#Knowledge Agents#Enterprise Search#Grounded Reasoning#Multi-task Learning#Off-policy RL#Test-time Compute#Agentic Synthesis2026년 3월 5일댓글 수 로딩 중
[논문리뷰] UniVBench: Towards Unified Evaluation for Video Foundation Models이 논문은 비디오 파운데이션 모델(VFM)의 통합된 역량을 평가하기 위한 파편화되고 제한적인 기존 벤치마크의 한계를 해결하고자 합니다.#Review#Video Foundation Models#Unified Evaluation#Multi-task Learning#Video Understanding#Video Generation#Video Editing#Video Reconstruction#Agentic Evaluation#Cinematic Dimensions2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language ModelsRLVR (Reinforcement Learning with Verifiable Rewards) 훈련 과정에서 발생하는 '쉬운' 프롬프트(pass rate 1)의 증가로 인한 비효율성을 해결하고, 제한된 검증 가능한 프롬프트를 더 잘 활용하여 모델의 추론 능력을 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Prompt Engineering#Compositional Generalization#Verifiable Rewards#Curriculum Learning#Mathematical Reasoning#Multi-task Learning2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making본 논문은 기존 의료 LLM이 보이는 수동적인 질문-답변 방식과 개방형 임상 상담에서의 환각 문제를 해결하고자 합니다. 능동적인 정보 획득, 장기적 추론, 적응형 환각 억제 기능을 갖춘 임상 등급의 의사결정 지원 시스템인 Baichuan-M3 를 개발하여 신뢰할 수 있는 의료 의사결정을 목표로 합니다.#Review#Medical LLM#Clinical Decision Support#Reinforcement Learning#Hallucination Suppression#Multi-task Learning#Speculative Decoding#Quantization#Clinical Inquiry2026년 2월 8일댓글 수 로딩 중
[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing본 논문은 실제 환경에서 발생하는 스캔, 기울어짐, 왜곡, 화면 촬영, 조명 변화와 같은 물리적 왜곡에 강건한 문서 파싱 모델 을 개발하는 것을 목표로 합니다.#Review#Document Parsing#Visual Language Model (VLM)#Robustness#Multi-task Learning#Layout Analysis#OCR#Real-world Scenarios#Parameter Efficiency2026년 2월 1일댓글 수 로딩 중
[논문리뷰] End-to-End Joint ASR and Speaker Role Diarization with Child-Adult Interactions본 논문은 아동-성인 상호작용에서 정확한 전사 및 화자 역할 분리(speaker role diarization)의 어려움을 해결하는 것을 목표로 합니다.#Review#End-to-End ASR#Speaker Diarization#Child Speech Processing#Whisper Model#Serialized Output Training#Multi-task Learning#State-Machine Decoding2026년 1월 26일댓글 수 로딩 중
[논문리뷰] VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory기존 Vision-Language-Action (VLA) 모델이 복잡하고 장기적인 내비게이션 태스크에서 부족했던 명시적 추론 능력 과 영구적인 기억 구조 의 부재를 해결하는 것을 목표로 합니다.#Review#Embodied Navigation#VLA Model#Adaptive Reasoning#Chain-of-Thought (CoT)#Linguistic Memory#Reinforcement Learning#Sim-to-Real Transfer#Multi-task Learning2026년 1월 13일댓글 수 로딩 중
[논문리뷰] SOP: A Scalable Online Post-Training System for Vision-Language-Action Models본 논문은 대규모 사전 훈련을 통해 일반화 능력을 갖춘 Vision-Language-Action (VLA) 모델 이 실세계에서 전문가 수준의 숙련도와 확장 가능한 온라인 적응 능력을 확보하지 못하는 문제를 해결하고자 합니다.#Review#Vision-Language-Action Models#Online Post-training#Scalable Robot Learning#Distributed Systems#Multi-task Learning#Imitation Learning#Reinforcement Learning2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Streaming Video Instruction Tuning이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.#Review#Streaming Video Understanding#Large Language Models (LLMs)#Instruction Tuning#Multi-task Learning#Real-time AI Assistant#Temporal Reasoning#Focal Loss#Video Question Answering2025년 12월 24일댓글 수 로딩 중
[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation기존 비디오 생성 모델들이 단일 모달리티 조건화 및 제한된 모달 다양성으로 인해 세계를 총체적으로 이해하는 데 한계 가 있음을 지적하며, 이를 극복하기 위해 다중 모달리티(세분화 마스크, 인간 골격, DensePose, 광학 흐름, 깊이 맵) 및 다중 훈련 패러다임 을 통합하여 세계 인식 비디오 생성 을 향상시키는 것을 목표로 합니다.#Review#Video Generation#Multi-modal Learning#Multi-task Learning#Zero-shot Generalization#Diffusion Models#World Models#Video Understanding2025년 12월 8일댓글 수 로딩 중
[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks본 연구는 기존 지시 기반 이미지 편집(IBIE) 방법론의 한계, 특히 제한된 데이터셋 다양성과 품질로 인한 복잡한 편집 태스크에서의 성능 저하 문제를 해결하고자 합니다.#Review#Instruction-based Image Editing#Dataset#Multi-modal LLM#Image Generation#Style Transfer#Multi-task Learning#Fine-tuning2025년 9월 19일댓글 수 로딩 중
[논문리뷰] SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering본 논문은 과도한 잔향, 왜곡, 클리핑, 음색 불균형 등 다양한 오디오 품질 문제를 해결하는 통합적이고 텍스트 제어 가능한 음악 복원 및 마스터링 모델 을 개발하는 것을 목표로 합니다.#Review#Music Restoration#Audio Mastering#Generative Models#Flow Matching#Text-to-Audio#Audio Quality Enhancement#Multi-task Learning#Dataset Creation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding본 논문은 기존 3D Vision-Language Models (VLMs)이 복잡한 공간 관계 추론 및 일반화에서 겪는 한계를 해결하고자 합니다. 이는 고품질 공간 데이터의 부족과 고정된 시점 가정으로 인해 발생하며, 모델의 추론 능력과 다양한 3D 환경에서의 일반화 성능을 향상시키는 것을 목표로 합니다.#Review#3D Vision-Language Models#Reasoning#Scene Understanding#Reinforcement Learning#Chain-of-Thought#Dynamic View Selection#Multi-task Learning2025년 8월 4일댓글 수 로딩 중
[논문리뷰] PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding본 논문은 기존 특허 텍스트 임베딩 벤치마크가 특허 고유의 복잡한 특징(긴 문서, 비대칭 매칭, 도메인 간 이해)을 충분히 반영하지 못하는 문제를 해결합니다.#Review#Patent Text Embedding#Benchmark#Multi-task Learning#Patent Retrieval#Sentence Embeddings#Knowledge Distillation#Cross-Domain Retrieval#Prompt Engineering2025년 10월 29일댓글 수 로딩 중
[논문리뷰] LongCat-Video Technical Report본 논문은 효율적이고 고품질의 장시간 비디오 생성 에 중점을 둔 13.6B 파라미터 규모의 기반 비디오 생성 모델 LongCat-Video 를 제안합니다.#Review#Video Generation#Diffusion Transformer#RLHF#Sparse Attention#Long Video Generation#Coarse-to-Fine Generation#Multi-task Learning#World Models2025년 10월 28일댓글 수 로딩 중
[논문리뷰] E^2Rank: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker본 논문은 효율적인 검색과 효과적인 리스트와이즈 재랭킹 사이의 성능 격차를 해소하기 위해, 단일 텍스트 임베딩 모델을 확장하여 두 가지 기능을 모두 수행할 수 있는 통일된 프레임워크 E²RANK 를 제안합니다.#Review#Text Embedding#Listwise Reranking#Information Retrieval#Pseudo Relevance Feedback#Contrastive Learning#Multi-task Learning#Efficiency#LLM-based Ranking2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Presenting a Paper is an Art: Self-Improvement Aesthetic Agents for Academic Presentations이 논문은 기존 자동화된 학술 발표 자료 생성 방법론이 가진 제한된 스토리텔링, 낮은 미적 품질, 그리고 자체 조정 능력 부족 문제를 해결하고자 합니다.#Review#Self-Improvement Agent#Academic Presentation#Aesthetic Evaluation#Reinforcement Learning#Multi-task Learning#Presentation Generation#LLM-based Agents#Human Feedback2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Regression Language Models for Code본 논문은 다양한 프로그래밍 언어 및 컴파일 수준의 코드 실행으로부터 메모리 사용량, 지연 시간, 신경망 정확도 와 같은 수치적 메트릭을 예측하는 문제를 다룹니다.#Review#Regression Language Model#Code Performance Prediction#Static Analysis#Neural Architecture Search#Text-to-Text Regression#Multi-task Learning#T5Gemma#ONNX2025년 10월 1일댓글 수 로딩 중