[논문리뷰] TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models논문은 멀티모달 이해와 생성 태스크를 단일 프레임워크 내에서 원활하게 수행하는 TUNA라는 네이티브 통합 멀티모달 모델(UMM) 을 개발하는 것을 목표로 합니다. 기존 UMM의 분리된 또는 편향된 시각 표현 방식 으로 인한 한계를 극복하고, 이해와 생성 모두에 효과적인 통합된 연속 시각 표현 공간 을 구축하고자 합니다.#Review#Unified Multimodal Models#Visual Representation#VAE#Flow Matching#Multimodal Understanding#Multimodal Generation#Image Editing#State-of-the-Art2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance본 논문은 방대한 자원과 시간이 소요되는 LLM 훈련의 한계를 극복하고, 기존의 균일 가중치 모델 수핑(model souping) 및 임의적인 모델 선택의 단점을 해결하고자 합니다.#Review#Model Souping#Large Language Models#Weighted Averaging#Benchmark Optimization#State-of-the-Art#Category Experts#Parameter Averaging#Post-training2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Qwen3-Omni Technical Report본 논문은 텍스트, 이미지, 오디오, 비디오 등 다양한 모달리티 전반에 걸쳐 단일 멀티모달 모델(Qwen3-Omni) 이 기존 단일 모달 모델과 비교하여 성능 저하 없이 최첨단 성능을 유지 하는 것을 목표로 합니다. 또한, 교차 모달 추론 능력 과 실시간 시청각 상호작용 을 향상시키는 것을 주된 연구 목적으로 삼습니다.#Review#Multimodal Model#Thinker-Talker Architecture#Mixture-of-Experts#Low-latency#Audio Understanding#Cross-modal Reasoning#State-of-the-Art#Real-time Interaction2025년 9월 23일댓글 수 로딩 중
[논문리뷰] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research본 논문은 AI 에이전트가 방대한 웹 스케일 정보를 통찰력 있는 보고서로 통합해야 하는 복잡한 문제인 개방형 심층 연구(Open-Ended Deep Research, OEDR) 의 한계를 해결하는 것을 목표로 합니다.#Review#Open-Ended Deep Research#LLM Agents#Dynamic Outline#Evidence Acquisition#Hierarchical Writing#Memory Bank#State-of-the-Art#Supervised Fine-Tuning2025년 9월 17일댓글 수 로딩 중
[논문리뷰] VLA-0: Building State-of-the-Art VLAs with Zero Modification본 논문은 Vision-Language Model (VLM)의 아키텍처나 어휘를 변경하지 않고 순수한 텍스트 생성 능력만을 활용하여 로봇 행동을 예측하는 단순한 VLA(Vision-Language-Action) 모델이 최첨단 성능을 달성할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#VLA-0#Zero Modification#Text-based Action Prediction#Robot Manipulation#Large Language Models#Fine-tuning#State-of-the-Art2025년 10월 17일댓글 수 로딩 중