#Multimodal Large Language Model (MLLM)

5개의 포스트

[논문리뷰] LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing

본 연구는 기존 Unified Video Generation 모델들이 대규모 파라미터(13B 이상)에 의존하고, 비디오 편집 시 소스 토큰 연결로 인해 연산 비용이 기하급수적으로 증가하는 문제를 해결하고자 합니다.

#Review #Video Generation #Video Editing #Multimodal Large Language Model (MLLM)#Diffusion Transformer (DiT)#Deepstack Injection #Scale-and-Add

2026년 6월 4일

[논문리뷰] SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

최근 3D 생성 모델들은 고품질의 Static Meshes 를 생성하는 데 집중하고 있어, 'Sim-ready'한 상호작용 가능한 객체를 만드는 데에는 한계가 있었습니다.

#Review #Articulated Assets #Multimodal Large Language Model (MLLM)#3D Object Decomposition #Kinematic Prediction #Sparse Voxel Quantization #Simulation-ready Assets #URDF Generation

2026년 3월 24일

[논문리뷰] Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

본 논문은 기존의 AI 생성 비디오 탐지 모델이 이진 분류에만 초점을 맞추고 설명 가능성이 부족하다는 한계를 해결하고자 합니다.

#Review #AI-Generated Video Detection #Multimodal Large Language Model (MLLM)#Artifact Reasoning #Explainable AI #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Video Forensics

2025년 12월 17일

[논문리뷰] EditThinker: Unlocking Iterative Reasoning for Any Image Editor

본 논문은 기존 단일 턴(single-turn) 이미지 편집 모델의 한계, 즉 내재된 무작위성과 숙고 부족으로 인한 낮은 명령어-추종(instruction-following) 성능을 해결하는 것을 목표로 합니다.

#Review #Image Editing #Iterative Reasoning #Multimodal Large Language Model (MLLM)#Reinforcement Learning (RL)#Instruction Following #Critique-Refine-Repeat Cycle #Think-while-Edit

2025년 12월 7일

[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

본 논문은 제한적인 치과 데이터, 전문가 주석 부족, 모달리티별 모델링 미흡, 그리고 기존 MLLM의 일관성 및 신뢰성 문제(환각 응답 포함)로 인해 미개척 분야였던 치과 분야에서 포괄적이고 신뢰할 수 있는 분석을 위한 치과 전문 MLLM(Multimodal Large Language Model)인 OralGPT-Omni 를 개발하는 것을 목표로 합니다.

#Review #Multimodal Large Language Model (MLLM)#Dental Imaging Analysis #Chain-of-Thought (CoT) Reasoning #Medical AI #Benchmark #Diagnosis #Oral Healthcare #Explainable AI

2025년 11월 30일