[논문리뷰] LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing본 연구는 기존 Unified Video Generation 모델들이 대규모 파라미터(13B 이상)에 의존하고, 비디오 편집 시 소스 토큰 연결로 인해 연산 비용이 기하급수적으로 증가하는 문제를 해결하고자 합니다.#Review#Video Generation#Video Editing#Multimodal Large Language Model (MLLM)#Diffusion Transformer (DiT)#Deepstack Injection#Scale-and-Add2026년 6월 4일댓글 수 로딩 중
[논문리뷰] SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM최근 3D 생성 모델들은 고품질의 Static Meshes 를 생성하는 데 집중하고 있어, 'Sim-ready'한 상호작용 가능한 객체를 만드는 데에는 한계가 있었습니다.#Review#Articulated Assets#Multimodal Large Language Model (MLLM)#3D Object Decomposition#Kinematic Prediction#Sparse Voxel Quantization#Simulation-ready Assets#URDF Generation2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning본 논문은 기존의 AI 생성 비디오 탐지 모델이 이진 분류에만 초점을 맞추고 설명 가능성이 부족하다는 한계를 해결하고자 합니다.#Review#AI-Generated Video Detection#Multimodal Large Language Model (MLLM)#Artifact Reasoning#Explainable AI#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Video Forensics2025년 12월 17일댓글 수 로딩 중
[논문리뷰] EditThinker: Unlocking Iterative Reasoning for Any Image Editor본 논문은 기존 단일 턴(single-turn) 이미지 편집 모델의 한계, 즉 내재된 무작위성과 숙고 부족으로 인한 낮은 명령어-추종(instruction-following) 성능을 해결하는 것을 목표로 합니다.#Review#Image Editing#Iterative Reasoning#Multimodal Large Language Model (MLLM)#Reinforcement Learning (RL)#Instruction Following#Critique-Refine-Repeat Cycle#Think-while-Edit2025년 12월 7일댓글 수 로딩 중
[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model본 논문은 제한적인 치과 데이터, 전문가 주석 부족, 모달리티별 모델링 미흡, 그리고 기존 MLLM의 일관성 및 신뢰성 문제(환각 응답 포함)로 인해 미개척 분야였던 치과 분야에서 포괄적이고 신뢰할 수 있는 분석을 위한 치과 전문 MLLM(Multimodal Large Language Model)인 OralGPT-Omni 를 개발하는 것을 목표로 합니다.#Review#Multimodal Large Language Model (MLLM)#Dental Imaging Analysis#Chain-of-Thought (CoT) Reasoning#Medical AI#Benchmark#Diagnosis#Oral Healthcare#Explainable AI2025년 11월 30일댓글 수 로딩 중