#Multi-modal Large Language Models

5개의 포스트

[논문리뷰] A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning

본 논문은 오디오-시각적 MLLM이 서로 다른 모달리티 간의 정보 불일치에 노출되었을 때 발생하는 취약점을 체계적으로 분석한다.

#Review #Multi-modal Large Language Models #Audio Typography #Adversarial Attack #Cross-modal Robustness #Semantic Steering #Safety Application #Content Moderation

2026년 4월 8일

[논문리뷰] OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

기존 3D 장면 이해 방법론들이 훈련된 임베딩과 대규모 수동 주석, 긴 훈련 시간에 의존하는 한계를 극복하고자 합니다. OpenVoxel은 훈련 없이 희소 복셀을 그룹화하고 캡셔닝하여 오픈-vocabulary 3D 장면 이해 태스크를 수행하며, 특히 복잡한 자연어 질의에 효과적으로 대응하는 것을 목표로 합니다.

#Review #3D Scene Understanding #Open-Vocabulary Segmentation #Referring Expression Segmentation #Training-Free #Voxel Grouping #Vision-Language Models #Multi-modal Large Language Models #Sparse Voxel Rasterization

2026년 1월 14일

[논문리뷰] RynnEC: Bringing MLLMs into Embodied World

본 논문의 핵심 목표는 기존 Multi-modal Large Language Models ( MLLM )이 실제 물리적 세계를 이해하는 데 부족했던 기초적인 시각 인지 능력 의 한계를 극복하는 것입니다.

#Review #Multi-modal Large Language Models #Embodied AI #Embodied Cognition #Video Understanding #Instance Segmentation #Spatial Reasoning #Robotics

2025년 8월 21일

[논문리뷰] Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation

텍스트-3D(T23D) 생성 과정에서 발생하는 '블라인드 시행착오' 프롬프트 문제와 그로 인한 예측 불가능한 결과 및 비효율적인 워크플로우를 해결하는 것이 주 목표입니다.

#Review #Text-to-3D Generation #Prompt Engineering #Visual Analytics #Human-Computer Interaction #Multi-modal Large Language Models #3D Model Evaluation

2025년 8월 7일

[논문리뷰] OceanGym: A Benchmark Environment for Underwater Embodied Agents

본 연구는 해저 환경의 낮은 가시성, 동적 해류 등의 극한 조건에서 AI 기반 자율 수중 로봇(AUV) 이 직면하는 심각한 인지 및 의사결정 문제들을 해결하기 위해, 포괄적인 벤치마크 환경인 OCEANGYM 을 제안합니다. 궁극적으로는 실제 환경에 적용 가능한 강력한 자율 에이전트 개발을 촉진하는 것을 목표로 합니다.

#Review #Underwater Robotics #Embodied AI #Benchmark Environment #Multi-modal Large Language Models #Autonomous Underwater Vehicles #Perception #Decision-Making #Simulation

2025년 10월 1일