#Perception

7개의 포스트

[논문리뷰] From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

본 연구는 기존 VLM이 Perception과 Reasoning 기능을 동시에 학습함으로써 발생하는 성능 저하와 최적화 불균형 문제를 해결하기 위해 시작되었습니다.

#Review #Vision-Language Models #Post-Training #Perception #Reasoning #Decoupling #Multimodal Learning

2026년 5월 24일

[논문리뷰] MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

본 논문은 MLLM(Multi-modal Large Language Models)이 물리적 환경에서 일반적인 비서 역할을 수행하기 위해 필수적인 비디오 기반 공간 지능 을 평가할 수 있는 포괄적인 벤치마크의 부재를 해결하고자 합니다.

#Review #Video-Based Spatial Intelligence #MLLM Benchmark #Spatial Reasoning #Multi-Modal Learning #Perception #Planning #Prediction #Cross-Video Reasoning #Human-AI Gap

2025년 12월 17일

[논문리뷰] Video models are zero-shot learners and reasoners

본 논문은 비디오 모델이 대규모 언어 모델(LLM)이 언어 이해 분야에서 이룬 것과 같이, 일반적인 목적의 비전 파운데이션 모델이 될 수 있다는 가설을 제시합니다.

#Review #Video Models #Zero-shot Learning #Visual Reasoning #Foundation Models #Generative AI #Perception #Manipulation #Modeling

2025년 9월 25일

[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and Planning

이 논문은 Mobile/PC 환경에서 복잡한 작업을 자동화하는 GUI 에이전트 의 핵심 역량을 강화하는 오픈소스 파운데이션 모델, Ultron 을 제시합니다.

#Review #GUI Agent #Foundational Model #Multimodal LLM #Perception #Planning #Reinforcement Learning #Data Engineering #Chinese App Scenarios

2025년 9월 1일

[논문리뷰] Phi-Ground Tech Report: Advancing Perception in GUI Grounding

본 논문은 현재 65% 미만 의 정확도를 보이는 GUI 그라운딩 모델의 한계를 극복하고, Computer Use Agent (CUA) 의 핵심 구성 요소로서 GUI 요소 인식을 향상시켜 실제 애플리케이션에 배포 가능한 수준의 성능을 달성하는 것을 목표로 합니다.

#Review #GUI grounding #AI agent #Large Multi-modal Model #Perception #Data Augmentation #Direct Preference Optimization #Computational Efficiency

2025년 8월 2일

[논문리뷰] Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation

본 연구는 Ming-Omni 의 업그레이드 버전인 Ming-Flash-Omni 를 제안하여, 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 시각, 음성, 언어 전반에 걸쳐 더욱 강력하고 통합된 멀티모달 지능을 구현하는 것을 목표로 합니다.

#Review #Multimodal AI #Sparse MoE #Unified Architecture #Perception #Generation #Contextual ASR #Image Editing #Generative Segmentation

2025년 10월 30일

[논문리뷰] OceanGym: A Benchmark Environment for Underwater Embodied Agents

본 연구는 해저 환경의 낮은 가시성, 동적 해류 등의 극한 조건에서 AI 기반 자율 수중 로봇(AUV) 이 직면하는 심각한 인지 및 의사결정 문제들을 해결하기 위해, 포괄적인 벤치마크 환경인 OCEANGYM 을 제안합니다. 궁극적으로는 실제 환경에 적용 가능한 강력한 자율 에이전트 개발을 촉진하는 것을 목표로 합니다.

#Review #Underwater Robotics #Embodied AI #Benchmark Environment #Multi-modal Large Language Models #Autonomous Underwater Vehicles #Perception #Decision-Making #Simulation

2025년 10월 1일