[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.#Review#Multimodal LLM#Tool Learning#Code Generation#Reinforcement Learning#Image Manipulation#Robustness#Error Recovery#Programming Vision2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch기존 멀티모달 에이전트 시스템의 한계, 즉 이미지 조작과 웹 검색의 분리, 값비싼 강화 학습(RL) 의존성, 실제 도구 실행과 괴리된 계획 수립 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal AI#Agentic Models#Interleaved Reasoning#Image Manipulation#DeepSearch#Supervised Fine-tuning (SFT)#Tool-Augmented LLM2025년 12월 2일댓글 수 로딩 중
[논문리뷰] TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning본 연구는 기존 벤치마크들이 OpenAI o3 와 같은 최신 MLLM의 'thinking-with-images' (이미지로 사고하기) 능력, 즉 이미지 조작 도구를 활용한 문제 해결 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Agentic Reasoning#Thinking-with-Images#Visual Reasoning Benchmark#Tool Use#Image Manipulation#Fine-tuning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer본 논문은 텍스트 지시 기반의 이미지 및 비디오 색상 편집에서 물리적 일관성 을 유지하며 정교한 제어를 가능하게 하는 미해결 문제를 다룹니다. 기존의 훈련 불필요(training-free) 방법론들이 정확한 색상 제어와 시각적 불일치 문제를 겪는 한계를 극복하고자 합니다.#Review#Text-Guided Editing#Color Editing#Diffusion Transformers#Training-Free#Multi-Modal AI#Attention Control#Image Manipulation2025년 8월 20일댓글 수 로딩 중