[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.#Review#Multimodal Critics#Physical AI#Reinforcement Learning#Self-Referential Finetuning#Evaluation Models#Causal Reasoning#Embodied AI#RLVR2026년 2월 11일댓글 수 로딩 중
[논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing이 논문은 기존의 텍스트 기반 이미지 편집 벤치마크의 한계를 극복하고, 스케치, 화살표, 영역 주석 등 시각적 지침(visual instructions) 에 따른 이미지 편집 모델의 성능을 체계적으로 평가하기 위한 벤치마크인 VIBE 를 제안하는 것을 목표로 합니다.#Review#Visual Instruction#Image Editing#Multimodal Benchmark#LMM-as-a-judge#Deictic Grounding#Morphological Manipulation#Causal Reasoning#Generative Models2026년 2월 2일댓글 수 로딩 중
[논문리뷰] DeepSeek-OCR 2: Visual Causal Flow본 논문은 기존 Vision-Language Model (VLM) 이 시각 토큰을 고정된 래스터 스캔 순서로 처리하여 인간의 유연한 시각 인지 방식과 상충하는 문제를 해결하고자 합니다.#Review#OCR#Vision-Language Model#Causal Reasoning#Transformer Architecture#Attention Mechanism#Document Understanding#DeepEncoder2026년 1월 28일댓글 수 로딩 중
[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs기존 벤치마크들이 주로 회고적 이해에 초점을 맞추는 한계를 해결하기 위해, 오디오-비주얼 환경에서 멀티모달 대규모 언어 모델(MLLM)의 미래 사건 예측 능력 을 평가하는 것을 목표로 합니다. 특히, 모델이 교차 모달 인과 및 시간 추론 을 수행하고 내부 지식을 활용하여 미래 이벤트를 예측하는 능력을 평가하고자 합니다.#Review#Multimodal LLMs#Future Forecasting#Audio-Visual Reasoning#Benchmark#Instruction Tuning#Omni-Modal#Causal Reasoning2026년 1월 20일댓글 수 로딩 중
[논문리뷰] GraphLocator: Graph-guided Causal Reasoning for Issue Localization본 논문은 소프트웨어 이슈 로컬라이제이션의 근본적인 문제인 '증상-원인 불일치(symptom-to-cause mismatch)'와 '일대다 불일치(one-to-many mismatch)'를 해결하는 것을 목표로 합니다.#Review#Issue Localization#Causal Reasoning#Graph-guided#Large Language Models#Software Engineering#Defect Analysis#Repository Mining2025년 12월 30일댓글 수 로딩 중
[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights현재 텍스트-이미지(T2I) 모델이 정적 이미지 생성에는 뛰어나지만, 시간 경과에 따라 전개되는 동적, 인과적 프로세스 를 모델링하는 데 한계가 있음을 지적합니다. 이 논문은 모델이 정적 패턴 매칭을 넘어 진정한 세계 지식을 내재화하고 인과적 시공간 제약을 준수하는지 평가하기 위한 벤치마크를 제시하는 것을 목표로 합니다.#Review#Multimodal AI#Text-to-Multi-Image#Causal Reasoning#World Knowledge#Benchmarking#Spatiotemporal Consistency#Generative Models#Evaluation Metrics2025년 12월 1일댓글 수 로딩 중
[논문리뷰] VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models본 논문은 기존 비디오 이상 탐지(VAD) 방법들이 놓치던 이상 행동의 깊은 인과 관계 및 객체 간 상호작용 을 이해하는 한계를 극복하고자 합니다. 궁극적으로 비디오 내 이상 현상에 대한 자세한 해석과 의미론적 이해 를 제공하는 것을 목표로 합니다.#Review#Video Anomaly Understanding#Large Language Models#Causal Reasoning#Relation-Aware#Keyframe Sampling#Multimodal LLMs#Scene Graphs2025년 11월 10일댓글 수 로딩 중