#Causal Reasoning

8개의 포스트

[논문리뷰] CausalDS: Benchmarking Causal Reasoning in Data-Science Agents

본 논문은 현대의 LLM 기반 데이터 과학 에이전트들이 복잡한 인과적 추론을 수행하는 능력이 부족하거나 불투명하다는 문제를 해결하고자 합니다.

#Review #Causal Reasoning #Data-Science Agents #Structural Causal Models #Benchmarking #Identifiability #Uncertainty Quantification #Tool Use

2026년 7월 9일

[논문리뷰] PhyCritic: Multimodal Critic Models for Physical AI

본 연구는 물리 AI 태스크 의 평가에 특화된 신뢰성 있는 멀티모달 비평 모델의 부재를 해결하고자 합니다.

#Review #Multimodal Critics #Physical AI #Reinforcement Learning #Self-Referential Finetuning #Evaluation Models #Causal Reasoning #Embodied AI #RLVR

2026년 2월 11일

[논문리뷰] How Well Do Models Follow Visual Instructions? VIBE: A Systematic Benchmark for Visual Instruction-Driven Image Editing

이 논문은 기존의 텍스트 기반 이미지 편집 벤치마크의 한계를 극복하고, 스케치, 화살표, 영역 주석 등 시각적 지침(visual instructions) 에 따른 이미지 편집 모델의 성능을 체계적으로 평가하기 위한 벤치마크인 VIBE 를 제안하는 것을 목표로 합니다.

#Review #Visual Instruction #Image Editing #Multimodal Benchmark #LMM-as-a-judge #Deictic Grounding #Morphological Manipulation #Causal Reasoning #Generative Models

2026년 2월 2일

[논문리뷰] DeepSeek-OCR 2: Visual Causal Flow

본 논문은 기존 Vision-Language Model (VLM) 이 시각 토큰을 고정된 래스터 스캔 순서로 처리하여 인간의 유연한 시각 인지 방식과 상충하는 문제를 해결하고자 합니다.

#Review #OCR #Vision-Language Model #Causal Reasoning #Transformer Architecture #Attention Mechanism #Document Understanding #DeepEncoder

2026년 1월 28일

[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

기존 벤치마크들이 주로 회고적 이해에 초점을 맞추는 한계를 해결하기 위해, 오디오-비주얼 환경에서 멀티모달 대규모 언어 모델(MLLM)의 미래 사건 예측 능력 을 평가하는 것을 목표로 합니다. 특히, 모델이 교차 모달 인과 및 시간 추론 을 수행하고 내부 지식을 활용하여 미래 이벤트를 예측하는 능력을 평가하고자 합니다.

#Review #Multimodal LLMs #Future Forecasting #Audio-Visual Reasoning #Benchmark #Instruction Tuning #Omni-Modal #Causal Reasoning

2026년 1월 20일

[논문리뷰] GraphLocator: Graph-guided Causal Reasoning for Issue Localization

본 논문은 소프트웨어 이슈 로컬라이제이션의 근본적인 문제인 '증상-원인 불일치(symptom-to-cause mismatch)'와 '일대다 불일치(one-to-many mismatch)'를 해결하는 것을 목표로 합니다.

#Review #Issue Localization #Causal Reasoning #Graph-guided #Large Language Models #Software Engineering #Defect Analysis #Repository Mining

2025년 12월 30일

[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

현재 텍스트-이미지(T2I) 모델이 정적 이미지 생성에는 뛰어나지만, 시간 경과에 따라 전개되는 동적, 인과적 프로세스 를 모델링하는 데 한계가 있음을 지적합니다. 이 논문은 모델이 정적 패턴 매칭을 넘어 진정한 세계 지식을 내재화하고 인과적 시공간 제약을 준수하는지 평가하기 위한 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Multimodal AI #Text-to-Multi-Image #Causal Reasoning #World Knowledge #Benchmarking #Spatiotemporal Consistency #Generative Models #Evaluation Metrics

2025년 12월 1일

[논문리뷰] VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models

본 논문은 기존 비디오 이상 탐지(VAD) 방법들이 놓치던 이상 행동의 깊은 인과 관계 및 객체 간 상호작용 을 이해하는 한계를 극복하고자 합니다. 궁극적으로 비디오 내 이상 현상에 대한 자세한 해석과 의미론적 이해 를 제공하는 것을 목표로 합니다.

#Review #Video Anomaly Understanding #Large Language Models #Causal Reasoning #Relation-Aware #Keyframe Sampling #Multimodal LLMs #Scene Graphs

2025년 11월 10일