#Robustness

51개의 포스트

[논문리뷰] AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

본 논문은 정맥 인식 분야에서 자연 이미지용으로 개발된 기존 데이터 증강 기법들이 정맥 구조의 미세한 지형(Topology)과 질감을 훼손할 수 있다는 문제점을 해결하고자 합니다. 기존의 연구들은 특정 모델이나 데이터셋에 한정된 평가를 수행하여, 다양한 신경망 아키텍처와 증강 전략 간의 체계적인 비교가 부족했습니다 .

#Review #Vein Recognition #Data Augmentation #Biometrics #Reliability #Deep Learning #Benchmark #Robustness

2026년 7월 2일

[논문리뷰] Confidence-Aware Tool Orchestration for Robust Video Understanding

본 논문은 현대의 Video-LLM들이 실세계의 다양한 시각적 열화 환경에서 프레임별 신뢰도를 무시함으로써 발생하는 Blind Trust Problem을 해결하는 것을 목표로 합니다.

#Review #Video Understanding #Robustness #Tool Orchestration #GRPO #Frame Selection #Blind Trust Problem #Confidence-Aware

2026년 6월 25일

[논문리뷰] DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

본 연구는 관절형 물체를 조작할 때 발생하는 hand-object interaction (HOI) 의 물리적 안정성 문제를 해결하고자 합니다.

#Review #Dexterous Manipulation #Articulated Object Manipulation #Hand-Object Interaction #Reinforcement Learning #Contact-Driven #Physically Informed #Robustness

2026년 6월 18일

[논문리뷰] RepSelect: Robust LLM Unlearning via Representation Selectivity

본 논문은 LLM에서 특정 정보를 삭제하는 unlearning 과정이 왜 쉽게 역전(reversal)되는지 그 근본 원인을 분석하고 해결책을 제시합니다.

#Review #LLM Unlearning #Representation Selectivity #SVD #Robustness #Fine-tuning Attack #Few-shot Prompting

2026년 6월 16일

[논문리뷰] ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

본 논문은 LLM이 영어 기반 논리 벤치마크에서는 우수한 성능을 보이지만, 중국어와 같이 언어적/실용적 변동성이 큰 환경에서도 이러한 논리적 추론 성능이 유지되는지 의문을 제기한다.

#Review #Logical Reasoning #Chinese Language Understanding #Robustness #Large Language Models #Benchmark #Surface Realization #Back-translation

2026년 6월 16일

[논문리뷰] Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

본 논문은 최신 LLM이 의학적 시험에서는 우수한 성적을 거두지만, 실제 의료 환경의 복잡하고 오염된 정보 속에서는 판단 능력이 취약하다는 문제를 해결하고자 한다. 기존의 의료 벤치마크들은 주로 깨끗한(clean) 입력을 바탕으로 지식과 추론 능력을 평가하여 실제 배포 환경에서의 안정성을 과대평가하는 경향이 있다 .

#Review #Epistemic Resilience #LLM Evaluation #Medical Misinformation #Robustness #Benchmark #Medical Reasoning

2026년 6월 14일

[논문리뷰] FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

본 연구는 Deep Search Agents가 훈련 과정에서 데이터셋 내의 의도치 않은 패턴인 Shortcut에 과도하게 의존하여 실제 검색 환경에서 성능이 저하되는 현상을 해결합니다.

#Review #Deep Search Agents #Shortcut-Resistant #Task Synthesis #Representation Learning #Reinforcement Learning #Information Retrieval #Robustness

2026년 6월 11일

[논문리뷰] Pressure-Testing Deception Probes in LLMs: Scaling, Robustness, and the Geometry of Deceptive Representations

본 연구는 LLM의 deception detection을 위해 사용되는 Linear Probes가 실전 환경에서 보이는 극심한 성능 저하의 원인을 규명하고자 합니다.

#Review #LLM #Deception Detection #Linear Probes #Scaling Laws #Robustness #Geometric Analysis #Activation Engineering

2026년 6월 2일

[논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

본 논문은 기존 VLM 벤치마크가 현실의 물리적 환경에서 발생하는 다양한 시각적 스트레스를 제대로 반영하지 못한다는 점을 해결하고자 합니다.

#Review #Vision-Language Models #Embodied AI #Robustness #Physical Visual Stress #Benchmark #Inverse Graphics #Test-Time Rectification

2026년 6월 1일

[논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching

본 논문은 기존의 Output-level 메트릭이 모델 내부의 잔존 지식을 탐지하는 데 한계가 있다는 문제점을 제기합니다. 최근 연구들은 화이트박스 접근법을 통해 모델 내부의 지식 잔존을 확인하고 있으나, 데이터셋이나 보조 학습에 의존하여 범용적인 비교 지표가 부재한 상황입니다.

#Review #LLM Unlearning #Activation Patching #Model Privacy #Mechanistic Interpretability #White-box Evaluation #Faithfulness #Robustness

2026년 6월 1일

[논문리뷰] Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

본 논문은 최신 GUI 에이전트가 뛰어난 성능을 보임에도 불구하고, 실행 과정에서 발생하는 Policy-Induced Errors를 인지하고 복구하는 능력이 부족하여 실제 배포에 한계가 있다는 문제를 해결하고자 합니다.

#Review #GUI Agent #Robustness #Trajectory Synthesis #Policy-Induced Errors #Error Recovery #VLM

2026년 5월 31일

[논문리뷰] GradSentry: Gradient Spectral Entropy for Backdoor Sample Filtering in Large Language Model Fine-Tuning

본 논문은 LLM fine-tuning 과정에서 발생하는 backdoor 공격을 효과적으로 탐지하고 제거하기 위한 새로운 filtering 기법을 제안합니다.

#Review #LLM Fine-Tuning #Backdoor Defense #Gradient Spectral Entropy #Sample Filtering #SVD #Robustness

2026년 5월 27일

[논문리뷰] SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation

본 연구는 기존 MLLM의 공간 지능 벤치마크가 대부분 깨끗하고 이상적인 환경(Pristine visual inputs)만을 가정하여, 실제 환경에서 발생하는 다양한 시각적 퇴화를 간과하고 있다는 문제를 해결한다.

#Review #Multimodal Large Language Models #Spatial Intelligence #Visual Degradation #3D Gaussian Splatting #Robustness #Benchmarking #Degradation-aware Training

2026년 5월 21일

[논문리뷰] StableVLA: Towards Robust Vision-Language-Action Models without Extra Data

본 논문은 기존 VLA 모델들이 훈련 데이터에 포함되지 않은 실세계의 다양한 시각적 노이즈(센서 노이즈, 모션 블러 등)에 매우 취약하다는 점을 지적합니다. 현재의 VLA 모델은 주로 깨끗한 환경에서만 평가되며, 실제 배포 시 시각적 왜곡이 발생하면 성능이 급격히 저하되는 'robustness gap'을 보입니다.

#Review #Vision-Language-Action Models #Information Bottleneck #Robustness #Modality Alignment #Embodied AI #Adapter Design

2026년 5월 18일

[논문리뷰] Vividh-ASR: A Complexity-Tiered Benchmark and Optimization Dynamics for Robust Indic Speech Recognition

본 논문은 multilingual ASR 모델인 Whisper를 저자원(Low-resource) 언어로 fine-tuning 할 때 발생하는 성능 불균형 문제를 해결하는 데 집중한다.

#Review #Speech Recognition #Curriculum Learning #Indic Languages #Fine-tuning #Whisper #Studio-bias #Robustness

2026년 5월 13일

[논문리뷰] Sparse Autoencoders as Plug-and-Play Firewalls for Adversarial Attack Detection in VLMs

본 논문은 최신 Vision-Language Models(VLMs)가 Adversarial 공격에 극도로 취약하며, 기존의 탐지 방식들은 실질적인 배포 환경에서의 강력한 공격이나 데이터 분포 변화에 대응하지 못한다는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Adversarial Attack Detection #Sparse Autoencoders #Plug-and-Play #Robustness #Out-of-Domain Generalization

2026년 5월 10일

[논문리뷰] Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

본 논문은 코드 스위칭 검색 시스템의 성능 평가를 위해 인간이 주석을 단 CSR-L 벤치마크를 구축하고, 11개 작업을 포함하는 CS-MTEB를 통해 그 영향력을 정량적으로 분석하였다. 실험 결과, 쿼리 내 코드 스위칭만으로도 강력한 다국어 모델을 포함한 대부분의 시스템에서 유의미한 성능 저하가 발생함이 확인되었다.

#Review #Information Retrieval #Code-Switching #Benchmark #Embedding Models #Robustness #Late-Interaction #Lexicon-Based Adaptation

2026년 4월 21일

[논문리뷰] RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

본 논문은 Reinforcement Learning을 통해 최적의 도구 사용 전략을 자동 학습하는 RadAgent 프레임워크를 제안합니다. RadAgent는 초기 보고서 초안을 작성한 후, 임상 진단 체크리스트를 기반으로 단계별 에이전트 루프를 거치며 필요한 도구를 호출하고 결과를 업데이트합니다 .

#Review #RadAgent #Reinforcement Learning #Vision-Language Models #Chest CT #Medical Report Generation #Tool-using AI Agent #Faithfulness #Robustness

2026년 4월 16일

[논문리뷰] VenusBench-Mobile: A Challenging and User-Centric Benchmark for Mobile GUI Agents with Capability Diagnostics

본 논문은 사용자 의도 중심의 10가지 범주, 149개의 작업, 그리고 80개의 환경 변이를 포함하는 VenusBench-Mobile을 제안한다. 에이전트의 실패 원인을 세밀하게 분석하기 위해 PUDAM 역량 분류 체계를 도입하여 각 작업의 난이도를 4단계(Level 1-4)로 구분하였다.

#Review #Mobile GUI Agents #User-Centric Benchmark #Capability Diagnostics #Human-Computer Interaction #Performance Evaluation #Robustness

2026년 4월 8일

[논문리뷰] R3PM-Net: Real-time, Robust, Real-world Point Matching Network

본 논문은 기존 딥러닝 기반 PCR 방법론들이 합성 데이터셋 위주로 개발되어 실세계 산업 환경의 노이즈와 데이터 결함에 취약하다는 문제를 해결하고자 합니다.

#Review #Point Cloud Registration #Real-time #Feature Extraction #Industrial Automation #Event-camera #Robustness

2026년 4월 8일

[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 이 최종 결과에만 의존하여 중간 추론 단계의 정확성을 무시함으로써 모델의 일반화 및 견고성 저하, 환각 등의 문제를 야기하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization #Large Language Models (LLMs)#Generalization #Robustness #Reasoning Tasks

2026년 3월 11일

[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

기존 Classifier-Free Guidance (CFG)가 선형 제어에 의존하여 높은 가이던스 스케일에서 발생하는 불안정성, 오버슈팅, 의미 충실도 저하 문제를 해결하는 것입니다.

#Review #Diffusion Models #Classifier-Free Guidance #Control Theory #Sliding Mode Control #Text-to-Image Generation #Flow Matching #Generative AI #Robustness

2026년 3월 3일

[논문리뷰] Towards a Science of AI Agent Reliability

AI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.

#Review #AI Agents #Reliability #Evaluation Metrics #Consistency #Robustness #Predictability #Safety #Benchmarks

2026년 2월 18일

[논문리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery

본 연구는 단일 이미지로부터 강건한 전신 3D 인체 메시 복원(HMR) 을 목표로 하는 SAM 3D Body (3DB) 모델을 제안합니다. 특히, 도전적인 자세, 심각한 폐색, 그리고 흔치 않은 시점 등 다양한 실제 환경 조건에서 기존 HMR 모델의 낮은 견고성 및 부정확성을 개선하고자 합니다.

#Review #Human Mesh Recovery (HMR)#Full-Body Pose Estimation #Promptable Models #Momentum Human Rig (MHR)#Data Engine #Encoder-Decoder #Robustness #3D Vision

2026년 2월 18일

[논문리뷰] On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs

본 논문은 강화 학습(RL)으로 파인튜닝된 비전 언어 모델(VLM) 의 강건성(robustness) 및 사고 과정(Chain-of-Thought, CoT) 일관성 을 평가하는 것을 목표로 합니다.

#Review #VLM #RL Fine-tuning #Chain-of-Thought #Robustness #Faithfulness #Textual Perturbations #Visual Grounding #Uncertainty Calibration

2026년 2월 15일

[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

기존 VLA 정책의 잠재-액션 목표가 픽셀 변화에 고착되어 외형 편향, 불필요한 움직임, 정보 누출에 취약한 문제를 해결하는 것이 목표입니다. 본 연구는 액션 관련 상태 전이 를 학습하고 카메라 움직임 및 배경 변화에 견고한 동역학 추상화 를 제공하는 사전 훈련 프레임워크를 개발하고자 합니다.

#Review #Vision-Language-Action (VLA)#Latent World Model #JEPA #Pretraining #Robot Learning #Generalization #Robustness #Human Videos

2026년 2월 10일

[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across Tasks

본 논문은 GRPO(Group-Relative Policy Optimization) 기반의 RL 사후 훈련이 개별 추론 작업에서는 우수한 성능을 보이지만, 실제 환경에서는 다양한 작업 전반에 걸쳐 신뢰할 수 있는 성능 을 제공하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Multi-Task Learning #Reinforcement Learning #Policy Optimization #GRPO #Task Reweighting #Robustness #Reasoning Benchmarks

2026년 2월 5일

[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

본 논문은 실제 환경에서 발생하는 스캔, 기울어짐, 왜곡, 화면 촬영, 조명 변화와 같은 물리적 왜곡에 강건한 문서 파싱 모델 을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Visual Language Model (VLM)#Robustness #Multi-task Learning #Layout Analysis #OCR #Real-world Scenarios #Parameter Efficiency

2026년 2월 1일

[논문리뷰] Lost in the Noise: How Reasoning Models Fail with Contextual Distractors

현재 AI 연구는 '정돈된' 벤치마크에 의존하지만, 실제 환경의 본질적인 노이즈를 반영하지 못해 에이전트 AI 시스템의 실제 성능을 오해하게 만듭니다.

#Review #Robustness #Contextual Distractors #RAG #Reasoning Models #Alignment #Tool Use #NoisyBench #Rationale-Aware Reward #Inverse Scaling

2026년 1월 12일

[논문리뷰] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

본 논문은 텍스트-투-이미지 확산 모델의 개념 삭제(concept erasure) 방법들이 텍스트 프롬프트 외의 다른 입력 양식(모달리티)에 대해 얼마나 취약한지 평가하고, 이러한 취약점을 개선할 수 있는 새로운 추론 시간 방어 메커니즘을 제안하는 것을 목표로 합니다.

#Review #Diffusion Models #Concept Erasure #Multimodal Evaluation #Adversarial Attacks #Robustness #Textual Inversion #Latent Inversion #Cross-Attention

2026년 1월 5일

[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Tokenizer #Language Models (LMs)#Robustness #Multilingual NLP #Benchmark #Subword Segmentation #Pre-training #Tokenization Impact

2025년 12월 24일

[논문리뷰] LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

논문은 LLM 평가가 파편화된 태스크별 지표에 의존하고 있음을 지적하며, 이는 다양한 벤치마크 간의 적절한 가중치 혼합을 결정하는 데 실패하고 모델의 동적인 경쟁 적합성이나 순차적 태스크에서의 취약성을 포착하지 못한다고 주장합니다.

#Review #LLM Evaluation #Competitive Ranking #Swiss-System #Monte Carlo Simulation #Failure Sensitivity Analysis #Robustness #Multi-Benchmark

2025년 12월 24일

[논문리뷰] Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

본 논문은 Multimodal Large Language Models (MLLMs)가 실제 환경의 극심한 시각적 열화(visual degradations) 조건에서 성능이 크게 저하되는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Visual Degradation #Robustness #Reasoning Chains #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Degradation-Aware Reasoning #Interpretability

2025년 12월 21일

[논문리뷰] Are We on the Right Way to Assessing LLM-as-a-Judge?

본 논문은 현재 LLM-as-a-Judge 평가 방법론이 인간 주석에 과도하게 의존하여 발생하는 편향, 불일치성, 확장성 문제를 해결하고자 합니다.

#Review #LLM-as-a-Judge #Evaluation Metrics #Consistency #Robustness #Positional Bias #Transitivity #Situational Preference #Multi-agent Systems

2025년 12월 21일

[논문리뷰] Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

이 논문은 음성 양식이 LLM(Large Language Model) 에 직접 통합될 때 음성-텍스트 번역(ST) 품질이 향상되는지, 아니면 기존의 계단식(cascaded) 또는 직접(direct) 모델 이 여전히 더 효과적인 솔루션인지 평가합니다.

#Review #Speech-to-Text Translation #Multimodal LLMs #Speech Foundation Models #Cascaded Systems #Benchmarking #Speech Modality Integration #Robustness #Evaluation Metrics

2025년 12월 18일

[triton] 손상된 캐시 파일에 대한 방어적 처리 추가

JSON 캐시 파일 읽기 시 발생할 수 있는 파싱 오류를 try-except로 처리하여 손상된 캐시로 인한 크래시를 방지한 사례를 분석합니다.

#Triton #Cache #Robustness #BugFix

2025년 12월 6일

[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images

본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.

#Review #Multimodal LLM #Tool Learning #Code Generation #Reinforcement Learning #Image Manipulation #Robustness #Error Recovery #Programming Vision

2025년 12월 3일

[논문리뷰] DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

Vision-Language-Action (VLA) 모델이 분포 변화 및 복잡한 다단계 로봇 조작 태스크에서 성능 저하를 겪는 문제를 해결하고자 합니다. 이는 학습된 표현이 태스크 관련 의미를 견고하게 포착하지 못하기 때문이며, 본 논문은 기하학적 정규화 를 통해 VLA 모델의 견고성을 향상시키는 것을 목표로 합니다.

#Review #VLA Models #Flow Matching #Robotics #Robustness #Distribution Shift #Wasserstein Distance #Geometric Regularization #Representation Learning

2025년 12월 2일

[논문리뷰] Towards Robust Mathematical Reasoning

기존 수학 벤치마크들의 포화 상태와 단답형 답변 위주의 한계를 극복하기 위해, 논문은 국제 수학 올림피아드(IMO) 수준의 견고한 수학적 추론 능력을 평가하는 새로운 벤치마크 스위트인 IMO-Bench 를 제안합니다.

#Review #Mathematical Reasoning #Large Language Models (LLMs)#AI Benchmarks #International Mathematical Olympiad (IMO)#Proof Verification #Automatic Grading #Robustness

2025년 11월 9일

[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.

#Review #AI Assistants #Multimodal Benchmarking #Audio Understanding #Speech Synthesis #Vision-Language Models #Role-play #Safety #Robustness

2025년 9월 29일

[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

본 논문은 대규모 언어 모델(LLMs)이 지도 미세 조정(SFT) 과정에서 학습한 표준화된 패턴과 상충하는 지시를 따르는 데 어려움을 겪는 ' 인지적 관성 ' 문제를 해결하고자 합니다.

#Review #LLMs #Instruction Following #Benchmark #Cognitive Inertia #Out-of-Distribution #Supervised Fine-Tuning #Evaluation #Robustness

2025년 9월 5일

[논문리뷰] AHELM: A Holistic Evaluation of Audio-Language Models

오디오-언어 모델(ALMs)의 표준화된 벤치마크 부족 문제를 해결하고, 기존 평가들이 제한된 기능에만 초점을 맞추며 공정성 및 안전성 같은 중요한 측면을 간과하는 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Language Models #Holistic Evaluation #Benchmarking #Multimodality #Fairness #Robustness #Reasoning #Bias Detection

2025년 9월 1일

[논문리뷰] Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

본 연구는 LLM이 다중 턴 대화에서 잘못된 정보에 대한 설득 저항성(robustness) 과 유효한 수정 사항에 대한 수용성(receptiveness) 사이의 균형을 유지하는 능력인 스탠스 변화 역학 을 평가하고 개선하는 것을 목표로 합니다.

#Review #Persuasion Dynamics #Large Language Models (LLMs)#Robustness #Gullibility #Receptiveness #Direct Preference Optimization (DPO)#Safety Alignment #Multi-turn Dialogue

2025년 8월 29일

[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?

본 연구는 파운데이션 시각 인코더(Foundation Visual Encoders)가 이미지 처리(예: JPEG 압축) 및 획득(예: 카메라 모델)과 관련된 메타데이터 정보를 어떻게 인코딩 하며, 이러한 정보가 의미론적 예측에 어떤 영향 을 미치는지 탐구하는 것을 목표로 합니다.

#Review #Visual Encoders #Metadata #Image Processing #Image Acquisition #Robustness #CLIP #Foundation Models #Distribution Shift

2025년 8월 15일

[논문리뷰] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models

기존 MLLM 수학 추론 벤치마크들이 대부분 깨끗하거나 전처리된 이미지를 사용하는 한계를 극복하고자 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Math Reasoning #Real-World Benchmark #Visual Perception #Robustness #K-12 Education #Dataset

2025년 8월 14일

[논문리뷰] AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem Solving

대규모 언어 모델(LLM) 기반 에이전트가 외부 도구를 활용할 때 발생하는 확장된 컨텍스트 및 노이즈/관련성 없는 도구 출력 으로 인한 시스템 신뢰성 및 정확도 저하 문제를 해결하고, 에이전트 기반 시스템의 안정성과 견고성 을 향상시키는 것을 목표로 합니다.

#Review #Multi-Agent System #Agent Stability #LLM #Tool Use #GAIA Benchmark #Robustness #Dynamic Supervision #Maneuvering

2025년 8월 14일

[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense Alignment

기존 VLM이 차트의 세부 정보를 정확하게 인지하고 미세한 구조를 추출하는 데 어려움을 겪어 다중 차트 비교 및 추론 능력이 부족하다는 문제를 해결합니다.

#Review #Vision-Language Models (VLMs)#Chart Understanding #Visual Grounding #Dense Alignment #Benchmark #Robustness #Multimodal Learning

2025년 10월 31일

[논문리뷰] Attention Sinks in Diffusion Language Models

Diffusion Language Models (DLMs)의 내부 메커니즘, 특히 다른 트랜스포머 아키텍처에서 관찰된 '어텐션 싱크(attention sink)' 현상 이 DLMs에서도 발생하는지 여부와 그 특성을 규명하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Attention Sinks #Transformer Architecture #Masked Language Modeling #Bidirectional Attention #Generative Models #Robustness #Dynamic Attention

2025년 10월 23일

[논문리뷰] Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense

본 논문은 대규모 추론 모델(LRMs)에서 '추론 방해(Reasoning Distraction)' 라는 새로운 취약점을 식별하고 체계적으로 분석하는 것을 목표로 합니다.

#Review #Large Reasoning Models (LRMs)#Prompt Injection #Adversarial Attack #Reasoning Distraction #Chain-of-Thought #Robustness #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)

2025년 10월 21일

[논문리뷰] SynthID-Image: Image watermarking at internet scale

본 논문은 AI 생성 이미지의 출처(provenance)를 인터넷 규모로 확립하기 위한 SynthID-Image 라는 딥러닝 기반의 비가시적 이미지 워터마킹 시스템을 소개합니다.

#Review #Image Watermarking #AI-Generated Content #Provenance #Robustness #Security #Deep Learning #Internet Scale #Post-hoc

2025년 10월 15일

[논문리뷰] MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial Purification

기존 확산 모델 기반의 적대적 정화(Adversarial Purification, AP) 방식이 균일한 노이즈 주입으로 인해 이미지의 의미론적 구조를 손상시키고 강건성을 저해하는 문제를 해결하는 것이 목표입니다.

#Review #Adversarial Purification #Diffusion Models #Frequency Domain #Adaptive Noise Injection #Robustness #Image Security #Magnitude Spectrum

2025년 10월 1일