[논문리뷰] CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVRJiajun Song이 arXiv에 게시한 'CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Verifiable Rewards (RLVR)#Contrastive Learning (CL)#Policy Optimization#Large Language Models (LLMs)#Generalization#Robustness#Reasoning Tasks2026년 3월 11일댓글 수 로딩 중
[논문리뷰] CFG-Ctrl: Control-Based Classifier-Free Diffusion GuidancearXiv에 게시된 'CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Classifier-Free Guidance#Control Theory#Sliding Mode Control#Text-to-Image Generation#Flow Matching#Generative AI#Robustness2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Towards a Science of AI Agent ReliabilityarXiv에 게시된 'Towards a Science of AI Agent Reliability' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Reliability#Evaluation Metrics#Consistency#Robustness#Predictability#Safety#Benchmarks2026년 2월 18일댓글 수 로딩 중
[논문리뷰] SAM 3D Body: Robust Full-Body Human Mesh RecoveryTaosha Fan이 arXiv에 게시한 'SAM 3D Body: Robust Full-Body Human Mesh Recovery' 논문에 대한 자세한 리뷰입니다.#Review#Human Mesh Recovery (HMR)#Full-Body Pose Estimation#Promptable Models#Momentum Human Rig (MHR)#Data Engine#Encoder-Decoder#Robustness#3D Vision2026년 2월 18일댓글 수 로딩 중
[논문리뷰] On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMsarXiv에 게시된 'On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs' 논문에 대한 자세한 리뷰입니다.#Review#VLM#RL Fine-tuning#Chain-of-Thought#Robustness#Faithfulness#Textual Perturbations#Visual Grounding#Uncertainty Calibration2026년 2월 15일댓글 수 로딩 중
[논문리뷰] VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World ModelZezhi Liu이 arXiv에 게시한 'VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA)#Latent World Model#JEPA#Pretraining#Robot Learning#Generalization#Robustness#Human Videos2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Multi-Task GRPO: Reliable LLM Reasoning Across TasksZhiyong Wang이 arXiv에 게시한 'Multi-Task GRPO: Reliable LLM Reasoning Across Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models (LLMs)#Multi-Task Learning#Reinforcement Learning#Policy Optimization#GRPO#Task Reweighting#Robustness#Reasoning Benchmarks2026년 2월 5일댓글 수 로딩 중
[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document ParsingZelun Zhang이 arXiv에 게시한 'PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing' 논문에 대한 자세한 리뷰입니다.#Review#Document Parsing#Visual Language Model (VLM)#Robustness#Multi-task Learning#Layout Analysis#OCR#Real-world Scenarios#Parameter Efficiency2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Lost in the Noise: How Reasoning Models Fail with Contextual DistractorsarXiv에 게시된 'Lost in the Noise: How Reasoning Models Fail with Contextual Distractors' 논문에 대한 자세한 리뷰입니다.#Review#Robustness#Contextual Distractors#RAG#Reasoning Models#Alignment#Tool Use#NoisyBench#Rationale-Aware Reward#Inverse Scaling2026년 1월 12일댓글 수 로딩 중
[논문리뷰] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion ModelsJun-Cheng Chen이 arXiv에 게시한 'M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Concept Erasure#Multimodal Evaluation#Adversarial Attacks#Robustness#Textual Inversion#Latent Inversion#Cross-Attention2026년 1월 5일댓글 수 로딩 중
[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model BehaviorarXiv에 게시된 'TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior' 논문에 대한 자세한 리뷰입니다.#Review#Tokenizer#Language Models (LMs)#Robustness#Multilingual NLP#Benchmark#Subword Segmentation#Pre-training#Tokenization Impact2025년 12월 24일댓글 수 로딩 중
[논문리뷰] LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System DynamicsarXiv에 게시된 'LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Competitive Ranking#Swiss-System#Monte Carlo Simulation#Failure Sensitivity Analysis#Robustness#Multi-Benchmark2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Robust-R1: Degradation-Aware Reasoning for Robust Visual UnderstandingRuntao Liu이 arXiv에 게시한 'Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#Visual Degradation#Robustness#Reasoning Chains#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Degradation-Aware Reasoning#Interpretability2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Are We on the Right Way to Assessing LLM-as-a-Judge?arXiv에 게시된 'Are We on the Right Way to Assessing LLM-as-a-Judge?' 논문에 대한 자세한 리뷰입니다.#Review#LLM-as-a-Judge#Evaluation Metrics#Consistency#Robustness#Positional Bias#Transitivity#Situational Preference#Multi-agent Systems2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMsCarlos Escolano이 arXiv에 게시한 'Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Speech-to-Text Translation#Multimodal LLMs#Speech Foundation Models#Cascaded Systems#Benchmarking#Speech Modality Integration#Robustness#Evaluation Metrics2025년 12월 18일댓글 수 로딩 중
[triton] 손상된 캐시 파일에 대한 방어적 처리 추가JSON 캐시 파일 읽기 시 발생할 수 있는 파싱 오류를 try-except로 처리하여 손상된 캐시로 인한 크래시를 방지한 사례를 분석합니다.#Triton#Cache#Robustness#BugFix2025년 12월 6일댓글 수 로딩 중
[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with ImagesTao Jin이 arXiv에 게시한 'Thinking with Programming Vision: Towards a Unified View for Thinking with Images' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Tool Learning#Code Generation#Reinforcement Learning#Image Manipulation#Robustness#Error Recovery#Programming Vision2025년 12월 3일댓글 수 로딩 중
[논문리뷰] DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA ModelsarXiv에 게시된 'DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models' 논문에 대한 자세한 리뷰입니다.#Review#VLA Models#Flow Matching#Robotics#Robustness#Distribution Shift#Wasserstein Distance#Geometric Regularization#Representation Learning2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Towards Robust Mathematical ReasoningYuri Chervonyi이 arXiv에 게시한 'Towards Robust Mathematical Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Mathematical Reasoning#Large Language Models (LLMs)#AI Benchmarks#International Mathematical Olympiad (IMO)#Proof Verification#Automatic Grading#Robustness2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense AlignmentarXiv에 게시된 'ChartAB: A Benchmark for Chart Grounding & Dense Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models (VLMs)#Chart Understanding#Visual Grounding#Dense Alignment#Benchmark#Robustness#Multimodal Learning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Attention Sinks in Diffusion Language ModelsSimone Scardapane이 arXiv에 게시한 'Attention Sinks in Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Language Models#Attention Sinks#Transformer Architecture#Masked Language Modeling#Bidirectional Attention#Generative Models#Robustness#Dynamic Attention2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Distractor Injection Attacks on Large Reasoning Models: Characterization and DefensearXiv에 게시된 'Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense' 논문에 대한 자세한 리뷰입니다.#Review#Large Reasoning Models (LRMs)#Prompt Injection#Adversarial Attack#Reasoning Distraction#Chain-of-Thought#Robustness#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)2025년 10월 21일댓글 수 로딩 중
[논문리뷰] SynthID-Image: Image watermarking at internet scalearXiv에 게시된 'SynthID-Image: Image watermarking at internet scale' 논문에 대한 자세한 리뷰입니다.#Review#Image Watermarking#AI-Generated Content#Provenance#Robustness#Security#Deep Learning#Internet Scale#Post-hoc2025년 10월 15일댓글 수 로딩 중
[논문리뷰] MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial PurificationZhiming Luo이 arXiv에 게시한 'MANI-Pure: Magnitude-Adaptive Noise Injection for Adversarial Purification' 논문에 대한 자세한 리뷰입니다.#Review#Adversarial Purification#Diffusion Models#Frequency Domain#Adaptive Noise Injection#Robustness#Image Security#Magnitude Spectrum2025년 10월 1일댓글 수 로딩 중
[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and ViewingarXiv에 게시된 'VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing' 논문에 대한 자세한 리뷰입니다.#Review#AI Assistants#Multimodal Benchmarking#Audio Understanding#Speech Synthesis#Vision-Language Models#Role-play#Safety#Robustness2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?Yu Fu이 arXiv에 게시한 'Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?' 논문에 대한 자세한 리뷰입니다.#Review#LLMs#Instruction Following#Benchmark#Cognitive Inertia#Out-of-Distribution#Supervised Fine-Tuning#Evaluation#Robustness2025년 9월 5일댓글 수 로딩 중
[논문리뷰] AHELM: A Holistic Evaluation of Audio-Language ModelsSiwei Yang이 arXiv에 게시한 'AHELM: A Holistic Evaluation of Audio-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Language Models#Holistic Evaluation#Benchmarking#Multimodality#Fairness#Robustness#Reasoning#Bias Detection2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PDRoy Ka-Wei Lee이 arXiv에 게시한 'Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD' 논문에 대한 자세한 리뷰입니다.#Review#Persuasion Dynamics#Large Language Models (LLMs)#Robustness#Gullibility#Receptiveness#Direct Preference Optimization (DPO)#Safety Alignment#Multi-turn Dialogue2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Processing and acquisition traces in visual encoders: What does CLIP know about your camera?Giorgos Tolias이 arXiv에 게시한 'Processing and acquisition traces in visual encoders: What does CLIP know about your camera?' 논문에 대한 자세한 리뷰입니다.#Review#Visual Encoders#Metadata#Image Processing#Image Acquisition#Robustness#CLIP#Foundation Models#Distribution Shift2025년 8월 15일댓글 수 로딩 중
[논문리뷰] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language ModelsZhihan Zhou이 arXiv에 게시한 'MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#Math Reasoning#Real-World Benchmark#Visual Perception#Robustness#K-12 Education#Dataset2025년 8월 14일댓글 수 로딩 중
[논문리뷰] AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem SolvingJinjie Gu이 arXiv에 게시한 'AWorld: Dynamic Multi-Agent System with Stable Maneuvering for Robust GAIA Problem Solving' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Agent System#Agent Stability#LLM#Tool Use#GAIA Benchmark#Robustness#Dynamic Supervision#Maneuvering2025년 8월 14일댓글 수 로딩 중