[논문리뷰] LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models저자들은 로봇 조작 지시문의 핵심 구성 요소인 행동과 객체를 기반으로 43개의 정밀한 변형 유형을 포함하는 LIBERO-Para를 구축하였다. 또한, 모델의 성공 여부뿐만 아니라 원문 지시문과 파라프레이즈 간의 키워드 유사도(SKS_K)와 구조적 유사도(STS_T)를 결합한 PRIDE 메트릭을 제안하여 보다 해석 가능한 견고성 평가를 수행한다 .#Review#Vision-Language-Action (VLA) Models#Paraphrase Robustness#Robotic Manipulation#Diagnostic Benchmark#PRIDE Metric#Object Grounding#Trajectory Divergence2026년 4월 6일댓글 수 로딩 중
[논문리뷰] HDP: A Lightweight Cryptographic Protocol for Human Delegation Provenance in Agentic AI SystemsarXiv에 게시된 'HDP: A Lightweight Cryptographic Protocol for Human Delegation Provenance in Agentic AI Systems' 논문에 대한 자세한 리뷰입니다.#Review#Agentic AI#Delegation Provenance#Cryptographic Authorization#Multi-agent Systems#Ed25519#Human-in-the-loop Security#IETF2026년 4월 6일댓글 수 로딩 중
[논문리뷰] FileGram: Grounding Agent Personalization in File-System Behavioral TracesZhe Yang이 arXiv에 게시한 'FileGram: Grounding Agent Personalization in File-System Behavioral Traces' 논문에 대한 자세한 리뷰입니다.#Review#Agent Personalization#File-System Behavioral Traces#Memory Framework#Multimodal Grounding#Benchmark2026년 4월 6일댓글 수 로딩 중
[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.#Review#AI Agents#Benchmark#Information Environments#Multi-source Reasoning#Belief Revision#Implicit Personalization2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Can LLMs Learn to Reason Robustly under Noisy Supervision?Haobo Wang이 arXiv에 게시한 'Can LLMs Learn to Reason Robustly under Noisy Supervision?' 논문에 대한 자세한 리뷰입니다.#Review#RLVR#Noisy Label Learning#Online Label Refinement#Early Correctness Coherence#Large Language Models#Reasoning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal ModelsYao Chen이 arXiv에 게시한 'CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Models#Image Degradation#Latent Representation Bridge#Interleaved GRPO#Robust Understanding2026년 4월 6일댓글 수 로딩 중
[논문리뷰] AvatarPointillist: AutoRegressive 4D Gaussian AvatarizationarXiv에 게시된 'AvatarPointillist: AutoRegressive 4D Gaussian Avatarization' 논문에 대한 자세한 리뷰입니다.#Review#4D Gaussian Avatar#Autoregressive Generation#Transformer#3D Gaussian Splatting#One-shot Generation#Identity-preserving2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Adam's Law: Textual Frequency Law on Large Language ModelsarXiv에 게시된 'Adam's Law: Textual Frequency Law on Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Textual Frequency Law#Paraphrasing#Curriculum Learning#Frequency Distillation2026년 4월 6일댓글 수 로딩 중
[논문리뷰] AURA: Always-On Understanding and Real-Time Assistance via Video StreamsXintong Guo이 arXiv에 게시한 'AURA: Always-On Understanding and Real-Time Assistance via Video Streams' 논문에 대한 자세한 리뷰입니다.#Review#VideoLLMs#Streaming Video Understanding#End-to-End#Context Management#Proactive Response#Real-Time Inference2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation본 논문은 1,000명 이상의 현업 전문가가 참여하여 구축한 1,346개의 전문 작업으로 구성된 XpertBench 프레임워크를 제안한다. 평가 신뢰성을 위해 각 작업은 15~40개의 가중치가 부여된 원자적 체크포인트 기반의 Rubrics를 따르며, 이를 평가하기 위해 ShotJudge 패러다임을 도입했다.#Review#XpertBench#LLM Evaluation#Expert-level Cognition#Rubrics-based Assessment#ShotJudge#Ecological Validity2026년 4월 5일댓글 수 로딩 중
[논문리뷰] Token Warping Helps MLLMs Look from Nearby Viewpoints본 논문은 토큰을 변환 단위로 사용하는 Token Warping 프레임워크를 제안하며, 특히 Backward Token Warping이 안정성과 의미론적 일관성 측면에서 가장 우수함을 입증한다. 와 는 MLLM 토큰이 위치 잡음에 강건하다는 점을 증명하며, 이를 바탕으로 시점 변환 시 토큰 기반의 역투영 기법을 적용한다.#Review#Multimodal Large Language Models#Token Warping#Viewpoint-Aware Reasoning#Spatial Reasoning#Mental Imagery2026년 4월 5일댓글 수 로딩 중
[논문리뷰] Self-Distilled RLVRNaibin Gu이 arXiv에 게시한 'Self-Distilled RLVR' 논문에 대한 자세한 리뷰입니다.#Review#LLM Post-training#Reinforcement Learning#Self-Distillation#Information Asymmetry#Credit Assignment#RLVR2026년 4월 5일댓글 수 로딩 중
[논문리뷰] InCoder-32B-Thinking: Industrial Code World Model for ThinkingTuney Zheng이 arXiv에 게시한 'InCoder-32B-Thinking: Industrial Code World Model for Thinking' 논문에 대한 자세한 리뷰입니다.#Review#Industrial Code Intelligence#Chain-of-Thought#World Model#Error-driven Synthesis#Hardware-aware Coding2026년 4월 5일댓글 수 로딩 중
[논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language LearningHisham Cholakkal이 arXiv에 게시한 'CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Multi-Encoder Fusion#Entropy-Guided Selection#Orthogonal Layer#RoPE#Visual Grounding#Multimodal Understanding2026년 4월 5일댓글 수 로딩 중
[논문리뷰] Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?Binyu Wang이 arXiv에 게시한 'Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Agentic Capability#Visual Expansion#Knowledge Expansion#Process-Verified Benchmark#Synergistic Reasoning2026년 4월 5일댓글 수 로딩 중
[논문리뷰] AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks저자들은 AgentSocialBench를 도입하여 7개 카테고리, 300개 이상의 시나리오를 통해 에이전트의 프라이버시 보존 성능을 체계적으로 평가합니다 . 제안된 프레임워크는 사용자 프로파일의 민감도 계층, 지향성 사회 그래프, 그리고 명시적 프라이버시 경계를 포함합니다.#Review#LLM Agents#Agentic Social Networks#Privacy Preservation#Contextual Integrity#Information Abstraction#Abstraction Paradox2026년 4월 5일댓글 수 로딩 중
[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.#Review#Computer-Use Agents#Agent Safety#Benchmark#Harmful Behavior#Trajectory-level Evaluation#Multi-step Reasoning2026년 4월 5일댓글 수 로딩 중
[논문리뷰] A Simple Baseline for Streaming Video Understanding본 연구에서 제안하는 SimpleStream은 추가적인 학습이나 별도의 메모리 구조 없이, 오직 마지막 $N$개의 프레임을 오프-더-셸프 VLM에 전달하는 최소주의적 추론 정책을 채택합니다 . 저자들은 OVO-Bench와 StreamingBench를 통해 13개의 주요 온라인 및 오프라인 비디오 LLM 베이스라인과 성능을 비교하였습니다.#Review#Streaming Video Understanding#Video LLM#Simple Baseline#Perception-Memory Trade-off#OVO-Bench2026년 4월 5일댓글 수 로딩 중
[논문리뷰] Woosh: A Sound Effects Foundation ModelarXiv에 게시된 'Woosh: A Sound Effects Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Foundation Model#Sound Effects#Latent Diffusion Model#Flow Matching#Audio-Visual Generation#Distillation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence VerificationarXiv에 게시된 'VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification' 논문에 대한 자세한 리뷰입니다.#Review#Video MLLM#Spatio-Temporal Grounding#Benchmark#Long-Video Understanding#Evidence Verification#Atomic Ability2026년 4월 2일댓글 수 로딩 중