[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Querieshuuuyeah이 arXiv에 게시한 'LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Tool Use#Model Context Protocol (MCP)#Benchmarking#Large Language Models (LLMs)#Real-world Tasks#Evaluation#Error Analysis2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Intern-S1: A Scientific Multimodal Foundation Modelxuhuang87이 arXiv에 게시한 'Intern-S1: A Scientific Multimodal Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Foundation Model#Scientific AI#Reinforcement Learning#Mixture-of-Experts (MoE)#Dynamic Tokenizer#Data Curation#Low-Resource Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] INTIMA: A Benchmark for Human-AI Companionship BehaviorYacine Jernite이 arXiv에 게시한 'INTIMA: A Benchmark for Human-AI Companionship Behavior' 논문에 대한 자세한 리뷰입니다.#Review#AI Companionship#Benchmark#Language Models (LLMs)#Human-AI Interaction#Emotional AI#Boundary Setting#Psychological Frameworks#Evaluation Metrics2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language ModelsLifan Guo이 arXiv에 게시한 'Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Process Reward Models#Financial Reasoning#Domain Specialization#RLHF#Best-of-N Selection#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] 'Does the cafe entrance look accessible? Where is the door?' Towards Geospatial AI Agents for Visual InquiriesXia Su이 arXiv에 게시한 'Does the cafe entrance look accessible? Where is the door? Towards Geospatial AI Agents for Visual Inquiries' 논문에 대한 자세한 리뷰입니다.#Review#Geospatial AI#Multimodal AI Agents#Visual Question Answering#Accessibility#Street View Imagery#Spatial Reasoning#Human-Computer Interaction2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Deep Think with ConfidenceXuewei Wang이 arXiv에 게시한 'Deep Think with Confidence' 논문에 대한 자세한 리뷰입니다.#Review#LLM Reasoning#Confidence Filtering#Self-Consistency#Test-Time Optimization#Computational Efficiency#Adaptive Sampling#Early Stopping#Majority Voting2025년 8월 22일댓글 수 로딩 중
[논문리뷰] ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human ModelingShunsuke Saito이 arXiv에 게시한 'ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Parametric Human Model#3D Human Modeling#Shape-Skeleton Decoupling#Pose Correctives#Single Image Mesh Fitting#Expressive Modeling#Goliath Dataset2025년 8월 22일댓글 수 로딩 중
[논문리뷰] A Survey on Large Language Model BenchmarksSiyi Li이 arXiv에 게시한 'A Survey on Large Language Model Benchmarks' 논문에 대한 자세한 리뷰입니다.#Review#LLM Benchmarks#Evaluation#Systematic Review#General Capabilities#Domain-Specific Benchmarks#Target-Specific Benchmarks#Data Contamination#AI Ethics2025년 8월 22일댓글 수 로딩 중
[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoninganoperson이 arXiv에 게시한 'mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Multilingual Benchmark#Commonsense Reasoning#LLM Evaluation#Reasoning Taxonomy#Benchmark Scaling#Data Synthesis#Cultural Nuances2025년 8월 21일댓글 수 로딩 중
[논문리뷰] ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?Daeyoung Kim이 arXiv에 게시한 'ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?' 논문에 대한 자세한 리뷰입니다.#Review#Vision Language Models#Multimodal AI#Vietnamese Language#Educational Assessment#Low-Resource Languages#Cross-Lingual Reasoning#ViExam#Human-in-the-Loop2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene OptimizationHao Chen이 arXiv에 게시한 'Tinker: Diffusion's Gift to 3D--Multi-View Consistent Editing From Sparse Inputs without Per-Scene Optimization' 논문에 대한 자세한 리뷰입니다.#Review#3D Editing#Multi-View Consistency#Diffusion Models#Sparse Input#Zero-Shot Learning#Scene Completion#Gaussian Splatting2025년 8월 21일댓글 수 로딩 중
[논문리뷰] RynnEC: Bringing MLLMs into Embodied Worldjiangpinliu이 arXiv에 게시한 'RynnEC: Bringing MLLMs into Embodied World' 논문에 대한 자세한 리뷰입니다.#Review#Multi-modal Large Language Models#Embodied AI#Embodied Cognition#Video Understanding#Instance Segmentation#Spatial Reasoning#Robotics2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Refining Contrastive Learning and Homography Relations for Multi-Modal RecommendationShiqing Wu이 arXiv에 게시한 'Refining Contrastive Learning and Homography Relations for Multi-Modal Recommendation' 논문에 대한 자세한 리뷰입니다.#Review#Multi-modal Recommendation#Contrastive Learning#Graph Neural Network#Homography Relations#Meta-network#Orthogonal Constraint#Data Sparsity2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMsHaobo Xu이 arXiv에 게시한 'Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion LLMs#Post-training Quantization (PTQ)#Model Compression#Activation Outliers#Quantization Methods#Efficient Deployment#Large Language Models2025년 8월 21일댓글 수 로딩 중
[논문리뷰] On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic WeightingGuoyin Wang이 arXiv에 게시한 'On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Reinforcement Learning#Supervised Fine-Tuning#On-Policy RL#Off-Policy Experts#Dynamic Weighting#LLM Alignment#Reasoning2025년 8월 21일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Modelabercovich이 arXiv에 게시한 'NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model' 논문에 대한 자세한 리뷰입니다.#Review#Hybrid Architecture#Mamba-Transformer#Reasoning LLM#Model Compression#Knowledge Distillation#Long Context#High Throughput#FP8 Training#Instruction Following2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MeshCoder: LLM-Powered Structured Mesh Code Generation from Point CloudsJiangmiao이 arXiv에 게시한 'MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Point Clouds#3D Reconstruction#Structured Mesh#Blender Python#Shape Editing#Part-based Representation#Large Language Model2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol ServersPrathyusha Jwalapuram이 arXiv에 게시한 'MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Benchmarking#Model Context Protocol#Tool Use#Real-World Applications#Agent Evaluation#Long Context#Unknown Tools2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Local Scale Equivariance with Latent Deep Equilibrium CanonicalizerJeremiah Jiang이 arXiv에 게시한 'Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer' 논문에 대한 자세한 리뷰입니다.#Review#Scale Equivariance#Deep Equilibrium Models#Canonicalization#Computer Vision#Image Classification#Semantic Segmentation#Latent Representation#Monotone Scaling2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single Bootstrap per CellIngrid Verbauwhede이 arXiv에 게시한 'Leuvenshtein: Efficient FHE-based Edit Distance Computation with Single Bootstrap per Cell' 논문에 대한 자세한 리뷰입니다.#Review#Fully Homomorphic Encryption (FHE)#TFHE#Levenshtein Distance#Programmable Bootstrapping (PBS)#Privacy-Preserving Computation#String Similarity2025년 8월 21일댓글 수 로딩 중