[논문리뷰] Towards Robust Mathematical ReasoningYuri Chervonyi이 arXiv에 게시한 'Towards Robust Mathematical Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Mathematical Reasoning#Large Language Models (LLMs)#AI Benchmarks#International Mathematical Olympiad (IMO)#Proof Verification#Automatic Grading#Robustness2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool UseGuanting Dong이 arXiv에 게시한 'ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Agents#Tool-Augmented LLMs#Vision-Guided Reasoning#Long-Horizon Tasks#VQA#Global Planning#Context Preservation#Perceive Tool2025년 11월 9일댓글 수 로딩 중
[논문리뷰] The Underappreciated Power of Vision Models for Graph Structural UnderstandingLei Zhang이 arXiv에 게시한 'The Underappreciated Power of Vision Models for Graph Structural Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Graph Neural Networks#Vision Models#Graph Understanding#Topological Perception#GraphAbstract Benchmark#OOD Generalization#Graph Visualization2025년 11월 9일댓글 수 로딩 중
[논문리뷰] TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images ReasoningShaoheng Lin이 arXiv에 게시한 'TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Agentic Reasoning#Thinking-with-Images#Visual Reasoning Benchmark#Tool Use#Image Manipulation#Fine-tuning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal GenerationFeng Li이 arXiv에 게시한 'ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Benchmarking#Cross-Modal Reasoning#Omnimodal Generation#Visual Generation#Verbal Generation#Unified Multimodal Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] PHUMA: Physically-Grounded Humanoid Locomotion DatasetarXiv에 게시된 'PHUMA: Physically-Grounded Humanoid Locomotion Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Humanoid Locomotion#Dataset#Motion Imitation#Physics-based Control#Motion Retargeting#Data Curation#Reinforcement Learning#Inverse Kinematics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] OpenSIR: Open-Ended Self-Improving ReasonerarXiv에 게시된 'OpenSIR: Open-Ended Self-Improving Reasoner' 논문에 대한 자세한 리뷰입니다.#Review#Open-Ended Learning#Self-Play#Reinforcement Learning#Large Language Models#Mathematical Reasoning#Problem Generation#Curriculum Learning#Reward Shaping2025년 11월 9일댓글 수 로딩 중
[논문리뷰] NaviTrace: Evaluating Embodied Navigation of Vision-Language ModelsarXiv에 게시된 'NaviTrace: Evaluating Embodied Navigation of Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Embodied Navigation#VQA Benchmark#Robotic Navigation#Semantic-aware Score#Dynamic Time Warping#Real-world Scenarios2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace DisentanglementIsabelle Augenstein이 arXiv에 게시한 'Multi-Step Knowledge Interaction Analysis via Rank-2 Subspace Disentanglement' 논문에 대한 자세한 리뷰입니다.#Review#LLMs#Knowledge Interaction#Parametric Knowledge#Contextual Knowledge#Subspace Disentanglement#NLE Generation#Hallucination Detection#Chain-of-Thought2025년 11월 9일댓글 수 로딩 중
[논문리뷰] MotionStream: Real-Time Video Generation with Interactive Motion ControlsarXiv에 게시된 'MotionStream: Real-Time Video Generation with Interactive Motion Controls' 논문에 대한 자세한 리뷰입니다.#Review#Real-Time Video Generation#Motion Control#Diffusion Models#Autoregressive Generation#Self-Forcing#Attention Sink#Streaming Inference#Video Distillation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning ModelsBin Yu이 arXiv에 게시한 'MR-Align: Meta-Reasoning Informed Factuality Alignment for Large Reasoning Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Reasoning Models#Factuality Alignment#Meta-Reasoning#Kahneman-Tversky Optimization#Chain-of-Thought#Hallucination#Process-Level Alignment2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LongCat-Flash-Omni Technical ReportBin Xiao이 arXiv에 게시한 'LongCat-Flash-Omni Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Omni-modal AI#Multimodal LLM#Real-time Interaction#Mixture-of-Experts (MoE)#Streaming Inference#Distributed Training#Curriculum Learning#Audio-Visual Perception2025년 11월 9일댓글 수 로딩 중
[논문리뷰] How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert AssessmentYuhao Zhai이 arXiv에 게시한 'How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#World Models#Surgical AI#Zero-shot Prediction#Expert Evaluation#Plausibility Gap#Medical Simulation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Generalizing Test-time Compute-optimal Scaling as an Optimizable GrapharXiv에 게시된 'Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph' 논문에 대한 자세한 리뷰입니다.#Review#Test-Time Scaling#LLMs#Graph Optimization#REINFORCE#Multi-agent Systems#Adaptive Architectures#Compute-optimal Scaling#Probabilistic Graphs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI GroundingWanrong Zhu이 arXiv에 게시한 'GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Multimodal Attention#MLLMs#Coordinate-Free#Visual Grounding#Attention Weighting#Anchor Token2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language FoundationarXiv에 게시된 'Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Mixture-of-Experts#Reasoning Capability#Sparse Activation#Scaling Laws#FP8 Training#Efficient Training#Instruction Tuning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] EBT-Policy: Energy Unlocks Emergent Physical Reasoning CapabilitiesYunxin Liu이 arXiv에 게시한 'EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities' 논문에 대한 자세한 리뷰입니다.#Review#Energy-Based Models (EBMs)#Diffusion Policy#Robotics#Behavior Cloning#Physical Reasoning#Uncertainty Modeling#Emergent Behavior#Robot Manipulation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBencharXiv에 게시된 'Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Benchmarking#Visual Measurement Reading#Synthetic Data Generation#Fine-grained Perception#Spatial Grounding#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Data-Efficient RLVR via Off-Policy Influence GuidanceJiale Cheng이 arXiv에 게시한 'Data-Efficient RLVR via Off-Policy Influence Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions#Data Selection#Off-Policy Learning#Curriculum Learning#Large Language Models (LLMs)#Sparse Random Projection#Data Efficiency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat IntelligencePeter Worth이 arXiv에 게시한 'AthenaBench: A Dynamic Benchmark for Evaluating LLMs in Cyber Threat Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#LLM Benchmarking#Cyber Threat Intelligence (CTI)#Dynamic Evaluation#CTI Reasoning#Vulnerability Prediction#Threat Actor Attribution#Risk Mitigation#Natural Language Processing2025년 11월 9일댓글 수 로딩 중