[논문리뷰] ACON: Optimizing Context Compression for Long-horizon LLM Agents이 [arXiv]에 게시한 'ACON: Optimizing Context Compression for Long-horizon LLM Agents' 논문에 대한 자세한 리뷰입니다.2025년 10월 2일
[논문리뷰] Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-TuningYue Min이 [arXiv]에 게시한 'Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Who's Your Judge? On the Detectability of LLM-Generated Judgments이 [arXiv]에 게시한 'Who's Your Judge? On the Detectability of LLM-Generated Judgments' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Who invented deep residual learning?Juergen Schmidhuber이 [arXiv]에 게시한 'Who invented deep residual learning?' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance GapHengfan Zhang이 [arXiv]에 게시한 'Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications이 [arXiv]에 게시한 'VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense ScenesMuhammad Huzaifa이 [arXiv]에 게시한 'VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-PlayJing Shi이 [arXiv]에 게시한 'Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] TTT3R: 3D Reconstruction as Test-Time TrainingAnpei Chen이 [arXiv]에 게시한 'TTT3R: 3D Reconstruction as Test-Time Training' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning이 [arXiv]에 게시한 'TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training이 [arXiv]에 게시한 'Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain이 [arXiv]에 게시한 'The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMsYao Shu이 [arXiv]에 게시한 'Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] TAU: A Benchmark for Cultural Sound Understanding Beyond SemanticsSzu-Chi Chen이 [arXiv]에 게시한 'TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation이 [arXiv]에 게시한 'Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models이 [arXiv]에 게시한 'Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Regression Language Models for Code이 [arXiv]에 게시한 'Regression Language Models for Code' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency EstimationAntonio Liotta이 [arXiv]에 게시한 'ProfVLM: A Lightweight Video-Language Model for Multi-View Proficiency Estimation' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research BenchmarkPenghao Zhu이 [arXiv]에 게시한 'Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일
[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!이 [arXiv]에 게시한 'OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일