[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.#Review#Large Language Models#Chain-of-Thought#Test-time Scaling#Context Management#Reasoning Shift#Self-verification#Overthinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting BenchmarkRui Wang이 arXiv에 게시한 'QuitoBench: A High-Quality Open Time Series Forecasting Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Time Series Forecasting#Benchmark#TSF Regime#Foundation Models#Deep Learning#Data Scaling#Forecastability2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive AssistantsYinfei Yang이 arXiv에 게시한 'Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants' 논문에 대한 자세한 리뷰입니다.#Review#Proactive Assistant#User Simulation#Finite State Machine#Stackelberg POMDP#Multi-app Orchestration#Asymmetric Evaluation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] PerceptionComp: A Video Benchmark for Complex Perception-Centric ReasoningZhixuan Zhao이 arXiv에 게시한 'PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Benchmark#Multimodal Reasoning#Perception-Centric#Long-Horizon#Test-Time Thinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written PapersToshihiko Yamasaki이 arXiv에 게시한 'Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers' 논문에 대한 자세한 리뷰입니다.#Review#AI-driven scientific writing#Paper Reconstruction Evaluation#Presentation Quality#Hallucination Analysis#PaperWrite-Bench2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MiroEval: Benchmarking Multimodal Deep Research Agents in Process and OutcomearXiv에 게시된 'MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research#Multimodal Benchmark#Process-Centric Evaluation#Factuality Verification#Agentic Systems#Adaptive Synthesis2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .#Review#Recommender Systems#Large Language Models#Product Reranking#Preference Memory#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and GenerationarXiv에 게시된 'MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Multi-modal Generation#Robotic Manipulation#Action Chunking#World Model#Hybrid Attention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] HippoCamp: Benchmarking Contextual Agents on Personal ComputersHippoCamp는 100명 이상의 실제 사용자 데이터를 기반으로 2,000개 이상의 이질적인 파일을 포함하는 3개의 대표적인 개인 컴퓨팅 환경을 구축하였습니다. 각 환경에는 Factual Retention 및 Profiling 태스크를 위한 581개의 QA 쌍이 존재하며, 이를 위해 46.1K개의 정교한 주석(Annotation)이 제공됩니다.#Review#Multimodal Agents#File-System#Contextual Benchmarking#Personalized Memory#Profiling#Factual Retention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] GaussianGPT: Towards Autoregressive 3D Gaussian Scene GenerationMatthias Nießner이 arXiv에 게시한 'GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Gaussian Splatting#Autoregressive Modeling#Scene Generation#Transformer#Vector Quantization#3D Scene Completion2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code GenerationRonan Collobert이 arXiv에 게시한 'Embarrassingly Simple Self-Distillation Improves Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#Self-Distillation#Code Generation#Large Language Models#Precision-Exploration Conflict#Supervised Fine-Tuning#Temperature Scaling#Truncation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and WatchersZejian Chen이 arXiv에 게시한 'ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Agents#OpenClaw#Security Framework#Watcher Architecture#Safety-Utility Tradeoff#Behavioral Scanning#Runtime Enforcement2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction AlignmentYu Xiao이 arXiv에 게시한 'Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Cross-depiction Alignment#Assembly Guidance#Diagram-to-video Matching#Mechanistic Analysis2026년 4월 1일댓글 수 로딩 중
[논문리뷰] AI Generalisation Gap In Comorbid Sleep Disorder Staging본 연구에서는 SE-ResNet 블록과 Bi-LSTM 레이어를 결합하여 시계열 EEG 데이터의 특징을 추출하고 시간적 의존성을 모델링하는 프레임워크를 제안합니다. 저자들은 새로 구축한 iSLEEPS 데이터셋을 활용하여 기존의 헬스케어 기반 모델들과 성능을 비교하였습니다.#Review#Sleep Staging#Ischemic Stroke#Explainable AI#Grad-CAM#Deep Learning#Clinical Generalization#iSLEEPS2026년 4월 1일댓글 수 로딩 중
[논문리뷰] A Survey of On-Policy Distillation for Large Language ModelsMao Zheng이 arXiv에 게시한 'A Survey of On-Policy Distillation for Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#On-Policy Distillation#Large Language Models#Knowledge Distillation#Exposure Bias#f-Divergence#Sequence-Level Learning#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] daVinci-LLM:Towards the Science of PretrainingarXiv에 게시된 'daVinci-LLM:Towards the Science of Pretraining' 논문에 대한 자세한 리뷰입니다.#Review#Pretraining#Data Darwinism#LLM#Transparency#Data Processing#Scaling Laws#Reasoning2026년 3월 31일댓글 수 로딩 중
[논문리뷰] VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and EditingRishav Pramanik이 arXiv에 게시한 'VectorGym: A Multitask Benchmark for SVG Code Generation, Sketching, and Editing' 논문에 대한 자세한 리뷰입니다.#Review#VectorGym#SVG Generation#Multi-task Learning#Reinforcement Learning#VLM-as-a-Judge2026년 3월 31일댓글 수 로딩 중
[논문리뷰] VGGRPO: Towards World-Consistent Video Generation with 4D Latent RewardarXiv에 게시된 'VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward' 논문에 대한 자세한 리뷰입니다.#Review#Video Diffusion Models#Geometric Consistency#Reinforcement Learning#Latent Geometry Model#4D Reconstruction#Group Relative Policy Optimization2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Unify-Agent: A Unified Multimodal Agent for World-Grounded Image SynthesisarXiv에 게시된 'Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Agent#World-Grounded Image Synthesis#FactIP#Agentic Pipeline#Unified Multimodal Model#Evidence-Grounded Recaptioning2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Think Anywhere in Code GenerationTaozhi Chen이 arXiv에 게시한 'Think Anywhere in Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#Code Generation#Large Language Models#Reasoning#Reinforcement Learning#On-demand Reasoning#Adaptive Computation2026년 3월 31일댓글 수 로딩 중