[논문리뷰] Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines본 논문은 Four-Condition Design을 통해 성능 이득을 Additive하게 분해하는 프레임워크를 제안합니다. 이 방법론은 Generator 기반 성능($x_1$), 표준 Revision($x_2$), 독립 재해결 제어($x_3$), 구조화된 Null 초안 제어($x_4$)를 비교하여 세 가지 효과를 각각 산출합니다.#Review#Multi-LLM Pipeline#Iterative Refinement#Self-Correction#Task-Time Scaling#Code Generation#MCQ2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Reasoning Shift: How Context Silently Shortens LLM Reasoning본 연구는 모델이 동일한 문제를 Baseline, Subtask, Long input, Multi-turn 등 서로 다른 4가지 Context 조건에서 해결하도록 설계하여 추론 성능과 생성된 토큰 수를 측정했습니다. 실험 결과, 모델은 고립된 환경(Baseline) 대비 다른 조건들에서 최대 50%까지 짧은 추론 트레이스를 생성하는 현상을 보였습니다.#Review#Large Language Models#Chain-of-Thought#Test-time Scaling#Context Management#Reasoning Shift#Self-verification#Overthinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting Benchmark시계열 예측 분야는 데이터 규모와 품질의 부족으로 인해 모델 평가의 신뢰성 위기에 직면해 있다.#Review#Time Series Forecasting#Benchmark#TSF Regime#Foundation Models#Deep Learning#Data Scaling#Forecastability2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants본 논문은 기존 proactive agent 연구들이 실제 환경에서의 사용자 상호작용을 반영하지 못하고 정적인 데이터셋에 의존한다는 점을 문제로 지적합니다.#Review#Proactive Assistant#User Simulation#Finite State Machine#Stackelberg POMDP#Multi-app Orchestration#Asymmetric Evaluation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning본 논문은 기존의 영상 이해 벤치마크가 대부분 단일 시점 정보만으로 해결 가능하거나, 지나치게 논리적 구조에만 치중되어 있어 모델의 실질적인 시각적 추론 능력을 평가하기 어렵다는 문제를 제기한다.#Review#Video Benchmark#Multimodal Reasoning#Perception-Centric#Long-Horizon#Test-Time Thinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Paper Reconstruction Evaluation: Evaluating Presentation and Hallucination in AI-written Papers본 논문은 현대의 코딩 에이전트가 작성한 과학 논문의 품질을 신뢰할 수 있게 평가할 체계적인 프레임워크가 부재하다는 문제점을 해결하고자 합니다.#Review#AI-driven scientific writing#Paper Reconstruction Evaluation#Presentation Quality#Hallucination Analysis#PaperWrite-Bench2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome본 논문은 기존 deep research 시스템 평가가 실사용자의 복잡한 요구사항을 충분히 반영하지 못하는 한계점을 해결하기 위해 MiroEval 을 제안한다. 기존 연구들은 주로 정적인 과제를 사용하고 최종 보고서의 품질만을 평가하며, 연구 수행 과정(process)에 대한 감사가 결여되어 있다는 한계가 있다.#Review#Deep Research#Multimodal Benchmark#Process-Centric Evaluation#Factuality Verification#Agentic Systems#Adaptive Synthesis2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MemRerank: Preference Memory for Personalized Product Reranking저자들은 사용자 구매 이력을 within-category와 cross-category 선호도로 구분하여 추출하는 Memory Extractor 모델을 설계하였다. 이 추출기는 재순위화 작업의 성능을 극대화하기 위해 GRPO 기반의 강화학습으로 post-training 되며, 이를 통해 별도의 Gold Label 없이도 재순위화 보상을 직접 최적화한다 .#Review#Recommender Systems#Large Language Models#Product Reranking#Preference Memory#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation기존 VLA 모델들은 hierarchical 구조나 autoregressive 패러다임에 의존함으로써 발생하는 아키텍처 오버헤드, 장기적 시간 일관성 결여, 그리고 환경 역학(environment dynamics)을 파악하는 명시적 메커니즘 부족이라는 한계에 직면해 있습니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Multi-modal Generation#Robotic Manipulation#Action Chunking#World Model#Hybrid Attention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] HippoCamp: Benchmarking Contextual Agents on Personal ComputersHippoCamp는 100명 이상의 실제 사용자 데이터를 기반으로 2,000개 이상의 이질적인 파일을 포함하는 3개의 대표적인 개인 컴퓨팅 환경을 구축하였습니다. 각 환경에는 Factual Retention 및 Profiling 태스크를 위한 581개의 QA 쌍이 존재하며, 이를 위해 46.1K개의 정교한 주석(Annotation)이 제공됩니다.#Review#Multimodal Agents#File-System#Contextual Benchmarking#Personalized Memory#Profiling#Factual Retention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] GaussianGPT: Towards Autoregressive 3D Gaussian Scene Generation본 논문은 기존 3D 생성 모델들이 주로 사용하는 전체적(holistic)인 Denoising이나 Diffusion 방식이 3D 환경의 점진적 구축과 편집에 부적합하다는 문제를 해결하고자 한다. 기존 방식은 고정된 장면을 한 번에 생성하는 경향이 있어, 실제 환경처럼 점진적으로 확장하거나 수정하는 유연성이 부족하다.#Review#3D Gaussian Splatting#Autoregressive Modeling#Scene Generation#Transformer#Vector Quantization#3D Scene Completion2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Embarrassingly Simple Self-Distillation Improves Code Generation본 논문은 LLM의 코드 생성 능력을 향상하기 위해 외부의 고품질 인간 작성 데이터나 복잡한 강화 학습(RL) 파이프라인 없이 모델 스스로 개선될 수 있는지에 대한 의문을 제기합니다.#Review#Self-Distillation#Code Generation#Large Language Models#Precision-Exploration Conflict#Supervised Fine-Tuning#Temperature Scaling#Truncation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers본 논문은 OpenClaw와 같은 현대 자율 에이전트 런타임이 가지는 높은 권한 모델로 인해 발생하는 시스템 수준의 보안 취약점을 해결하기 위해 제안되었습니다.#Review#Autonomous Agents#OpenClaw#Security Framework#Watcher Architecture#Safety-Utility Tradeoff#Behavioral Scanning#Runtime Enforcement2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Benchmarking and Mechanistic Analysis of Vision-Language Models for Cross-Depiction Assembly Instruction Alignment본 논문은 지능형 조립 어시스턴트가 2D 다이어그램과 실제 카메라 영상을 정렬하는 과정에서 겪는 Depiction Gap 문제를 해결하기 위해 수행되었습니다.#Review#Vision-Language Models#Cross-depiction Alignment#Assembly Guidance#Diagram-to-video Matching#Mechanistic Analysis2026년 4월 1일댓글 수 로딩 중
[논문리뷰] AI Generalisation Gap In Comorbid Sleep Disorder Staging본 연구에서는 SE-ResNet 블록과 Bi-LSTM 레이어를 결합하여 시계열 EEG 데이터의 특징을 추출하고 시간적 의존성을 모델링하는 프레임워크를 제안합니다. 저자들은 새로 구축한 iSLEEPS 데이터셋을 활용하여 기존의 헬스케어 기반 모델들과 성능을 비교하였습니다.#Review#Sleep Staging#Ischemic Stroke#Explainable AI#Grad-CAM#Deep Learning#Clinical Generalization#iSLEEPS2026년 4월 1일댓글 수 로딩 중
[논문리뷰] A Survey of On-Policy Distillation for Large Language Models본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다.#Review#On-Policy Distillation#Large Language Models#Knowledge Distillation#Exposure Bias#f-Divergence#Sequence-Level Learning#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[openclaw] Vitest 모듈 로딩 최적화 및 테스트 병렬성 증대를 통한 CI 성능 개선Vitest 테스트 모듈 로딩 최적화와 병렬 처리 확대를 통해 CI 빌드 시간을 단축합니다.#Vitest#CI#Performance#Optimization#Testing2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang: ROCm 환경에서 Qwen3-VL 디코딩 성능 극대화를 위한 커널 퓨전 최적화4개의 개별 커널 호출을 단일 HIP 커널로 통합하여 Qwen3-VL 모델의 디코딩 지연 시간을 획기적으로 개선한 최적화 사례 분석.#SGLang#ROCm#Kernel Fusion#LLM#Performance Optimization2026년 4월 1일댓글 수 로딩 중
[Loki] Kafka 파티션 불필요한 Shuffle Sharding 제거ShardSize가 0일 때 불필요한 shuffle shard 생성을 건너뛰어 메모리 사용량 절감.#Grafana Loki#Go#Performance#Kafka#Memory Optimization2026년 4월 1일댓글 수 로딩 중
[Open WebUI] ChatItem 사이드바 메모리 누수 수정이벤트 리스너 정리와 공유 드래그 이미지로 사이드바 ChatItem의 메모리 누수 해결.#Open WebUI#Svelte#Performance#Memory Leak#Frontend2026년 4월 1일댓글 수 로딩 중