[논문리뷰] SimRecon: SimReady Compositional Scene Reconstruction from Real Videos기존 3D scene reconstruction 방법론들은 대개 scene을 holistic 하게 표현하여 시각적 fidelity는 뛰어나지만, 완전한 object geometry와 명확한 object boundary가 부족하여 simulation 및 interaction에 부적합하다는 근본적인 한계점을 가집니다.#Review#Compositional 3D Scene Reconstruction#Simulation-Ready Scenes#Active Viewpoint Optimization (AVO)#Scene Graph Synthesizer (SGS)#Real-world Videos#Physical Plausibility2026년 3월 15일댓글 수 로딩 중
[논문리뷰] OmniForcing: Unleashing Real-time Joint Audio-Visual Generation최근 LTX-2 와 Veo 3 와 같은 Joint Audio-Visual Diffusion Model들은 탁월한 Generation Quality를 보여주지만, Bidirectional Attention Dependency로 인해 높은 Latency를 겪어 Real-time Application에 적용하기 어렵습니다.#Review#Streaming Audio-Visual Generation#Diffusion Distillation#Autoregressive Video Synthesis#Multi-modal AI2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Multimodal OCR: Parse Anything from DocumentsLarge language model과 Multimodal model 시대에 문서 파싱은 Pretraining 및 Retrieval을 위한 핵심 Data engine이 되었습니다.#Review#Multimodal OCR#MOCR#Document Parsing#Structured Graphics#Image-to-SVG#Vision-Language Models#OCR Arena2026년 3월 15일댓글 수 로딩 중
[논문리뷰] MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional ReasoningMultimodal Large Language Models ( MLLM )은 GUI 탐색과 같은 복잡한 시각적 워크플로우를 처리하는 데 점점 더 많이 사용되고 있지만, 이러한 Deep Compositional Reasoning 능력에 대한 평가는 여전히 부족합니다.#Review#MLLM#Deep Compositional Reasoning#Programmatically Verified Benchmark#Hard Negatives#Control Flow#VPIR#Path F12026년 3월 15일댓글 수 로딩 중
[논문리뷰] LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation최근 LLM의 Context Length가 급증하면서 KV Cache 의 크기가 입력 시퀀스 길이에 비례하여 선형적으로 증가하며, 이는 long-context task 에서 메모리 병목 현상을 야기하여 inference scalability에 큰 제약을 초래하고 있습니다.#Review#KV Cache Eviction#Long Context LLM#Attention Score Prediction#LoRA#Parameter-Efficient#Time-to-First-Token2026년 3월 15일댓글 수 로딩 중
[논문리뷰] LMEB: Long-horizon Memory Embedding BenchmarkMemory-augmented system (예: OpenClaw )에서 Memory embedding은 필수적이지만, 현재 Text embedding benchmark들은 그 평가가 미흡합니다.#Review#Memory Embeddings#Long-horizon Memory Retrieval#Text Embedding Benchmarks#Episodic Memory#Dialogue Memory#Semantic Memory#Procedural Memory#Zero-Shot Evaluation2026년 3월 15일댓글 수 로딩 중
[논문리뷰] HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion AccelerationText-to-Image (T2I) Diffusion 모델은 인상적인 이미지 생성 능력을 보여주지만, 수십억 개의 파라미터를 포함하는 대규모 모델의 경우 극심한 계산 오버헤드와 높은 Latency로 인해 latency-sensitive한 애플리케이션에 적용하기 어렵다는 문제에 직면해 있습니다.#Review#Diffusion model#Mixture of models#Acceleration#Text-to-Image#Model stitching#Latency reduction#Pixel-level#Timestep-level2026년 3월 15일댓글 수 로딩 중
[논문리뷰] HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household ScenariosEmbodied Agents 가 가정 환경에 빠르게 도입되면서 예측 불가능한 안전 위험이 증가하고 있습니다. 기존의 안전 평가 방식은 주로 정적인 이미지, 텍스트 또는 일반적인 위험에 국한되어, household scenarios의 동적인 unsafe action detection을 적절히 벤치마킹하는 데 실패했습니다.#Review#Embodied Agents#Unsafe Action Detection#Vision-Language Models (VLMs)#Household Scenarios#HomeSafe-Bench#HD-Guard#Real-time Safety Monitoring2026년 3월 15일댓글 수 로딩 중
[논문리뷰] From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space최근 Diffusion/Flow Models은 Visual Content 생성에서 혁신적인 능력을 보여주고 있지만, 생성된 Outputs이 Human Preference 및 Task-specific Constraint에 Align되도록 하는 것은 여전히 중요한 과제입니다.#Review#Reinforcement Learning#GRPO#Diffusion Models#Flow Models#Preference Alignment#Condition Enhancement#Multi-View Learning2026년 3월 15일댓글 수 로딩 중
[논문리뷰] ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection기존의 Time-Series Anomaly Detection(TSAD) 연구들은 주로 workstation-class hardware에서 unconstrained execution 환경 하에 detection quality(주로 accuracy)만을 비교하고 최적화했습니다.#Review#Time-series anomaly detection#Deployment-oriented evaluation#Compute reduction#CPU parallelism#Throughput#Latency#Automotive telemetry#AUC-PR2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol자율 에이전트, 특히 메모리, 지속적인 컨텍스트, 다단계 계획을 가진 위임된(delegated) 시스템은 고유한 측정 문제를 제기합니다.#Review#AI safety#self-preservation#instrumental convergence#Quantum Boltzmann Machine#entanglement entropy#alignment2026년 3월 15일댓글 수 로딩 중
[논문리뷰] CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving ChallengesLarge Language Models(LLMs)의 성공은 인터넷 규모의 데이터 확장에 힘입었지만, 현재 고품질 데이터의 포화로 인해 모델 인텔리전스(model intelligence)의 추가 스케일링이 한계에 부딪혔습니다.#Review2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation최근 멀티모달 모델링 분야에서 시각적 이해와 생성을 단일 모델 내에서 통합하는 연구는 인간과 유사한 멀티모달 인텔리전스를 향한 중요한 진전으로 평가받습니다. 그러나 이러한 통합은 두 가지 근본적인 문제에 직면합니다.#Review#Unified multimodal model#Visual generation and comprehension#Unified vision encoder#Cascaded flow matching#Token compression2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Can Vision-Language Models Solve the Shell Game?Vision-Language Models (VLMs)는 전반적인 비디오 이해 및 추론에서 뛰어난 성능을 보였지만, 시간 경과에 따른 개체 추적(Visual Entity Tracking)과 같은 저수준 인식 능력에서는 중요한 병목 현상을 겪고 있습니다.#Review#Visual Entity Tracking#Shell Game#Vision-Language Models (VLMs)#VET-Bench#Spatiotemporal Grounded Chain-of-Thought (SGCoT)#NC1-complete#Transformer-based VLMs2026년 3월 15일댓글 수 로딩 중
[Uvicorn] bytes에서 bytearray로 변경하여 HTTP 바디 누적 O(n²) → O(n) 개선요청 바디 누적에서 bytes += 대신 bytearray +=를 사용하여 O(n²) 메모리 복사를 amortized O(1)로 개선한 분석.#Uvicorn#Python#Performance#HTTP#ASGI#Memory2026년 3월 15일댓글 수 로딩 중
[triton] AMD AtomicCAS의 Tensor Operand Thread Predicate 수정AMD 백엔드에서 tensor 기반 atomic CAS 연산의 thread predicate를 올바르게 적용하여 redundant thread의 잘못된 atomic 실행을 방지한 사례를 분석합니다.#Triton#AMD#GPU#Atomics#BugFix2026년 3월 14일댓글 수 로딩 중
[triton] AMD Pipelined Loop에서 TDM Load의 Buffer Race 수정AMD GPU의 pipelined loop에서 TDM load 사용 시 버퍼 수가 부족하여 발생하는 데이터 경쟁 버그를 수정한 PR 분석.#Triton#AMD#TDM#Pipeline#BufferRace#BugFix2026년 3월 14일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법#Triton#GPU#CUDA#MatMul#HighPerformanceComputing2026년 3월 13일댓글 수 로딩 중
[PaddleOCR] PaddleOCR-VL 배포 문서 개선 — Docker 이미지 및 디바이스 호환성 가이드 추가PaddleOCR-VL의 배포 문서를 Docker 중심으로 재구성하고, 디바이스 호환성 매트릭스와 오프라인 환경 가이드를 추가합니다.#PaddleOCR#Docker#Deployment#Documentation#DevOps2026년 3월 13일댓글 수 로딩 중
[Ray] Autoscaler V2 스케줄링 최적화: 불가능한 리소스 요청 캐싱으로 O(N²M) 제거동일한 리소스 요청 형태를 캐싱하여 try_schedule 호출을 대폭 줄이고 Autoscaler 행 현상을 해결한 분석.#Ray#Python#Performance#Caching#Autoscaler2026년 3월 13일댓글 수 로딩 중