최신 포스트

[논문리뷰] Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale

본 연구는 trillion-parameter scale에서 instant response와 high token efficiency를 동시에 달성하는 agentic intelligence 모델을 구축하는 데 따르는 핵심적인 문제를 해결하고자 합니다.

2026년 6월 15일

[논문리뷰] LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

본 논문은 기존의 Vision-Language-Action models (VLAs)가 갖는 미래 예측 능력의 부재와, World-Action Models (WAMs)가 겪는 높은 추론 비용 문제를 해결하기 위해 제안되었습니다 .

#Review #Robot Manipulation #World Action Models #Latent World Models #Vision-Language-Action Models #Latent Subgoals

2026년 6월 15일

[논문리뷰] JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

본 논문은 현대의 Large Models이 대부분 Turn-based 구조로 설계되어 있어, 실시간으로 변화하는 현실 세계의 중요한 순간을 능동적으로 포착하지 못한다는 문제점을 지적합니다. 기존 연구들은 응답 속도 최적화에는 성공했으나, 여전히 사용자의 발화를 기다리는 수동적 체계에 머물러 있습니다.

#Review #Vision-Language Model #Real-Time Interaction #Proactive AI #Video Streaming #Embodied Intelligence #Deployment

2026년 6월 15일

[논문리뷰] Implicit Reasoning for Large Language Model-based Generative Recommendation

본 논문은 LLM 기반의 Generative Recommendation(GR) 시스템에서 명시적 CoT 추론이 오히려 추천 성능 향상에 한계를 보인다는 문제를 다룹니다. 기존 연구들은 LLM의 월드 지식을 활용하고자 자연어 추론 과정을 도입했으나, 이는 계산 비용이 크고 실제 성능 기여도가 불분명합니다 .

#Review #Generative Recommendation #Large Language Models #Chain-of-Thought #Semantic IDs #Implicit Reasoning #Representation Alignment #PauseRec

2026년 6월 15일

[논문리뷰] Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

본 논문은 VLA의 online RL fine-tuning이 에피소드당 단일 binary 성공/실패 신호만 제공하는 sparse outcome 문제를 지적하며, viability와 efficiency 신호를 분리해 transition 단위 학습 가중치를 생성하는 Hierarchical Advantage-Weighted Behavior Cloning(HABC)을 제안합니다.

#Review #Vision-Language-Action Models #Online Reinforcement Learning #Robot Manipulation #Hierarchical Advantage Weighting #Sparse Episode Outcomes #Dual-Head Critic #Intervention-Aware Credit Assignment

2026년 6월 15일

[논문리뷰] Geometric Action Model for Robot Policy Learning

본 논문은 기존의 Vision-Language-Action Models (VLAs)가 2D 기반의 시각적 지식에 의존하여 3D 물리적 조작 환경에서 깊이, 스케일, 폐색(occlusion)을 명시적으로 추론하지 못하는 한계를 해결하고자 합니다.

#Review #Robot Policy Learning #Geometric Foundation Model #Vision-Language-Action Model #World Model #Causal Future Prediction #3D Geometry

2026년 6월 15일

[논문리뷰] GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

본 논문은 LLM의 다차원적 성능 향상을 위해 사용되는 Multi-Reward RL 환경에서 발생하는 Advantage 상쇄 문제를 해결하고자 한다.

#Review #Reinforcement Learning #Multi-Reward Optimization #Policy Optimization #Conflict Mitigation #Dynamic Filtering #Tool Calling #Alignment

2026년 6월 15일

[논문리뷰] FastContext: Training Efficient Repository Explorer for Coding Agents

본 논문은 LLM 기반 코딩 에이전트의 저장소 탐색 단계에서 발생하는 고비용 토큰 소비 및 불필요한 컨텍스트 오염 문제를 해결하기 위해 제안되었다. 기존 에이전트들은 동일한 모델이 탐색과 문제 해결을 모두 수행하여, 탐색 과정에서 누적된 방대한 양의 관련 없는 코드 스니펫이 주 모델의 컨텍스트를 오염시킨다 .

#Review #Coding Agents #Repository Exploration #Subagent Architecture #Supervised Fine-Tuning #Reinforcement Learning #Context Efficiency #Token Consumption

2026년 6월 15일

[논문리뷰] EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video

본 논문은 일상적인 상호작용이 담긴 단일 egocentric RGB 영상으로부터 복잡한 변형체(Deformable objects)의 물리적 속성을 파악하여 '디지털 트윈'을 구축하는 난제를 해결하고자 합니다.

#Review #Physical Understanding #Real-to-sim #Egocentric Video #Deformable Objects #Digital Twin #Physics-based Simulation

2026년 6월 15일

[논문리뷰] DreamX-World 1.0: A General-Purpose Interactive World Model

본 논문은 다양한 visual domain(photorealistic, game-style, stylized) 전반에서 카메라 탐색 및 이벤트 조작을 실시간으로 지원하는 general-purpose interactive world model 구축을 목표로 합니다 .

#Review #Interactive World Model #Camera Control #E-PRoPE #Memory-Conditioned Scene Persistence #Event Instruction Tuning #Autoregressive Distillation #Reinforcement Learning

2026년 6월 15일

[논문리뷰] Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

본 논문은 데이터 저널리즘에서 발생하는 할루시네이션(Hallucination) 문제와 데이터 투명성 결여를 해결하기 위해 Data2Story를 제안한다.

#Review #Data Journalism #Multi-Agent System #Evidence-Grounded #Multimodal Generation #Verifiability #Auditability

2026년 6월 15일

[논문리뷰] CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

본 논문은 현대의 자율 에이전트가 실제 소프트웨어 엔지니어링이나 데이터 분석 현장에서 겪는 복잡한 데이터 처리 요구사항을 해결하지 못하고 있다는 문제의식에서 출발합니다.

#Review #CoDA-Bench #Code Agents #Data-Intensive Tasks #Data Discovery #Autonomous Engineering #Kaggle Ecosystem #Evaluation Benchmark

2026년 6월 15일

[논문리뷰] BadWorld: Adversarial Attacks on World Models

본 논문은 VWMs의 잠재적 취약성을 평가하기 위한 최초의 적대적 공격 프레임워크인 BadWorld를 제안합니다.

#Review #Adversarial Attack #Visual World Models #Autoregressive Generation #Flow Matching #Trajectory-Adaptive Optimization #Label-Free

2026년 6월 15일

[논문리뷰] BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering

본 논문은 기존의 Physically-based inverse rendering 모델들이 가지는 물리적 불일치 문제와 Generative 모델들의 제어 불가능성 문제를 동시에 해결하기 위해 BRDFusion 프레임워크를 제안합니다.

#Review #Inverse Rendering #3D Gaussian Splatting #Generative Prior #Relighting #Urban Scene #Diffusion Model

2026년 6월 15일

[논문리뷰] Artificial Intelligence Index Report 2026

본 보고서는 AI 기술이 전례 없는 속도로 확산됨에 따라, 기술 발전 속도와 이를 관리하기 위한 거버넌스 및 평가 프레임워크 간의 격차가 심화되는 문제를 제기한다.

#Review #Generative AI #AI Sovereignty #Technical Benchmarks #AI Adoption #Responsible AI

2026년 6월 15일

[hermes-agent] [성능 최적화] OpenRouter 모델 메타데이터의 디스크 캐싱 도입기: Hermes Agent의 콜드 스타트 개선

OpenRouter API 호출을 줄이고 콜드 스타트 성능을 높이기 위해 디스크 기반 캐시 계층을 도입한 최적화 사례를 분석합니다.

#Python #Performance #Caching #OpenRouter #HermesAgent

2026년 6월 14일

[sglang] SGLang의 긴 문맥 처리 최적화: fill_ids 재구성 오버헤드 줄이기

RadixKey에 limit을 도입하여 불필요한 메모리 복사를 제거하고 긴 문맥 추론 성능을 개선한 사례 분석.

#SGLang #LLM #Optimization #Python #Performance

2026년 6월 14일

[vllm] vLLM의 동적 추측 디코딩(Dynamic Speculative Decoding) 도입

배치 크기에 따라 추측 디코딩의 토큰 수를 최적화하여 높은 부하에서도 효율적인 추론 성능을 유지하는 Dynamic SD 구현

#vLLM #LLM #Speculative Decoding #Performance Optimization #Inference

2026년 6월 14일

[sglang] SGLang, GPU 간 VAE 디코딩 최적화를 통한 이미지 생성 속도 향상

SGLang의 최신 PR은 VAE 디코딩 과정을 최적화하여 이미지 생성 속도를 크게 향상시킵니다.

#SGLang #AI #이미지 생성 #최적화 #VAE #병렬 처리 #GPU

2026년 6월 14일

[논문리뷰] μ_0: A Scalable 3D Interaction-Trace World Model

본 논문은 기존 로봇 학습이 직면한 데이터 파라독스, 즉 '액션이 포함된 로봇 데이터의 희소성'과 '비디오 데이터의 높은 가용성' 사이의 간극을 해결하고자 합니다 .

#Review #World Model #3D Interaction-Trace #Robot Manipulation #Cross-Embodiment Learning #Semantic Flow Matching #Data Pipeline

2026년 6월 14일