최신 포스트

[논문리뷰] Spectral Rewiring for Exploration, Purification, and Model Merging

본 논문은 LLM의 RL post-training 과정에서 발생하는 dense full-parameter 업데이트의 비효율성과 부작용을 해결하고자 합니다 . 기존의 방식은 reasoning 성능을 오히려 억제하거나, 테스트 타임 스케일링에서의 조기 포화(Early saturation) 문제를 야기합니다.

#Review #Reinforcement Learning #Spectral Analysis #Model Merging #Subspace-Aligned Rewiring #Large Language Models #Reasoning Elicitation #Parameter Efficiency

2026년 7월 16일

[논문리뷰] Smarter and Cheaper at Once: Byte-Exact KV-Cache Grafting Turns a Frozen Small Model into a Verified-Knowledge Flywheel

본 논문은 대규모 언어 모델의 성능 향상을 위해 수행되는 재학습(retraining)과 매번 전체 문맥을 재연산해야 하는 추론 과정의 막대한 비용 문제를 해결하고자 합니다. 기존 방식은 모델 가중치를 변경하거나 매번 동일한 문맥을 반복해서 Prefill하는 비효율적인 자원 소모를 동반합니다.

#Review #KV-State Grafting #Byte-Exactness #Inference-time Learning #Flywheel #Galahad #KV Cache #Model Efficiency

2026년 7월 16일

[논문리뷰] SearchOS-V1: Towards Robust Open-Domain Information-Seeking Agent Collaboration

본 논문은 기존의 정보 검색 에이전트들이 장기적인 검색(Long-horizon) 과정에서 수행 상태를 추적하지 못해 발생하는 불확실성과 비효율성 문제를 해결하고자 합니다.

#Review #Information-Seeking Agents #Multi-Agent Collaboration #Relational Schema Completion #Search-Oriented Context Management #Pipeline-Parallel Scheduling #Middleware Harness

2026년 7월 16일

[논문리뷰] SUFLECA: Scaling Up Feature Learning for CAD-to-image Alignment

본 논문은 기존 zero-shot CAD-to-image alignment 방식이 가진 외관 중심적(appearance-driven) 피처 학습의 한계를 극복하고자 합니다.

#Review #CAD-to-image Alignment #Zero-shot #Feature Learning #NOCs #Geometric Consistency #Robotics

2026년 7월 16일

[논문리뷰] SEED: Self-Evolving On-Policy Distillation for Agentic Reinforcement Learning

본 논문은 장기적(Long-horizon) agentic 작업에서 발생하는 sparse trajectory-level reward와 token-level policy learning 사이의 불일치 문제를 해결하고자 합니다.

#Review #Agentic Reinforcement Learning #On-Policy Distillation #Hindsight Learning #Large Language Models #Supervised Fine-Tuning #Self-Evolving

2026년 7월 16일

[논문리뷰] RoboTTT: Context Scaling for Robot Policies

본 논문은 최신 로봇 파운데이션 모델들이 단일 스텝 또는 짧은 히스토리에만 의존하여 장기적인 작업 수행 및 맥락 이해에 한계를 보인다는 문제를 해결합니다.

#Review #Robot Foundation Models #Test-Time Training #Long-Context Policies #Visuomotor Control #In-Context Imitation #Sequence Modeling

2026년 7월 16일

[논문리뷰] Partition, Prompt, Aggregate: Statistical Self-Consistency in Language Models

본 연구는 LLM의 ICL이 과연 이론적으로 가정한 Conditional Inference로서 엄밀하게 작동하는지 검증하는 것을 목적으로 한다.

#Review #In-context Learning #Conditional Inference #Statistical Self-Consistency #Persona Prompting #Macro Fallacy #Binary Conditioning Tree

2026년 7월 16일

[논문리뷰] MultiRef-Compass: Towards Comprehensive Evaluation of Multi-Reference-to-Audio-Video Generation

본 연구는 기존 비디오 생성 벤치마크들이 단일 참조(single-reference) 기반의 과업에 치중되어 있어, 실제 콘텐츠 제작 현장에서 요구되는 복합적인 다중 참조(multi-reference) 기반의 생성 능력을 충분히 평가하지 못한다는 문제에서 출발한다 .

#Review #MultiRef-Compass #MR2AV #Multimodal Generation #Reference Consistency #Instruction Following #Benchmark #MLLM-as-a-Judge

2026년 7월 16일

[논문리뷰] MeanFlowNFT: Bringing Forward-Process RL to Average-Velocity Generators

기존의 Diffusion 및 Flow 모델은 고품질 생성을 위해 많은 반복 연산이 필요하여 Latency 측면에서 비효율적이다.

#Review #MeanFlow #Reinforcement Learning #Forward-Process RL #Flow Matching #Few-step Generation #Average Velocity

2026년 7월 16일

[논문리뷰] LongStraw: Long-Context RL Beyond 2M Tokens under a Fixed GPU Budget

본 연구는 고정된 GPU 자원 내에서 million-token context를 지원하는 RL post-training의 한계를 극복하고자 수행되었습니다.

#Review #Long-Context #GRPO #RL Post-training #Fixed GPU Budget #Tensor Lifetime #Architecture-Aware Execution

2026년 7월 16일

[논문리뷰] GRASP: GRanularity-Aware Search Policy for Agentic RAG

본 논문은 Agentic RAG 시스템에서 발생하는 불필요한 노이즈와 잘못된 검색 결정을 방지하고, 다중 단계 추론의 정확도를 높이는 문제를 해결한다. 기존의 Static RAG는 단일 검색으로 인한 정보 부족과 coarse-grained 문맥으로 인한 hallucination 문제에 취약하다.

#Review #Agentic RAG #Reinforcement Learning #Retrieval Policy #Context Granularity #Multi-hop Reasoning #Information Foraging

2026년 7월 16일

[논문리뷰] From Pixels to States: Rethinking Interactive World Models as Game Engines

본 논문은 최근 비디오 생성 모델이 interactive world를 구현하는 데이터 기반 방법론으로 부상하고 있으나, 실제 게임 엔진이 갖는 엄격한 논리적 구조를 완전히 재현하지 못한다는 문제를 제기한다.

#Review #Interactive World Models #Game Engines #Video Generation #Game State Dynamics #Action Control #Long-horizon Consistency

2026년 7월 16일

[논문리뷰] Demystifying On-Policy Distillation: Roles, Pathologies, and Regulations

본 논문은 최신 LLM post-training의 표준이 된 OPD의 학습 동역학이 여전히 불투명하다는 점을 지적한다. OPD는 때때로 성능 향상을 이끌지만, 많은 경우 불안정성을 보이거나 탐색 붕괴를 초래하며 심지어 outcome-based RL보다 성능이 저하되기도 한다 .

#Review #On-Policy Distillation #LLM Post-training #Reinforcement Learning #Exploration Catalyst #Pathology #Signal Regulation

2026년 7월 16일

[논문리뷰] DeepLoop: Depth Scaling for Looped Transformers

본 논문은 Looped Transformer 환경에서 기존의 DeepNorm 스케일링 규칙이 최적화 안정성을 보장하지 못하는 문제를 해결합니다.

#Review #Looped Transformer #Depth Scaling #DeepNorm #Residual Scaling #Parameter Tying #Recurrent Depth

2026년 7월 16일

[논문리뷰] Concurrent Image Understanding and Generation: Self-Correcting Coupled Markov Jump Processes

기존의 다중 모달 생성 시스템은 텍스트와 이미지 생성이 상호 독립적이거나 비동기적으로 이루어져, 모달리티 간의 심각한 불일치(contradiction)가 발생하고 이를 사후 수정할 수 없다는 한계가 있습니다.

#Review #Masked Diffusion Models #Multimodal Generation #Coupled Markov Jump Processes #Self-Correction #Remasking #Visual Reasoning

2026년 7월 16일

[논문리뷰] BadWAM: When World-Action Models Dream Right but Act Wrong

본 논문은 WAM이 미래 상태를 예측하는 능력을 갖추고 있음에도 불구하고, 이러한 결합 구조가 오히려 새로운 형태의 보안 취약점이 될 수 있음을 지적합니다.

#Review #World-Action Models #Embodied AI #Adversarial Attack #World-Action Drift #Closed-Loop Execution #Robotics

2026년 7월 16일

[논문리뷰] AsySplat: Efficient Asymmetric 3D Gaussian Splatting for Long-Sequence Scene Modeling

본 논문은 일반화된 3DGS 모델이 긴 시퀀스(long-sequence)의 장면을 다룰 때 발생하는 과도한 연산 중복 문제를 해결하는 것을 목표로 합니다. 기존 연구들은 기하학적 정보와 외관 정보 모델링을 구분하지 않고 동일한 방식으로 고해상도 패치 토큰들을 처리하여 불필요한 계산 비용을 발생시켰습니다 .

#Review #3D Gaussian Splatting #Long-sequence Scene Modeling #Generalizable NVS #Asymmetric Architecture #Sparse Attention #Computational Efficiency

2026년 7월 16일

[flashinfer] FlashInfer의 FP4 GEMM 최적화: 휴리스틱 개선과 Autotuning 효율화

FlashInfer의 mm_fp4(cute-dsl) 연산에서 휴리스틱 기반 랭킹과 Top-N Autotuning을 도입하여 컴파일 시간을 획기적으로 단축했습니다.

#FlashInfer #GEMM #CUDA #Optimization #LLM #Autotuning

2026년 7월 15일

[ultralytics] [Ultralytics] NDJSON 변환 최적화: 보안과 성능을 동시에 잡는 설계 전략

NDJSON 데이터셋 변환 시 발생하던 경로 보안 취약점과 성능 병목을 해결하고, 8배 빠른 속도를 달성한 Ultralytics의 최적화 기법을 분석합니다.

#Python #Ultralytics #Optimization #Security #PathTraversal #Performance

2026년 7월 15일

[sglang] SGLang에 KDA FlashInfer 백엔드 도입: Blackwell 아키텍처에서의 효율적인 추론

FlashInfer KDA 커널을 도입하여 KDA 모델의 추론 성능을 개선하고 MTP(Speculative Decoding)를 위한 target_verify 경로를 구현했습니다.

#SGLang #FlashInfer #KDA #Speculative Decoding #LLM Optimization

2026년 7월 15일