최신 포스트

[논문리뷰] How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

본 논문은 LoRA를 활용한 Parametric Memory의 용량 한계와 내부 기억 메커니즘을 정량적으로 규명하는 것을 핵심 문제로 다룹니다 .

#Review #LoRA #Parametric Memory Law #Exact Memorization #Deterministic Phase Transition #MemFT

2026년 5월 28일

[논문리뷰] Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

본 논문은 2D 기반 Foundation Model들이 가지는 3D 인지 능력 부족으로 인한 semantic correspondence의 구조적 오류를 해결하고자 합니다.

#Review #Semantic Correspondence #3D Foundation Models #PartField #Geodesic Filtering #Self-Supervised Learning #Render-and-Compare

2026년 5월 28일

[논문리뷰] GenClaw: Code-Driven Agentic Image Generation

본 논문은 기존의 end-to-end 방식의 image generation 모델이 겪는 제어 가능성 및 추론 능력의 한계를 해결하고자 합니다. 기존 모델들은 프롬프트 재작성을 통해 반복적인 '블랙박스' 식 시행착오를 거치며, 복잡한 공간 관계나 텍스트 레이아웃을 정밀하게 제어하는 데 실패하는 경우가 많습니다 .

#Review #Agentic Image Generation #Code-Driven #SVG #Multimodal Reasoning #Layered Representation #Controllable Generation

2026년 5월 28일

[논문리뷰] EarlyTom: Early Token Compression Completes Fast Video Understanding

본 논문은 Video-LLM의 추론 효율성을 저해하는 가장 큰 병목 현상이 LLM 자체가 아닌 Vision Encoder 단계에 집중되어 있다는 점을 지적한다. 기존의 토큰 압축 연구들은 주로 LLM 내부나 그 이후 단계의 처리에 집중하여 TTFT를 효과적으로 줄이지 못했다 .

#Review #Video-LLMs #Token Compression #Vision Encoder #Time-to-First-Token #Inference Efficiency #Training-free

2026년 5월 28일

[논문리뷰] Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas

기존의 LLM 기반 정책 합성 연구는 수동으로 설계된 파이프라인에 의존하며, 파이프라인의 각 구성 요소(프롬프트, 피드백 등)가 최종 정책의 질에 미치는 영향이 매우 큼에도 불구하고 이를 체계적으로 최적화하기 어렵다는 한계가 있습니다.

#Review #Sequential Social Dilemmas #Autoresearch #LLM Policy Synthesis #Mechanism Design #Information Design #Multi-agent Reinforcement Learning

2026년 5월 28일

[논문리뷰] Colored Noise Diffusion Sampling

본 논문은 기존의 Diffusion model SDE(Stochastic Differential Equations) 솔버가 생성 과정의 Spectral Bias를 무시하고 균일한(uniform) white noise를 주입함으로써 유한한 에너지 예산을 비효율적으로 사용하는 문제를 해결합니다.

#Review #Diffusion Models #Spectral Bias #Stochastic Differential Equations #Colored Noise Sampling #Inference-time Optimization #Generative Fidelity

2026년 5월 28일

[논문리뷰] CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

본 논문은 기존의 Customized Image Generation 분야에서 다수의 효과를 적용할 때 발생하는 스토리지 오버헤드, 라우팅 지연, 그리고 모듈 간 매개변수 간섭 문제를 해결하고자 합니다.

#Review #CollectionLoRA #Multi-Teacher Distillation #On-Policy Distillation #Diffusion Models #Few-step Generation #Concept Isolation

2026년 5월 28일

[논문리뷰] CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

본 논문은 LLM 에이전트의 tool retrieval 과정에서 발생하는 성능 병목 문제를 해결하기 위해 CoHyDE를 제안한다.

#Review #Tool Retrieval #LLM Agent #Dense Encoder #Co-training #Direct Preference Optimization (DPO)#Query Expansion

2026년 5월 28일

[논문리뷰] ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

본 논문은 기존 아동 음성 처리 연구들이 일반적인 ASR(Automatic Speech Recognition)에만 편중되어 있어, 아동 발달 과정의 핵심인 비언어적 의사소통 신호를 충분히 포착하지 못하는 한계를 해결하고자 합니다.

#Review #ChildVox #Child Development #Audio Benchmark #LALMs #Speech Foundation Models #Physiological Sounds #Acoustic Intelligence

2026년 5월 28일

[논문리뷰] CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

본 논문은 기존의 인과 추론 벤치마크가 LLM의 진정한 인과적 사고를 평가하기보다 암기된 지식에 의존하는 'Causal parrot' 문제를 해결하기 위해 CausaLab을 제안한다 .

#Review #Causal Discovery #LLM Agents #Structural Causal Models #Interactive Benchmarking #Scientific Discovery #Mechanism Recovery

2026년 5월 28일

[논문리뷰] Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

본 논문은 현대의 Vision-Language Models(VLMs)가 3D 공간 추론에서 겪는 근본적인 한계를 해결하고자 합니다.

#Review #Vision-Language Models #3D Spatial Reasoning #Geometric Priors #Correspondence Learning #Depth Consistency #Object Constancy

2026년 5월 28일

[논문리뷰] AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

기존 LLM 에이전트 연구들은 주로 단일 태스크 환경과 즉각적인 도구 응답을 가정하여 평가를 수행해왔습니다. 그러나 실제 환경에서는 도구 호출 시 지연 시간(latency)이 발생하며, 여러 태스크를 동시에 처리해야 하는 상황이 빈번합니다.

#Review #Asynchronous Tool Calling #Multi-task Scenarios #LLM Agent #Temporal Coordination #Latency #Benchmark

2026년 5월 28일

[논문리뷰] Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

본 논문은 RLHF가 정렬을 위해 사용하는 선호도 데이터셋이 사실은 모델 스스로의 출력에 의해 오염될 수 있는 구조적 한계를 해결하고자 한다. 기존의 RLHF는 응답의 선택 이유를 명시하지 않고 단순히 pairwise 비교 결과만을 사용하기 때문에, 고품질 응답에 포함된 편향을 의도치 않게 학습하게 된다 .

#Review #RLHF #Alignment Tampering #Bias Amplification #Reward Hacking #Bias-Quality Correlation

2026년 5월 28일

[논문리뷰] AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

본 논문은 현대 에이전트 시스템(예: OpenClaw)의 강력한 실행 능력으로 인해 기존 안전성 프레임워크가 대응하기 어려운 광범위한 위험 요소가 발생하고 있다는 문제의식에서 출발한다. 기존 연구들은 주로 단일 시점의 입력이나 출력만을 평가하여 궤적 전체에 누적되는 복합적인 위험 패턴을 탐지하는 데 한계가 있었다 .

#Review #Agent Safety #Alignment Framework #AgentDoG 1.5 #Trajectory-level Diagnosis #Reinforcement Learning #Online Guardrail

2026년 5월 28일

[논문리뷰] AdaState: Self-Evolving Anchors for Streaming Video Generation

본 논문은 기존 autoregressive 비디오 생성 모델이 겪는 '일관성과 동적 표현 사이의 트레이드오프' 문제를 해결하고자 합니다.

#Review #Streaming Video Generation #Autoregressive Diffusion #Adaptive State #Attention Sink #Horizon-Weighted DMD #KV Cache #Temporal Dynamics

2026년 5월 28일

[triton] [Triton] Persistent Matmul 성능을 13% 향상시킨 정교한 Shared Memory 계산 기법 분석

Shared Memory 계산 휴리스틱을 개선하여 TF32 Matmul에서 4-stage 파이프라이닝을 활성화하고 GB200 성능을 13% 끌어올린 사례를 분석합니다.

#Triton #GPU #CUDA #Matmul #Optimization #Deep Learning

2026년 5월 27일

[vllm] vLLM, ROCm 환경에서 AITER MoE 연산 성능 최적화를 위한 환경 변수 노출

vLLM에서 ROCm 환경의 AITER MoE 연산 성능을 개선하기 위해 새로운 환경 변수를 도입하여 최적화 옵션을 제공합니다.

#vLLM #ROCm #AITER #MoE #Performance Optimization #Environment Variable

2026년 5월 27일

[vllm] [vLLM] W4A16 양자화 모델의 호환성 문제 해결: Triton 커널을 활용한 CUDA Fallback 구현

Marlin 커널의 정렬 제약으로 인해 실행 불가능했던 W4A16 모델들을 Triton 커널 fallback을 통해 CUDA 환경에서도 지원하도록 개선했습니다.

#vLLM #CUDA #Triton #Quantization #LLM Inference #W4A16

2026년 5월 27일

[onnxruntime] ONNX Runtime CUTLASS FMHA: BiasLoader 정렬 문제 해결로 안정성 및 호환성 향상

ONNX Runtime의 CUTLASS FMHA에서 BiasLoader의 정렬 문제를 해결하여 CUDA 커널의 안정성과 호환성을 개선했습니다.

#ONNX Runtime #CUDA #CUTLASS #FMHA #최적화 #성능

2026년 5월 27일

[sglang] Pydantic 유효성 검사 최적화: C 루프를 이용한 API 성능 향상

FastAPI 요청 처리 시 Pydantic의 느린 요소별 유효성 검사를 C 루프로 대체하여 API 성능을 25배 향상시킨 PR 분석

#Python #FastAPI #Pydantic #Performance Optimization #C Extension

2026년 5월 27일