최신 포스트

[논문리뷰] Beyond Alignment: Value Diversity as a Collective Property in Multicultural Agent Systems

본 논문은 기존의 Value Alignment 평가가 개별 agent의 충실도에만 집중하여, 멀티 에이전트 시스템 전체가 보유해야 할 문화적 다양성을 간과하고 있다는 문제를 제기합니다.

#Review #Value Diversity #Multicultural Agent Systems #LLM Alignment #Collective Decision-Making #Cultural Homogenization #System-Level Evaluation

2026년 6월 17일

[논문리뷰] Bag of Dims: Training-Free Mechanistic Interpretability via Dimension-Level Sign Patterns

본 논문은 Transformer의 내부 연산 과정을 해석하기 위해 별도의 해석 모델을 훈련해야 하는 기존 방식의 비효율성을 해결하고자 한다.

#Review #Mechanistic Interpretability #Transformer #Standard Basis #Dimension-Level #Feature Discovery #Sign Patterns #Zero-Training

2026년 6월 17일

[논문리뷰] A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets

본 논문은 스프레드시트 환경에서 부족한 자동 완성(auto-completion) 기능을 보완하기 위해 차세대 작업 예측을 위한 벤치마크와 평가 프레임워크를 제안합니다. 기존의 코드 자동 완성 연구와 달리, 스프레드시트는 공개적인 편집 기록(edit history) 데이터가 부족하고 작업 공간이 복잡하다는 한계가 있습니다.

#Review #Spreadsheet Automation #Next Action Prediction #Benchmark #Online Evaluation #Human-AI Collaboration #Code Completion

2026년 6월 17일

[onnxruntime] ONNX Runtime WebGPU: Reduce 연산 최적화를 통한 성능 향상

WebGPU 환경에서 ReduceMean 연산 시 발생하는 불필요한 Transpose 오버헤드를 제거하여 모델 추론 속도를 개선한 사례를 분석합니다.

#ONNXRuntime #WebGPU #Optimization #Performance #GPGPU

2026년 6월 16일

[sglang] Ascend NPU에서 Qwen3 모델을 위한 W8A8 MXFP8 양자화 지원

Ascend NPU 환경에서 Qwen3 모델의 추론 성능을 높이기 위해 MXFP8 온라인 및 오프라인 양자화 기능을 구현했습니다.

#Ascend NPU #Quantization #MXFP8 #LLM #SGLang

2026년 6월 16일

[sglang] [성능 최적화] Wan2.2 모델을 위한 최적의 torch.compile 모드 찾기: 왜 'default'가 더 빠를까?

Wan2.2 T2V A14B 모델에서 torch.compile 모드를 'default'로 변경하여 성능을 5% 이상 향상시키고 메모리 사용량을 줄인 사례를 분석합니다.

#PyTorch #torch.compile #SGLang #Performance #DeepLearning #Wan2.2

2026년 6월 16일

[sglang] AMD GPU 최적화: Triton 커널 퓨전을 통한 Qwen2 MoE 공유 전문가 게이팅 성능 향상

AMD GPU에서 Qwen2 MoE 모델의 공유 전문가 게이팅 연산을 Triton 커널로 융합하여 성능을 개선한 PR 분석

#AMD #Triton #Triton Kernel Fusion #Qwen2 MoE #Performance Optimization #SGLang

2026년 6월 16일

[논문리뷰] Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

본 논문은 소형 모델(Small-scale Student)의 지식 전달(Knowledge Transfer) 시 발생하는 일반화 성능 저하 및 강화학습의 비효율성 문제를 해결하고자 합니다.

#Review #ZPPO #Reinforcement Learning #Knowledge Distillation #Prompt Engineering #VLM #LLM #Policy Gradient #Zone of Proximal Development

2026년 6월 16일

[논문리뷰] Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

본 논문은 기존의 Multimodal Deep Search Agent들이 실제 환경의 복잡한 시각 정보를 효과적으로 다루지 못하는 'Visual Blindness' 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Agentic Search #Active Visual Reasoning #Data Synthesis #Visual-native #Multi-hop Reasoning

2026년 6월 16일

[논문리뷰] Variable-Width Transformers

본 논문은 대부분의 Transformer 모델이 모든 층에 걸쳐 일정한 Width를 유지하는 Uniform-Width 설계를 고수함으로써 발생하는 자원 비효율성 문제를 해결하고자 한다. 저자들은 층별로 수행하는 계산적 역할이 다름에도 불구하고 고정된 매개변수와 연산 예산을 균등하게 할당하는 것은 최적이 아니라고 주장한다.

#Review #Transformer #Nonuniform Capacity Allocation #Variable-Width Architecture #Scaling Laws #KV Cache #Computational Efficiency #Representation Collapse

2026년 6월 16일

[논문리뷰] Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

본 논문은 시각적 이해(understanding)와 생성(generation)이 서로 다른 representation space를 사용하여 통합된 모델링을 저해한다는 핵심 문제를 해결합니다.

#Review #Unified Multimodal Modeling #Autoregressive Modeling #Binary Spherical Quantization #Visual Tokenizer #Parallel Bitwise Prediction #Shared Context

2026년 6월 16일

[논문리뷰] The Price of Anarchy in Disaggregated Inference

본 연구는 Disaggregated Inference 시스템이 다수의 독립적인 에이전트(요청, 연산 풀, 캐시 블록)가 자원을 놓고 경쟁하는 복잡한 멀티 에이전트 시스템이라는 점에 주목한다.

#Review #Disaggregated Inference #Price of Anarchy #LLM Serving #Game Theory #Resource Allocation #KV Cache

2026년 6월 16일

[논문리뷰] Text-Vision Co-Instructed Image Editing

본 논문은 기존 이미지 편집 방식이 가진 공간 제어의 불명확성과 의미적 의도의 모호성 문제를 해결하기 위해 제안되었습니다. 기존의 textual instruction-based 모델은 의미적 표현력은 뛰어나지만, 정교한 공간적 제어나 객체의 움직임을 지정하는 데 한계가 있습니다 .

#Review #Computer Vision #Diffusion Models #Image Editing #Text-Vision Co-Instruction #Spatial Control #Semantic Editing

2026년 6월 16일

[논문리뷰] TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs

임상적 의사결정 지원 시스템은 환자 선별(Triage)을 위한 정밀한 위험 점수와 임상의가 신뢰할 수 있는 자연어 설명(Rationales)을 동시에 제공해야 합니다 .

#Review #Medical Time Series #Large Language Models #Dialectical Reasoning #Risk Prediction #Explainability #Calibration

2026년 6월 16일

[논문리뷰] Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

본 논문은 픽셀 공간 확산 모델에서 모델의 컴퓨팅 자원이 비효율적으로 할당되는 문제를 해결하고자 합니다.

#Review #Pixel-space Diffusion #Rectified-flow #Spectral Forcing #Data-to-Noise Ratio #Capacity Allocation #Coarse Tokenization

2026년 6월 16일

[논문리뷰] Rethinking the Role of Efficient Attention in Hybrid Architectures

본 논문은 하이브리드 아키텍처에서 Efficient Attention이 모델의 장거리 문맥 학습 능력에 미치는 영향을 체계적으로 규명하는 것을 목표로 합니다.

#Review #Hybrid Architecture #Efficient Attention #Full Attention #Scaling Law #Long-Context Capability #Optimization Prior #Large-Window Laziness

2026년 6월 16일

[논문리뷰] RepSelect: Robust LLM Unlearning via Representation Selectivity

본 논문은 LLM에서 특정 정보를 삭제하는 unlearning 과정이 왜 쉽게 역전(reversal)되는지 그 근본 원인을 분석하고 해결책을 제시합니다.

#Review #LLM Unlearning #Representation Selectivity #SVD #Robustness #Fine-tuning Attack #Few-shot Prompting

2026년 6월 16일

[논문리뷰] RefGC-SR^2: Reference-guided Generated Content Super-Resolution and Refinement

본 연구는 사용자 제공 고해상도 참조 이미지(HRRI)를 저해상도(LR)로 다운샘플링하여 입력하는 기존 파이프라인의 정보 손실 문제와, 이로 인해 발생하는 생성 아티팩트를 동시에 해결하고자 합니다.

#Review #Reference-guided Generation #Super-Resolution #Generative Artifact Refinement #Diffusion Transformer #Frequency-adaptive Mixture of LoRA #Post-processing

2026년 6월 16일

[논문리뷰] OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

본 연구는 기존 메모리 증강 에이전트들이 단기적인 경험 저장이나 활용에는 능숙하지만, 상호작용 기록과 피드백을 지속적인 행동 개선으로 전환하는 '진정한 의미의 자가 진화(self-evolution)' 역량이 부족하다는 문제의식에서 출발합니다.

#Review #Agent Evolver #On-Policy Distillation #Experience Lifecycle #Memory Augmentation #Slow-Fast Co-evolution #Agentic Foundation Models

2026년 6월 16일

[논문리뷰] MotionVLA: Vision-Language-Action Model for Humanoid Motion

본 논문은 기존의 단일 코드북 기반 모션 토큰화가 저주파 포즈 정보에 편향되어 고주파 물리적 역학을 제대로 표현하지 못하는 문제를 해결하고자 합니다. 대다수 연구들은 움직임을 하나의 시퀀스로 통합하여 이산화하는데, 이는 관절 위치(저주파)와 속도(고주파)의 상이한 통계적 특성을 무시하게 만듭니다.

#Review #Vision-Language-Action #Humanoid Motion #Frequency-Domain Tokenizer #Autoregressive Generation #Dual-Stream Representation #MotionVLA

2026년 6월 16일