최신 포스트

[논문리뷰] A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

터미널 기반의 소프트웨어 엔지니어링 에이전트는 긴 호흡의 의사결정이 필요하지만, 반복적이고 노이즈가 많은 터미널 출력으로 인해 컨텍스트의 중복성이 심화되는 문제에 직면해 있습니다 . 이러한 데이터 중복은 토큰 비용을 기하급수적으로 증가시킬 뿐만 아니라, 중요한 신호를 가려 장기 추론 성능을 저하시키는 주요 원인이 됩니다.

#Review #Terminal Agents #Context Compression #Self-evolving Framework #Token Efficiency #Long-horizon Reasoning #Training-free

2026년 4월 22일

[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원

Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.

#Triton #CUDA #LLM #SGLang #Optimization #DeepLearning

2026년 4월 22일

[sglang] SGLang 고성능 서빙: 비동기 알림 배치 처리와 SSE 고속 경로 최적화 분석

SGLang의 PD 분산 스트리밍 환경에서 CPU 병목 현상을 해결하기 위한 두 가지 핵심 최적화를 분석합니다.

#SGLang #성능 최적화 #비동기 프로그래밍 #SSE #Python #메시지큐 #Pydantic #msgspec

2026년 4월 22일

[논문리뷰] UniMesh: Unifying 3D Mesh Understanding and Generation

본 논문은 3D 생성과 이해를 하나의 아키텍처 내에서 통합하고 상호 강화할 수 있는 UniMesh를 제안합니다. Mesh Head를 도입하여 BAGEL의 latent와 Hunyuan3D의 conditioning latent를 직접 매핑함으로써 정보 손실을 최소화하고 기하학적 정밀도를 유지합니다.

#Review #3D Generation #3D Understanding #Mesh Head #Chain-of-Mesh #Self-Reflection #Multimodal Learning

2026년 4월 21일

[논문리뷰] Understanding and Enforcing Weight Disentanglement in Task Arithmetic

본 논문은 Task Arithmetic의 성공 뒤에 숨겨진 근본적인 이론적 원리를 규명하고, 이를 기반으로 성능을 개선하는 것을 목표로 한다.

#Review #Task Arithmetic #Weight Disentanglement #Model Merging #Orthogonal Regularization #Task-Feature Specialization

2026년 4월 21일

[논문리뷰] UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

본 논문은 `UDM`과 `GRPO`를 안정적으로 통합하기 위해 UDM-GRPO 프레임워크를 제안합니다. 첫째, 모든 타임스텝에서 액션을 중간 예측치가 아닌 최종 정제 샘플 `x_hat_1`으로 재정의하여 보상 일관성과 최적화 정밀도를 높였습니다 .

#Review #Uniform Discrete Diffusion Model #Reinforcement Learning #GRPO #Text-to-Image Generation #Policy Optimization #Distribution Alignment

2026년 4월 21일

[논문리뷰] The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

저자들은 Qwen-3.5-9B를 기반으로 Sentinel-Bench라는 평가 프레임워크를 구축하여 System 1과 System 2 간의 성능을 정량적으로 비교 분석하였다. 동일한 파라미터 환경에서 reasoning toggle만을 조정하여 840번의 독립적인 추론을 수행하였다.

#Review #Small Language Models #Decentralized Autonomous Organizations #Inference-time Compute #System 1 vs System 2 #Sentinel-Bench #Adversarial Robustness #Cognitive Collapse

2026년 4월 21일

[논문리뷰] Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

본 논문은 LLM pretraining 과정에서 타겟 도메인 및 태스크의 특성을 효율적으로 학습하기 위한 정교한 데이터 선별 기법의 부재 문제를 해결합니다.

#Review #Large Language Models #Pretraining Data Selection #Neuron-Activated Graph #Target-Oriented Pretraining #Interpretability

2026년 4월 21일

[논문리뷰] TEMPO: Scaling Test-time Training for Large Reasoning Models

본 논문은 기존 <strong>Large Reasoning Models (LRMs)</strong>의 테스트 시점 학습(Test-time Training, TTT)이 겪는 성능 정체 및 다양성 붕괴 문제를 해결하고자 합니다.

#Review #Test-time Training #Large Reasoning Models #Expectation-Maximization #Actor-Critic #Reinforcement Learning #Scalability #Diversity

2026년 4월 21일

[논문리뷰] Speculative Decoding for Autoregressive Video Generation

본 논문은 이미지 품질 라우터를 사용하여 블록별로 드래프트된 결과물을 수락하거나 타겟 모델로 재생성하는 SDVG 프레임워크를 제안합니다. 드래프터는 4번의 Denoising step을 통해 후보 블록을 생성하며, 이는 Worst-frame aggregation을 통해 ImageReward로 평가됩니다 .

#Review #Speculative Decoding #Autoregressive Video Generation #Video Diffusion #Training-free #ImageReward

2026년 4월 21일

[논문리뷰] ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

본 논문은 기존 LoRA 스타일의 PEFT 방식이 가진 파편화된 적응(fragmented adaptation) 구조를 극복하기 위해 ShadowPEFT를 제안한다.

#Review #Parameter-Efficient Fine-Tuning #Shadow Network #Large Language Models #Modular Deployment #Edge Computing

2026년 4월 21일

[논문리뷰] PlayCoder: Making LLM-Generated GUI Code Playable

본 논문은 GUI 행동의 정확성을 검증하고 이를 기반으로 코드를 반복적으로 수정하는 다중 에이전트 프레임워크인 PlayCoder를 제안합니다 . PlayDeveloper는 리포지토리 문맥을 활용하여 초기 코드를 생성하고, PlayTester는 GUI를 직접 실행하며 시각적/기능적 결함을 진단합니다.

#Review #Large Language Model #Code Generation #Multi-Agent #GUI Applications #Automated Program Repair

2026년 4월 21일

[논문리뷰] MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

본 논문은 기존 S2ST 시스템이 의미론적 정확도는 높으나, 웃음이나 울음 같은 NVs를 보존하지 못해 실질적인 대화의 정서적 맥락을 상실하는 문제를 해결한다. 기존 시스템들은 고품질 NVs 데이터의 부족과, 복잡한 다중 감정 상태를 처리하기 어려운 모델 구조적 한계로 인해 표현력이 부족하다.

#Review #Speech-to-Speech Translation #Non-verbal Vocalizations #Mixture of Experts #AudioLLMs #Expressive Speech #Data Efficiency

2026년 4월 21일

[논문리뷰] Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

본 논문은 최신 <strong>Multimodal Large Language Models (MLLMs)</strong>가 객체 인식이나 장면 묘사와 같은 표면적 시각 인지에서는 뛰어난 성과를 보이나, 인간의 핵심 인지 능력인 visuo-cognitive 및 visuospatial reasoning 역량은 여전히 부족하다는 문제의식에서 출발합니다.

#Review #Multimodal LLMs #Visuospatial Reasoning #Fluid Intelligence #Mental Transformation #ART Taxonomy #Cognitive Benchmark

2026년 4월 21일

[논문리뷰] MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

본 연구는 29개의 기존 데이터셋에서 추출한 1,804개의 샘플을 바탕으로 9가지 유형의 편향을 분석하는 MM-JudgeBias 벤치마크를 구축하였다. 제안된 프레임워크는 각 샘플에 대해 편향되지 않은(unbiased) triplet과 편향을 주입한(biased) triplet을 생성하여 평가 결과의 차이를 비교한다.

#Review #Multimodal Large Language Models #MLLM-as-a-Judge #Compositional Bias #Benchmark #Bias-Deviation #Bias-Conformity

2026년 4월 21일

[논문리뷰] LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

본 논문은 LoopCTR을 제안하며, 이는 재귀적 루프 블록을 통해 파라미터 효율성을 극대화한 Sandwich architecture를 채택한다. Loop Block 내의 표현력을 높이기 위해 MoE-Augmented Transformer를 적용하고, Hyper-Connected Residuals (HCR)를 도입하여 정보 흐름을 동적으로 조정한다 .

#Review #CTR Prediction #Loop Scaling #Transformer #Mixture-of-Experts #Hyper-Connected Residuals #Parameter Efficiency #Process Supervision

2026년 4월 21일

[논문리뷰] HP-Edit: A Human-Preference Post-Training Framework for Image Editing

본 논문은 기존의 이미지 편집 모델이 SFT(Supervised Fine-Tuning) 데이터의 품질 불일치와 실제 인간 선호도와 동떨어진 결과물을 생성하는 문제를 해결하고자 한다.

#Review #Image Editing #Human-Preference Alignment #Reinforcement Learning #Flow Matching #Visual Large Language Model

2026년 4월 21일

[논문리뷰] Evaluation-driven Scaling for Scientific Discovery

본 논문은 과학적 발견 과정에서 LLM을 활용한 Trial-and-error 루프의 확장성(Scaling) 문제를 공식화하고 이를 체계적으로 해결하고자 합니다.

#Review #Test-Time Scaling #Scientific Discovery #Evaluation-driven Discovery #LLM #Optimization #Symbolic Laws #GPU Kernel

2026년 4월 21일

[논문리뷰] Dual-View Training for Instruction-Following Information Retrieval

본 논문은 기존의 instruction-aware retrievers가 지시문이 변경될 때 적절히 대응하지 못하고, 표면적인 쿼리-문서 유사도에 의존하여 구체적인 제약 조건을 무시하는 문제를 해결하고자 한다. Weller et al.

#Review #Instruction-Following #Information Retrieval #Dual-View Training #Polarity Reversal #Contrastive Learning

2026년 4월 21일

[논문리뷰] Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

본 논문은 기존 interpretability 도구들이 실제 벤치마크상의 LLM 오류를 분석하는 데 한계가 있다는 점을 지적하며, 이를 해결하기 위한 실용적인 분석 프레임워크를 제안합니다.

#Review #LLM Interpretability #Contrastive Attribution #Layer-wise Relevance Propagation #Attribution Graph #Failure Analysis #Transformer

2026년 4월 21일