최신 포스트

[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석

Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.

#Triton #GPU #Optimization #Attention #DeepLearning

2026년 4월 23일

[cpython] Python JIT Shim 빌드 프로세스 개선: 런타임 컴파일에서 빌드 타임 링크로

Python JIT shim을 런타임 컴파일에서 빌드 타임 링크로 전환하여 성능과 디버깅 편의성을 개선합니다.

#Python #JIT #Performance Optimization #Build System #CPython #Compiler

2026년 4월 23일

[vllm] vLLM CPU 성능 최적화: NEON 하드웨어를 위한 고속 Exp 연산 도입

vLLM의 CPU 어텐션 연산에서 저정밀도 데이터 타입을 위한 고속 exp 루틴을 도입하여 성능을 3-4% 향상시켰습니다.

#vLLM #CPU #Optimization #NEON #Performance

2026년 4월 23일

[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.

#Review #Spoken Dialogue Models #Post-Training #Reinforcement Learning #Preference Optimization #Modality Alignment #End-to-End #Acoustic Expressiveness

2026년 4월 22일

[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning

본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Tool-supervised RL #Visual Reasoning #Curriculum Learning #ToolsRL

2026년 4월 22일

[논문리뷰] Tadabur: A Large-Scale Quran Audio Dataset

본 논문은 기존 Quran audio 데이터셋의 규모와 다양성 부족 문제를 해결하기 위해, 600명 이상의 낭송자가 녹음한 1,400시간 이상의 음성을 포함하는 대규모 Quran 음성 데이터셋 Tadabur를 공개합니다.

#Review #Quran Audio Dataset #Speech Processing #Audio Benchmark #Multi-Speaker Speech #Recitation Analysis #Acoustic Diversity

2026년 4월 22일

[논문리뷰] Scaling Test-Time Compute for Agentic Coding

본 논문은 Long-horizon 코딩 에이전트의 Inference-time scaling을 위해 데이터의 표현(Representation)과 선택(Selection) 방식이 핵심 Bottleneck임을 규명합니다.

#Review #Test-Time Compute #Agentic Coding #Representation Learning #Recursive Tournament Voting (RTV)#Parallel-Distill-Refine (PDR)#Long-Horizon Agents #Inference-Time Scaling

2026년 4월 22일

[논문리뷰] SWE-chat: Coding Agent Interactions From Real Users in the Wild

저자들은 GitHub 저장소에서 코딩 에이전트 세션을 자동으로 기록하는 오픈소스 도구인 Entire.io를 활용하여 데이터셋을 구축하였다. 수집된 데이터는 인간과 에이전트 간의 상세한 상호작용 추적(Interaction traces)과 라인별 코드 기여도 정보를 포함한다 .

#Review #Coding Agents #Software Engineering #Human-Agent Interaction #In-the-wild Dataset #Code Attribution

2026년 4월 22일

[논문리뷰] Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

본 논문은 현대의 RLHF, RLAIF, RLVR 등 정렬 파이프라인이 내재적으로 가지고 있는 구조적 취약점인 reward hacking 문제를 다룬다.

#Review #Reward Hacking #Alignment #RLHF #Proxy Compression Hypothesis #Emergent Misalignment #Large Models #Scalable Oversight

2026년 4월 22일

[논문리뷰] ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

본 논문은 기존의 고품질 인물 비디오 생성 연구들이 포즈, 외형, 카메라 뷰포인트에 대한 동시 제어 역량이 부족하고, 대규모 고품질 멀티뷰 비디오 데이터의 희소성으로 인해 성능 한계에 직면했다는 문제를 해결하고자 한다.

#Review #Human Video Generation #Image-First Synthesis #Flow Matching #Temporal Consistency #SMPL-X #Diffusion Transformer

2026년 4월 22일

[논문리뷰] Near-Future Policy Optimization

본 논문은 RLVR 과정에서 on-policy 탐색이 갖는 한계를 극복하고 최적의 보조 학습 신호를 확보하는 문제를 다룹니다.

#Review #Reinforcement Learning #RLVR #Mixed-Policy #Trajectory Quality #Variance Cost #Self-Taught RL #LLM Post-training

2026년 4월 22일

[논문리뷰] MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings

본 논문은 MLLM의 강력한 시맨틱 추론 능력과 확산 모델의 고품질 이미지 생성 능력을 통합하면서도 학습 효율성을 극대화하는 것을 핵심 문제로 다룹니다.

#Review #Multimodal Generation #Vision-Language Model #Latent Embeddings #Diffusion Model #Representation Alignment #Unified Framework

2026년 4월 22일

[논문리뷰] LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

본 연구는 통합된 multimodal 이해와 생성을 위해 독립적인 아키텍처 대신 dLLM 기반의 단일 프레임워크를 구축하는 것을 목표로 합니다.

#Review #Multimodal Foundation Model #Diffusion Large Language Model #SigLIP-VQ #Unified Architecture #Block-wise Masked Diffusion

2026년 4월 22일

[논문리뷰] Exploring Spatial Intelligence from a Generative Perspective

본 논문은 MLLM의 공간 지능이 주로 Understanding 관점에서만 연구되어 왔다는 한계점에 주목합니다.

#Review #Generative Spatial Intelligence #Multimodal Large Language Models #Image Editing #Benchmark #Sim-to-Real Transfer

2026년 4월 22일

[논문리뷰] Diverse Dictionary Learning

본 논문은 관측 데이터 $X=g(Z)$로부터 잠재 변수 $Z$를 복구하는 문제에서, 기존의 강한 매개변수적 제약이나 보조 정보 없이도 식별 가능한 부분이 무엇인지 규명하고자 합니다.

#Review #Diverse Dictionary Learning #Identifiability #Latent Variable Models #Nonlinear ICA #Jacobian Sparsity #Disentangled Representation

2026년 4월 22일

[논문리뷰] DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

저자들은 텍스트 기반의 합성 비디오에서 hybrid imitation target을 추출하여 이를 통해 humanoid control policy를 학습하는 DeVI 프레임워크를 제안합니다 . 우선 3D 인간 모델과 물체를 포함한 씬에서 텍스트 프롬프트를 사용하여 2D HOI 비디오를 생성합니다.

#Review #Dexterous Manipulation #Video Generative Models #Physics-based Simulation #Reinforcement Learning #Human-Object Interaction

2026년 4월 22일

[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.

#Review #Deep Research Agents #Edge-Scale Models #Open Data #Reinforcement Learning #Information Gain #Supervised Fine-Tuning

2026년 4월 22일

[논문리뷰] CreativeGame:Toward Mechanic-Aware Creative Game Generation

본 논문은 LLM을 통한 게임 생성이 단순한 코드 작성을 넘어, 반복적이고 창의적인 발전으로 이어지지 못하는 한계를 해결하고자 한다. 기존의 단일 샷(Single-shot) 생성은 런타임 오류가 빈번하고 버전 간의 경험 축적이 불가능하며, 창의성 평가가 매우 주관적이라는 단점이 있다.

#Review #Creative Game Generation #Multi-agent System #Mechanic-Aware #Iterative Evolution #CreativeProxyReward #Runtime Validation #Lineage-Aware Memory

2026년 4월 22일

[논문리뷰] Cortex 2.0: Grounding World Models in Real-World Industrial Deployment

본 논문은 로봇 제어 루프에 월드 모델을 통합하여 미래 예측과 평가 과정을 추가하는 Cortex 2.0 아키텍처를 제안합니다 . 제안 모델은 현재 관측치를 바탕으로 월드 모델을 통해 $k$개의 미래 궤적 후보를 잠재 공간(Visual latent space)에서 생성합니다.

#Review #Vision-Language-Action Models #World Models #Robotic Manipulation #Plan-and-Act #Process-Reward Operator #Flow Matching #Cross-Embodiment

2026년 4월 22일

[논문리뷰] Convergent Evolution: How Different Language Models Learn Similar Number Representations

본 논문은 언어 모델이 일반 텍스트 학습만으로도 수(number)에 대한 주기적인 표현을 학습한다는 기존 연구들의 관찰에서 출발합니다.

#Review #Language Models #Mechanistic Interpretability #Fourier Features #Convergent Evolution #Modular Arithmetic #Representation Learning

2026년 4월 22일