[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.#Review#Spoken Dialogue Models#Post-Training#Reinforcement Learning#Preference Optimization#Modality Alignment#End-to-End#Acoustic Expressiveness2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Tool-supervised RL#Visual Reasoning#Curriculum Learning#ToolsRL2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Tadabur: A Large-Scale Quran Audio Dataset본 논문은 기존 Quran audio 데이터셋의 규모와 다양성 부족 문제를 해결하기 위해, 600명 이상의 낭송자가 녹음한 1,400시간 이상의 음성을 포함하는 대규모 Quran 음성 데이터셋 Tadabur를 공개합니다.#Review#Quran Audio Dataset#Speech Processing#Audio Benchmark#Multi-Speaker Speech#Recitation Analysis#Acoustic Diversity2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Scaling Test-Time Compute for Agentic Coding본 논문은 Long-horizon 코딩 에이전트의 Inference-time scaling을 위해 데이터의 표현(Representation)과 선택(Selection) 방식이 핵심 Bottleneck임을 규명합니다.#Review#Test-Time Compute#Agentic Coding#Representation Learning#Recursive Tournament Voting (RTV)#Parallel-Distill-Refine (PDR)#Long-Horizon Agents#Inference-Time Scaling2026년 4월 22일댓글 수 로딩 중
[논문리뷰] SWE-chat: Coding Agent Interactions From Real Users in the Wild저자들은 GitHub 저장소에서 코딩 에이전트 세션을 자동으로 기록하는 오픈소스 도구인 Entire.io를 활용하여 데이터셋을 구축하였다. 수집된 데이터는 인간과 에이전트 간의 상세한 상호작용 추적(Interaction traces)과 라인별 코드 기여도 정보를 포함한다 .#Review#Coding Agents#Software Engineering#Human-Agent Interaction#In-the-wild Dataset#Code Attribution2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges본 논문은 현대의 RLHF, RLAIF, RLVR 등 정렬 파이프라인이 내재적으로 가지고 있는 구조적 취약점인 reward hacking 문제를 다룬다.#Review#Reward Hacking#Alignment#RLHF#Proxy Compression Hypothesis#Emergent Misalignment#Large Models#Scalable Oversight2026년 4월 22일댓글 수 로딩 중
[논문리뷰] ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis본 논문은 기존의 고품질 인물 비디오 생성 연구들이 포즈, 외형, 카메라 뷰포인트에 대한 동시 제어 역량이 부족하고, 대규모 고품질 멀티뷰 비디오 데이터의 희소성으로 인해 성능 한계에 직면했다는 문제를 해결하고자 한다.#Review#Human Video Generation#Image-First Synthesis#Flow Matching#Temporal Consistency#SMPL-X#Diffusion Transformer2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Near-Future Policy Optimization본 논문은 RLVR 과정에서 on-policy 탐색이 갖는 한계를 극복하고 최적의 보조 학습 신호를 확보하는 문제를 다룹니다.#Review#Reinforcement Learning#RLVR#Mixed-Policy#Trajectory Quality#Variance Cost#Self-Taught RL#LLM Post-training2026년 4월 22일댓글 수 로딩 중
[논문리뷰] MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings본 논문은 MLLM의 강력한 시맨틱 추론 능력과 확산 모델의 고품질 이미지 생성 능력을 통합하면서도 학습 효율성을 극대화하는 것을 핵심 문제로 다룹니다.#Review#Multimodal Generation#Vision-Language Model#Latent Embeddings#Diffusion Model#Representation Alignment#Unified Framework2026년 4월 22일댓글 수 로딩 중
[논문리뷰] LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model본 연구는 통합된 multimodal 이해와 생성을 위해 독립적인 아키텍처 대신 dLLM 기반의 단일 프레임워크를 구축하는 것을 목표로 합니다.#Review#Multimodal Foundation Model#Diffusion Large Language Model#SigLIP-VQ#Unified Architecture#Block-wise Masked Diffusion2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Exploring Spatial Intelligence from a Generative Perspective본 논문은 MLLM의 공간 지능이 주로 Understanding 관점에서만 연구되어 왔다는 한계점에 주목합니다.#Review#Generative Spatial Intelligence#Multimodal Large Language Models#Image Editing#Benchmark#Sim-to-Real Transfer2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Diverse Dictionary Learning본 논문은 관측 데이터 $X=g(Z)$로부터 잠재 변수 $Z$를 복구하는 문제에서, 기존의 강한 매개변수적 제약이나 보조 정보 없이도 식별 가능한 부분이 무엇인지 규명하고자 합니다.#Review#Diverse Dictionary Learning#Identifiability#Latent Variable Models#Nonlinear ICA#Jacobian Sparsity#Disentangled Representation2026년 4월 22일댓글 수 로딩 중
[논문리뷰] DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation저자들은 텍스트 기반의 합성 비디오에서 hybrid imitation target을 추출하여 이를 통해 humanoid control policy를 학습하는 DeVI 프레임워크를 제안합니다 . 우선 3D 인간 모델과 물체를 포함한 씬에서 텍스트 프롬프트를 사용하여 2D HOI 비디오를 생성합니다.#Review#Dexterous Manipulation#Video Generative Models#Physics-based Simulation#Reinforcement Learning#Human-Object Interaction2026년 4월 22일댓글 수 로딩 중
[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.#Review#Deep Research Agents#Edge-Scale Models#Open Data#Reinforcement Learning#Information Gain#Supervised Fine-Tuning2026년 4월 22일댓글 수 로딩 중
[논문리뷰] CreativeGame:Toward Mechanic-Aware Creative Game Generation본 논문은 LLM을 통한 게임 생성이 단순한 코드 작성을 넘어, 반복적이고 창의적인 발전으로 이어지지 못하는 한계를 해결하고자 한다. 기존의 단일 샷(Single-shot) 생성은 런타임 오류가 빈번하고 버전 간의 경험 축적이 불가능하며, 창의성 평가가 매우 주관적이라는 단점이 있다.#Review#Creative Game Generation#Multi-agent System#Mechanic-Aware#Iterative Evolution#CreativeProxyReward#Runtime Validation#Lineage-Aware Memory2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Cortex 2.0: Grounding World Models in Real-World Industrial Deployment본 논문은 로봇 제어 루프에 월드 모델을 통합하여 미래 예측과 평가 과정을 추가하는 Cortex 2.0 아키텍처를 제안합니다 . 제안 모델은 현재 관측치를 바탕으로 월드 모델을 통해 $k$개의 미래 궤적 후보를 잠재 공간(Visual latent space)에서 생성합니다.#Review#Vision-Language-Action Models#World Models#Robotic Manipulation#Plan-and-Act#Process-Reward Operator#Flow Matching#Cross-Embodiment2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Convergent Evolution: How Different Language Models Learn Similar Number Representations본 논문은 언어 모델이 일반 텍스트 학습만으로도 수(number)에 대한 주기적인 표현을 학습한다는 기존 연구들의 관찰에서 출발합니다.#Review#Language Models#Mechanistic Interpretability#Fourier Features#Convergent Evolution#Modular Arithmetic#Representation Learning2026년 4월 22일댓글 수 로딩 중
[논문리뷰] A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression터미널 기반의 소프트웨어 엔지니어링 에이전트는 긴 호흡의 의사결정이 필요하지만, 반복적이고 노이즈가 많은 터미널 출력으로 인해 컨텍스트의 중복성이 심화되는 문제에 직면해 있습니다 . 이러한 데이터 중복은 토큰 비용을 기하급수적으로 증가시킬 뿐만 아니라, 중요한 신호를 가려 장기 추론 성능을 저하시키는 주요 원인이 됩니다.#Review#Terminal Agents#Context Compression#Self-evolving Framework#Token Efficiency#Long-horizon Reasoning#Training-free2026년 4월 22일댓글 수 로딩 중
[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.#Triton#CUDA#LLM#SGLang#Optimization#DeepLearning2026년 4월 22일댓글 수 로딩 중
[sglang] SGLang 고성능 서빙: 비동기 알림 배치 처리와 SSE 고속 경로 최적화 분석SGLang의 PD 분산 스트리밍 환경에서 CPU 병목 현상을 해결하기 위한 두 가지 핵심 최적화를 분석합니다.#SGLang#성능 최적화#비동기 프로그래밍#SSE#Python#메시지큐#Pydantic#msgspec2026년 4월 22일댓글 수 로딩 중