Review

[논문리뷰] Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

본 논문은 EAVAE라는 2단계 학습 프레임워크를 제안한다. 첫 번째 단계에서는 대규모 authorship 데이터에 대해 supervised contrastive learning을 수행하여 기초적인 저자 스타일 표현을 사전 학습한다.

#Review #Authorship Attribution #Disentangled Representation Learning #Variational Autoencoder #Explainable AI #Generative AI #Content-Style Entanglement

2026년 4월 23일

[논문리뷰] Encoder-Free Human Motion Understanding via Structured Motion Descriptions

본 논문은 모션을 구조화된 텍스트로 변환하는 결정론적 파이프라인과 이를 처리하는 LLM fine-tuning으로 구성된다. 제안된 SMD는 관절 각도 계산, 전역 궤적 설명, 그리고 이를 결합한 계층적 텍스트 생성 과정을 거치며, 모델이 별도의 인코더 없이 LLM의 사전 학습된 언어 지식을 활용하게 한다 .

#Review #Human Motion Understanding #Large Language Models #Structured Motion Description #Biomechanics #LoRA #Motion Question Answering #Motion Captioning

2026년 4월 23일

[논문리뷰] EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion Model

EDITCRAFTER는 고해상도 이미지의 identity를 보존하는 Tiled DDIM Inversion 모듈과, 고해상도 잠재 공간에서 텍스트 정렬을 최적화하는 NDCFG++ 샘플링 과정을 핵심으로 합니다. 먼저 입력 이미지를 타일 단위로 역전파하여 인버전 잠재 벡터를 생성하고, 이를 결합하여 전체 고해상도 정보를 초기화합니다.

#Review #High-Resolution Image Editing #Diffusion Model #Tiled DDIM Inversion #NDCFG++#Tuning-free

2026년 4월 23일

[논문리뷰] Context Unrolling in Omni Models

본 논문은 다양한 모달리티를 원천 학습하여 모델이 스스로 추론 경로를 구조화하도록 유도하는 Context Unrolling 프레임워크를 제안한다. 모델은 작업 관련 컨텍스트를 선택적으로 활성화하여 공유 작업 공간에 투입하며, 이는 최종 예측 전후로 긴밀하게 작동한다 .

#Review #Multimodal Foundation Model #Context Unrolling #Unified Architecture #Cross-modal Reasoning #Spatial Intelligence #Mixture-of-Experts

2026년 4월 23일

[논문리뷰] Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

본 연구는 LLM 기반 에이전트가 복잡하고 긴 호라이즌(Long-Horizon)을 가진 환경에서 일관된 의사결정을 수행하지 못하는 문제를 해결하고자 합니다. 기존 LLM 에이전트는 경험을 체계적으로 발견, 보유, 재사용할 수 있는 메커니즘이 부족하여 새로운 작업마다 매번 처음부터 다시 추론해야 하는 한계가 있습니다.

#Review #LLM Agents #Long-Horizon Tasks #Skill Discovery #Co-Evolution #Skill Bank #Reinforcement Learning

2026년 4월 23일

[논문리뷰] WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

본 논문은 통합적인 End-to-End Spoken Dialogue Model의 의미론적 지능(Intelligence, IQ)과 음성 표현력(Expressiveness, EQ)을 동시에 향상시키는 문제를 해결하고자 한다.

#Review #Spoken Dialogue Models #Post-Training #Reinforcement Learning #Preference Optimization #Modality Alignment #End-to-End #Acoustic Expressiveness

2026년 4월 22일

[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning

본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Tool-supervised RL #Visual Reasoning #Curriculum Learning #ToolsRL

2026년 4월 22일

[논문리뷰] Tadabur: A Large-Scale Quran Audio Dataset

본 논문은 기존 Quran audio 데이터셋의 규모와 다양성 부족 문제를 해결하기 위해, 600명 이상의 낭송자가 녹음한 1,400시간 이상의 음성을 포함하는 대규모 Quran 음성 데이터셋 Tadabur를 공개합니다.

#Review #Quran Audio Dataset #Speech Processing #Audio Benchmark #Multi-Speaker Speech #Recitation Analysis #Acoustic Diversity

2026년 4월 22일

[논문리뷰] Scaling Test-Time Compute for Agentic Coding

본 논문은 Long-horizon 코딩 에이전트의 Inference-time scaling을 위해 데이터의 표현(Representation)과 선택(Selection) 방식이 핵심 Bottleneck임을 규명합니다.

#Review #Test-Time Compute #Agentic Coding #Representation Learning #Recursive Tournament Voting (RTV)#Parallel-Distill-Refine (PDR)#Long-Horizon Agents #Inference-Time Scaling

2026년 4월 22일

[논문리뷰] SWE-chat: Coding Agent Interactions From Real Users in the Wild

저자들은 GitHub 저장소에서 코딩 에이전트 세션을 자동으로 기록하는 오픈소스 도구인 Entire.io를 활용하여 데이터셋을 구축하였다. 수집된 데이터는 인간과 에이전트 간의 상세한 상호작용 추적(Interaction traces)과 라인별 코드 기여도 정보를 포함한다 .

#Review #Coding Agents #Software Engineering #Human-Agent Interaction #In-the-wild Dataset #Code Attribution

2026년 4월 22일

[논문리뷰] Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

본 논문은 현대의 RLHF, RLAIF, RLVR 등 정렬 파이프라인이 내재적으로 가지고 있는 구조적 취약점인 reward hacking 문제를 다룬다.

#Review #Reward Hacking #Alignment #RLHF #Proxy Compression Hypothesis #Emergent Misalignment #Large Models #Scalable Oversight

2026년 4월 22일

[논문리뷰] ReImagine: Rethinking Controllable High-Quality Human Video Generation via Image-First Synthesis

본 논문은 기존의 고품질 인물 비디오 생성 연구들이 포즈, 외형, 카메라 뷰포인트에 대한 동시 제어 역량이 부족하고, 대규모 고품질 멀티뷰 비디오 데이터의 희소성으로 인해 성능 한계에 직면했다는 문제를 해결하고자 한다.

#Review #Human Video Generation #Image-First Synthesis #Flow Matching #Temporal Consistency #SMPL-X #Diffusion Transformer

2026년 4월 22일

[논문리뷰] Near-Future Policy Optimization

본 논문은 RLVR 과정에서 on-policy 탐색이 갖는 한계를 극복하고 최적의 보조 학습 신호를 확보하는 문제를 다룹니다.

#Review #Reinforcement Learning #RLVR #Mixed-Policy #Trajectory Quality #Variance Cost #Self-Taught RL #LLM Post-training

2026년 4월 22일

[논문리뷰] MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings

본 논문은 MLLM의 강력한 시맨틱 추론 능력과 확산 모델의 고품질 이미지 생성 능력을 통합하면서도 학습 효율성을 극대화하는 것을 핵심 문제로 다룹니다.

#Review #Multimodal Generation #Vision-Language Model #Latent Embeddings #Diffusion Model #Representation Alignment #Unified Framework

2026년 4월 22일

[논문리뷰] LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

본 연구는 통합된 multimodal 이해와 생성을 위해 독립적인 아키텍처 대신 dLLM 기반의 단일 프레임워크를 구축하는 것을 목표로 합니다.

#Review #Multimodal Foundation Model #Diffusion Large Language Model #SigLIP-VQ #Unified Architecture #Block-wise Masked Diffusion

2026년 4월 22일

[논문리뷰] Exploring Spatial Intelligence from a Generative Perspective

본 논문은 MLLM의 공간 지능이 주로 Understanding 관점에서만 연구되어 왔다는 한계점에 주목합니다.

#Review #Generative Spatial Intelligence #Multimodal Large Language Models #Image Editing #Benchmark #Sim-to-Real Transfer

2026년 4월 22일

[논문리뷰] Diverse Dictionary Learning

본 논문은 관측 데이터 $X=g(Z)$로부터 잠재 변수 $Z$를 복구하는 문제에서, 기존의 강한 매개변수적 제약이나 보조 정보 없이도 식별 가능한 부분이 무엇인지 규명하고자 합니다.

#Review #Diverse Dictionary Learning #Identifiability #Latent Variable Models #Nonlinear ICA #Jacobian Sparsity #Disentangled Representation

2026년 4월 22일

[논문리뷰] DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

저자들은 텍스트 기반의 합성 비디오에서 hybrid imitation target을 추출하여 이를 통해 humanoid control policy를 학습하는 DeVI 프레임워크를 제안합니다 . 우선 3D 인간 모델과 물체를 포함한 씬에서 텍스트 프롬프트를 사용하여 2D HOI 비디오를 생성합니다.

#Review #Dexterous Manipulation #Video Generative Models #Physics-based Simulation #Reinforcement Learning #Human-Object Interaction

2026년 4월 22일

[논문리뷰] DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

저자들은 10K 규모의 Open Data만을 사용하여 4B 규모의 DR-Venus를 훈련하는 2단계 파이프라인을 제안한다. 첫 번째 단계인 Agentic SFT에서는 데이터 정제와 long-horizon 궤적 재샘플링(turn-aware resampling)을 통해 모델의 기초 능력을 확립한다.

#Review #Deep Research Agents #Edge-Scale Models #Open Data #Reinforcement Learning #Information Gain #Supervised Fine-Tuning

2026년 4월 22일

[논문리뷰] CreativeGame:Toward Mechanic-Aware Creative Game Generation

본 논문은 LLM을 통한 게임 생성이 단순한 코드 작성을 넘어, 반복적이고 창의적인 발전으로 이어지지 못하는 한계를 해결하고자 한다. 기존의 단일 샷(Single-shot) 생성은 런타임 오류가 빈번하고 버전 간의 경험 축적이 불가능하며, 창의성 평가가 매우 주관적이라는 단점이 있다.

#Review #Creative Game Generation #Multi-agent System #Mechanic-Aware #Iterative Evolution #CreativeProxyReward #Runtime Validation #Lineage-Aware Memory

2026년 4월 22일