Review

[논문리뷰] MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

이 논문은 기존 분자 그래프 생성 모델, 특히 그래프 확산 모델 이 겪는 낮은 화학적 유효성(validity)과 구조적 다양성(novelty) 부족 문제를 해결하여, 1D 시퀀스 기반 모델의 성능을 뛰어넘는 새로운 분자 그래프 생성 프레임워크 MolHIT 을 제안하는 것을 목표로 합니다.

#Review #Molecular Generation #Graph Diffusion Models #Hierarchical Diffusion #Discrete Diffusion #Atom Encoding #Drug Discovery #Material Science

2026년 2월 25일

[논문리뷰] Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions

본 논문은 Model Context Protocol (MCP) 도구 설명 에 내재된 결함이나 '냄새'의 만연함과 그 영향에 대한 불확실성을 해결하고자 합니다.

#Review #Model Context Protocol #AI Agents #Tool Descriptions #Software Smells #Prompt Engineering #Foundation Models #Performance Evaluation #Ablation Study

2026년 2월 25일

[논문리뷰] MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

IMU 신호와 비디오에서 추출된 2D 포즈 시퀀스 간의 정교한 정렬을 위한 공동 표현 학습 을 목표로 합니다.

#Review #Multi-modal Alignment #Contrastive Learning #IMU-Video Fusion #Pose Estimation #Temporal Synchronization #Human Motion Analysis #Hierarchical Learning

2026년 2월 25일

[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

기존 오픈소스 공동 오디오-비디오 생성(JAVG) 모델들이 생성 품질 , 시간 동기화 , 그리고 인간 선호도 정렬 측면에서 상용 모델(예: Veo3)에 비해 한계를 보이는 문제를 해결하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Diffusion Transformer #Modality-specific Mixture-of-Experts #Temporal-Aligned ROPE #Direct Preference Optimization #Multimodal Generation #Text-to-AV

2026년 2월 25일

[논문리뷰] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

기존 2D-중심 AV-LLM이 RGB 비디오와 모노 오디오에 의존하여 3D 환경에서 음원 위치 파악 및 공간 추론에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #3D Audio-Visual Learning #Spatial Grounding #Spatial Reasoning #Large Language Models (LLMs)#Ambisonics #RGB-D #Simulated Environments #Neural Intensity Vector

2026년 2월 25일

[논문리뷰] Image Generation with a Sphere Encoder

기존 확산 모델(diffusion models) 및 자기회귀 모델(autoregressive models)의 느리고 비용이 많이 드는 이미지 생성 방식의 한계를 극복하고, 단 한 번의 순방향 패스(forward pass)만으로도 선명한 이미지를 생성할 수 있는 효율적인 생성 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Image Generation #Sphere Encoder #Autoencoder #Latent Space #Few-Step Generation #Conditional Generation #Diffusion Models #Perceptual Loss

2026년 2월 25일

[논문리뷰] HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

본 논문은 생성형 추천 시스템에서 초장기 사용자 행동 시퀀스(ultra-long user behavior sequences) 모델링 시 발생하는 효율성과 정확도 간의 근본적인 트레이드오프를 해결하는 것을 목표로 합니다.

#Review #Sequential Recommendation #Hybrid Attention #Temporal-Aware #Long Sequences #Generative Recommendation #Linear Attention #Softmax Attention

2026년 2월 25일

[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.

#Review #GUI Agents #Reinforcement Learning #Supervised Fine-tuning #Visual Grounding #Long-Horizon Tasks #Partial Verifiability #KL Regularization #Data Curation

2026년 2월 25일

[논문리뷰] Functional Continuous Decomposition

논문은 비정상 시계열 데이터의 로컬 및 글로벌 패턴을 물리적으로 해석 가능한 방식으로 분석하기 위해, 기존 신호 처리 알고리즘(예: EMD, B-splines)의 파라메트릭 최적화 및 C¹ 연속성 보장 의 한계를 해결하는 것을 목표로 합니다.

#Review #Time Series Analysis #Signal Decomposition #Continuous Function Fitting #Levenberg-Marquardt #JAX #C1 Continuity #Feature Engineering

2026년 2월 25일

[논문리뷰] DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

본 논문은 에이전틱 LLM 추론 시 KV-Cache 저장소 I/O가 컴퓨테이션보다 병목 현상을 일으키는 문제를 해결하고자 합니다.

#Review #LLM Inference #KV-Cache #Storage Bottleneck #Agentic Workloads #Dual-Path Loading #PD Disaggregation #RDMA #Adaptive Scheduling

2026년 2월 25일

[논문리뷰] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

레퍼런스 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V)과 같은 인간 중심 태스크들을 개별적으로 처리하는 기존 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Video Generation #Human-Centric AI #Diffusion Transformer #Multi-Task Learning #Identity Disentanglement #Controllable Generation #Speaker Confusion

2026년 2월 25일

[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.

#Review #Agentic Reinforcement Learning #LLM #Policy Optimization #Training Stability #Importance Sampling Clipping #Advantage Design #Dynamic Filtering #ARLArena #SAMPO

2026년 2월 25일

[논문리뷰] Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking

본 논문은 트랜스포머 모델의 장문 시퀀스 훈련에서 기존 컨텍스트 병렬화 기법들이 직면하는 활성화 메모리 병목 현상 을 해결하여 지원 가능한 시퀀스 길이를 확장하는 것을 목표로 합니다. 특히, 메모리 효율성을 높이면서도 훈련 처리량은 유지하는 새로운 방법론을 제시하고자 합니다.

#Review #Context Parallelism #Memory Efficiency #Headwise Chunking #Transformer Training #DeepSpeed Ulysses #LLMs #Activation Memory #Flash Attention

2026년 2월 24일

[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

본 논문은 균일 상태 이산 확산 모델(Uniform-State Discrete Diffusion Models, USDMs) 의 샘플링 품질이 스텝 수 증가 시 정체되는 문제점을 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Ψ-Samplers #Predictor-Corrector #Language Modeling #Image Generation #Curriculum Learning #Efficient Training

2026년 2월 24일

[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization

본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.

#Review #Efficient Reasoning #Large Language Models #Reinforcement Learning #Reward Shaping #Chain-of-Thought #RL Optimization #Length Adaptation

2026년 2월 24일

[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

본 논문은 텍스트-이미지 생성 모델에서 텍스트의 왜곡, 흐림, 정렬 불량 등 미세한 구조적 이상 을 기존 OCR 모델 이나 MLLMs 가 제대로 인식하지 못해 Visual Text Rendering (VTR) 평가 및 RL 기반 최적화 에 병목 현상이 발생하는 문제를 해결하고자 합니다.

#Review #Visual Text Rendering #Reinforcement Learning #Structural Anomaly Perception #Reward Modeling #Text-to-Image Generation #OCR #MLLMs #Data Augmentation

2026년 2월 24일

[논문리뷰] Test-Time Training with KV Binding Is Secretly Linear Attention

논문은 TTT(Test-Time Training) with KV binding이 단순히 테스트-타임 메모리화 또는 온라인 메타-러닝 메커니즘이라는 기존 해석에 이의를 제기 하고, 대신 TTT가 선형 어텐션(linear attention) 연산자 의 한 형태로 재해석될 수 있음을 증명하는 것을 목표로 합니다.

#Review #Test-Time Training #KV Binding #Linear Attention #Sequence Modeling #Model Interpretation #Computational Efficiency #Dynamic Adaptation

2026년 2월 24일

[논문리뷰] Query-focused and Memory-aware Reranker for Long Context Processing

본 논문은 임베딩 모델의 '기하학적 병목'으로 인한 복잡한 쿼리-문서 상호작용 인코딩의 한계를 해결하고, 기존 LLM 기반 리랭커의 글로벌 뷰 손실(포인트와이즈) 또는 미세 조정된 점수 및 Likert-scale 감독의 제약(리스트와이즈)을 극복하는 것을 목표로 합니다.

#Review #Reranking #Large Language Models #Long Context #Attention Heads #Retrieval Augmented Generation (RAG)#Listwise Reranking #Query-focused Retrieval #Memory-aware

2026년 2월 24일

[논문리뷰] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델은 로봇 제어 및 추론 태스크에서 강력한 성능을 보이지만, 점차 증가하는 컴퓨팅 및 메모리 요구 사항으로 인해 실용적인 배포에 상당한 어려움을 겪고 있습니다.

#Review #Post-Training Quantization (PTQ)#Vision-Language-Action (VLA) Models #Diffusion Transformer (DiT)#Scale Calibration #Memory Efficiency #Robotics #Low-Bit Quantization

2026년 2월 24일

[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL

본 논문은 에이전트형 멀티모달 모델의 강화 학습 시 발생하는 상호작용 붕괴(interaction collapse) 문제를 해결하고, 안정적인 학습을 통해 지속적인 도구 사용과 다중 턴 추론 능력을 유지하는 것을 목표로 합니다. 특히 이미지 및 비디오 이해 태스크를 위한 오픈-웨이트 멀티모달 모델 에 초점을 맞춥니다.

#Review #Agentic AI #Multimodal Models #Reinforcement Learning #Dynamic Tooling #Interaction Stability #Video Reasoning #Visual Language Models #Rollout Optimization

2026년 2월 24일