[논문리뷰] MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models이 논문은 기존 분자 그래프 생성 모델, 특히 그래프 확산 모델 이 겪는 낮은 화학적 유효성(validity)과 구조적 다양성(novelty) 부족 문제를 해결하여, 1D 시퀀스 기반 모델의 성능을 뛰어넘는 새로운 분자 그래프 생성 프레임워크 MolHIT 을 제안하는 것을 목표로 합니다.#Review#Molecular Generation#Graph Diffusion Models#Hierarchical Diffusion#Discrete Diffusion#Atom Encoding#Drug Discovery#Material Science2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions본 논문은 Model Context Protocol (MCP) 도구 설명 에 내재된 결함이나 '냄새'의 만연함과 그 영향에 대한 불확실성을 해결하고자 합니다.#Review#Model Context Protocol#AI Agents#Tool Descriptions#Software Smells#Prompt Engineering#Foundation Models#Performance Evaluation#Ablation Study2026년 2월 25일댓글 수 로딩 중
[논문리뷰] MoBind: Motion Binding for Fine-Grained IMU-Video Pose AlignmentIMU 신호와 비디오에서 추출된 2D 포즈 시퀀스 간의 정교한 정렬을 위한 공동 표현 학습 을 목표로 합니다.#Review#Multi-modal Alignment#Contrastive Learning#IMU-Video Fusion#Pose Estimation#Temporal Synchronization#Human Motion Analysis#Hierarchical Learning2026년 2월 25일댓글 수 로딩 중
[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation기존 오픈소스 공동 오디오-비디오 생성(JAVG) 모델들이 생성 품질 , 시간 동기화 , 그리고 인간 선호도 정렬 측면에서 상용 모델(예: Veo3)에 비해 한계를 보이는 문제를 해결하는 것을 목표로 합니다.#Review#Joint Audio-Video Generation#Diffusion Transformer#Modality-specific Mixture-of-Experts#Temporal-Aligned ROPE#Direct Preference Optimization#Multimodal Generation#Text-to-AV2026년 2월 25일댓글 수 로딩 중
[논문리뷰] JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments기존 2D-중심 AV-LLM이 RGB 비디오와 모노 오디오에 의존하여 3D 환경에서 음원 위치 파악 및 공간 추론에 어려움을 겪는 문제를 해결하고자 합니다.#Review#3D Audio-Visual Learning#Spatial Grounding#Spatial Reasoning#Large Language Models (LLMs)#Ambisonics#RGB-D#Simulated Environments#Neural Intensity Vector2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Image Generation with a Sphere Encoder기존 확산 모델(diffusion models) 및 자기회귀 모델(autoregressive models)의 느리고 비용이 많이 드는 이미지 생성 방식의 한계를 극복하고, 단 한 번의 순방향 패스(forward pass)만으로도 선명한 이미지를 생성할 수 있는 효율적인 생성 프레임워크를 개발하는 것을 목표로 합니다.#Review#Image Generation#Sphere Encoder#Autoencoder#Latent Space#Few-Step Generation#Conditional Generation#Diffusion Models#Perceptual Loss2026년 2월 25일댓글 수 로딩 중
[논문리뷰] HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation본 논문은 생성형 추천 시스템에서 초장기 사용자 행동 시퀀스(ultra-long user behavior sequences) 모델링 시 발생하는 효율성과 정확도 간의 근본적인 트레이드오프를 해결하는 것을 목표로 합니다.#Review#Sequential Recommendation#Hybrid Attention#Temporal-Aware#Long Sequences#Generative Recommendation#Linear Attention#Softmax Attention2026년 2월 25일댓글 수 로딩 중
[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.#Review#GUI Agents#Reinforcement Learning#Supervised Fine-tuning#Visual Grounding#Long-Horizon Tasks#Partial Verifiability#KL Regularization#Data Curation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Functional Continuous Decomposition논문은 비정상 시계열 데이터의 로컬 및 글로벌 패턴을 물리적으로 해석 가능한 방식으로 분석하기 위해, 기존 신호 처리 알고리즘(예: EMD, B-splines)의 파라메트릭 최적화 및 C¹ 연속성 보장 의 한계를 해결하는 것을 목표로 합니다.#Review#Time Series Analysis#Signal Decomposition#Continuous Function Fitting#Levenberg-Marquardt#JAX#C1 Continuity#Feature Engineering2026년 2월 25일댓글 수 로딩 중
[논문리뷰] DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference본 논문은 에이전틱 LLM 추론 시 KV-Cache 저장소 I/O가 컴퓨테이션보다 병목 현상을 일으키는 문제를 해결하고자 합니다.#Review#LLM Inference#KV-Cache#Storage Bottleneck#Agentic Workloads#Dual-Path Loading#PD Disaggregation#RDMA#Adaptive Scheduling2026년 2월 25일댓글 수 로딩 중
[논문리뷰] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation레퍼런스 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V)과 같은 인간 중심 태스크들을 개별적으로 처리하는 기존 모델의 한계를 극복하는 것을 목표로 합니다.#Review#Audio-Video Generation#Human-Centric AI#Diffusion Transformer#Multi-Task Learning#Identity Disentanglement#Controllable Generation#Speaker Confusion2026년 2월 25일댓글 수 로딩 중
[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.#Review#Agentic Reinforcement Learning#LLM#Policy Optimization#Training Stability#Importance Sampling Clipping#Advantage Design#Dynamic Filtering#ARLArena#SAMPO2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking본 논문은 트랜스포머 모델의 장문 시퀀스 훈련에서 기존 컨텍스트 병렬화 기법들이 직면하는 활성화 메모리 병목 현상 을 해결하여 지원 가능한 시퀀스 길이를 확장하는 것을 목표로 합니다. 특히, 메모리 효율성을 높이면서도 훈련 처리량은 유지하는 새로운 방법론을 제시하고자 합니다.#Review#Context Parallelism#Memory Efficiency#Headwise Chunking#Transformer Training#DeepSpeed Ulysses#LLMs#Activation Memory#Flash Attention2026년 2월 24일댓글 수 로딩 중
[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum본 논문은 균일 상태 이산 확산 모델(Uniform-State Discrete Diffusion Models, USDMs) 의 샘플링 품질이 스텝 수 증가 시 정체되는 문제점을 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion#Ψ-Samplers#Predictor-Corrector#Language Modeling#Image Generation#Curriculum Learning#Efficient Training2026년 2월 24일댓글 수 로딩 중
[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.#Review#Efficient Reasoning#Large Language Models#Reinforcement Learning#Reward Shaping#Chain-of-Thought#RL Optimization#Length Adaptation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering본 논문은 텍스트-이미지 생성 모델에서 텍스트의 왜곡, 흐림, 정렬 불량 등 미세한 구조적 이상 을 기존 OCR 모델 이나 MLLMs 가 제대로 인식하지 못해 Visual Text Rendering (VTR) 평가 및 RL 기반 최적화 에 병목 현상이 발생하는 문제를 해결하고자 합니다.#Review#Visual Text Rendering#Reinforcement Learning#Structural Anomaly Perception#Reward Modeling#Text-to-Image Generation#OCR#MLLMs#Data Augmentation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Test-Time Training with KV Binding Is Secretly Linear Attention논문은 TTT(Test-Time Training) with KV binding이 단순히 테스트-타임 메모리화 또는 온라인 메타-러닝 메커니즘이라는 기존 해석에 이의를 제기 하고, 대신 TTT가 선형 어텐션(linear attention) 연산자 의 한 형태로 재해석될 수 있음을 증명하는 것을 목표로 합니다.#Review#Test-Time Training#KV Binding#Linear Attention#Sequence Modeling#Model Interpretation#Computational Efficiency#Dynamic Adaptation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Query-focused and Memory-aware Reranker for Long Context Processing본 논문은 임베딩 모델의 '기하학적 병목'으로 인한 복잡한 쿼리-문서 상호작용 인코딩의 한계를 해결하고, 기존 LLM 기반 리랭커의 글로벌 뷰 손실(포인트와이즈) 또는 미세 조정된 점수 및 Likert-scale 감독의 제약(리스트와이즈)을 극복하는 것을 목표로 합니다.#Review#Reranking#Large Language Models#Long Context#Attention Heads#Retrieval Augmented Generation (RAG)#Listwise Reranking#Query-focused Retrieval#Memory-aware2026년 2월 24일댓글 수 로딩 중
[논문리뷰] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델은 로봇 제어 및 추론 태스크에서 강력한 성능을 보이지만, 점차 증가하는 컴퓨팅 및 메모리 요구 사항으로 인해 실용적인 배포에 상당한 어려움을 겪고 있습니다.#Review#Post-Training Quantization (PTQ)#Vision-Language-Action (VLA) Models#Diffusion Transformer (DiT)#Scale Calibration#Memory Efficiency#Robotics#Low-Bit Quantization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] PyVision-RL: Forging Open Agentic Vision Models via RL본 논문은 에이전트형 멀티모달 모델의 강화 학습 시 발생하는 상호작용 붕괴(interaction collapse) 문제를 해결하고, 안정적인 학습을 통해 지속적인 도구 사용과 다중 턴 추론 능력을 유지하는 것을 목표로 합니다. 특히 이미지 및 비디오 이해 태스크를 위한 오픈-웨이트 멀티모달 모델 에 초점을 맞춥니다.#Review#Agentic AI#Multimodal Models#Reinforcement Learning#Dynamic Tooling#Interaction Stability#Video Reasoning#Visual Language Models#Rollout Optimization2026년 2월 24일댓글 수 로딩 중