최신 포스트

[논문리뷰] Training Data Efficiency in Multimodal Process Reward Models

본 논문은 Multimodal Process Reward Models (MPRMs) 훈련의 데이터 효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Process Reward Models (MPRMs)#Data Efficiency #Monte Carlo Annotation #Data Selection #Balanced-Information Score (BIS)#Label Mixture #Label Reliability #Computational Cost Reduction

2026년 2월 4일

[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.

#Review #LLM Agents #Test-Time Improvement #Diagnostic Evaluation #Trajectory Analysis #Performance Metrics #Behavior Adaptation #Memory Management #POMDP

2026년 2월 4일

[논문리뷰] SoMA: A Real-to-Sim Neural Simulator for Robotic Soft-body Manipulation

본 논문은 로봇의 소프트바디 조작 시 발생하는 복잡한 상호작용 속에서 변형 가능한 객체의 동역학을 정확하고 안정적으로 시뮬레이션하는 근본적인 문제를 해결하고자 합니다.

#Review #Neural Simulator #Real-to-Sim (R2S)#Robotic Manipulation #Soft-body Dynamics #Gaussian Splatting #Deformable Objects #Action-conditioned Simulation #Long-horizon Simulation

2026년 2월 4일

[논문리뷰] Semantic Routing: Exploring Multi-Layer LLM Feature Weighting for Diffusion Transformers

본 논문은 LLM을 텍스트 인코더로 사용하는 DiT 기반 텍스트-이미지 모델에서, 정적인 텍스트 컨디셔닝이 LLM의 의미론적 계층 구조와 DiT의 동적인 denoising 과정을 충분히 활용하지 못하는 문제를 해결하고자 합니다.

#Review #Diffusion Models #LLM #Text-to-Image #Transformer #Semantic Routing #Feature Fusion #Dynamic Conditioning #Generative AI

2026년 2월 4일

[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning

본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #GRPO #Sparse Rewards #Self-Hinting #Policy Optimization #Adaptive Curriculum #On-Policy Training

2026년 2월 4일

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

Large Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Learning #Trust Region #PPO #DPPO #Policy Optimization #Training Stability #Divergence Approximation

2026년 2월 4일

[논문리뷰] Residual Context Diffusion Language Models

Diffusion Large Language Models (dLLMs)가 병렬 디코딩의 잠재력에도 불구하고, 낮은 신뢰도의 토큰을 폐기하여 계산을 낭비하고 추론 정확도가 Autoregressive (AR) 모델에 뒤처지는 문제를 해결하고자 합니다.

#Review #Diffusion Language Models #Residual Learning #Context Aggregation #Parallel Decoding #Masked Denoising #Reasoning Benchmarks #Entropy Weighting

2026년 2월 4일

[논문리뷰] Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

논문은 오토-회귀 비디오 생성 모델의 주요 병목인 KV-cache 메모리 문제 를 해결하고자 합니다.

#Review #Auto-Regressive Video Generation #KV-Cache Quantization #Memory Optimization #Long Video Generation #Video Diffusion Models #Semantic-Aware Smoothing #Progressive Residual Quantization

2026년 2월 4일

[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Scientific QA #Information Retrieval #Verifiable Rewards #Biomedical Domain #Search Agents #Dataset Generation

2026년 2월 4일

[논문리뷰] OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

본 논문은 Omni-modal Large Language Models (Omni-LLMs) 가 긴 멀티모달 토큰 시퀀스로 인해 겪는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #Token Compression #Modality-Asymmetric #Video Pruning #Audio Selection #Efficiency #Large Language Models #Spatio-Temporal

2026년 2월 4일

[논문리뷰] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

본 논문은 기존 희소 어텐션(sparse attention) 방법론의 두 가지 근본적인 한계를 해결하고자 합니다. 첫째, 토큰 중요도 예측에 추가적인 프록시(proxy)를 사용하는 복잡성과 성능 저하 문제.

#Review #Sparse Attention #KV Cache Sharing #Hybrid Attention #Long-Context LLMs #Memory Optimization #Token Selection #Transformer Architecture

2026년 2월 4일

[논문리뷰] HY3D-Bench: Generation of 3D Assets

3D 콘텐츠 생성 분야의 데이터 처리 병목 현상 을 해결하고, 고품질 3D 콘텐츠 생성을 위한 통합적이고 표준화된 오픈소스 생태계 인 HY3D-Bench 를 구축하는 것이 목표입니다. 이는 3D 생성 모델의 훈련 및 평가를 위한 견고한 기반을 제공하여 연구 발전을 가속화하고자 합니다.

#Review #3D Generation #Dataset #Benchmark #AIGC #Watertight Mesh #Part-level Decomposition #Foundation Model #Robotics

2026년 2월 4일

[논문리뷰] FASA: Frequency-aware Sparse Attention

대규모 언어 모델(LLMs)이 긴 입력 시퀀스를 처리할 때 발생하는 KV 캐시의 막대한 메모리 사용량과 연산 병목 현상 을 해결하는 것이 목표입니다.

#Review #Sparse Attention #KV Cache Optimization #Rotary Positional Embedding (RoPE)#Frequency Chunks (FCs)#LLMs #Long-Context #Training-Free

2026년 2월 4일

[논문리뷰] EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

본 논문은 인간형 로봇의 실제 환경 배포 시 발생하는 고유한 불안정성, 부분적 정보 기반의 지각/이동/조작 통합의 어려움, 그리고 동적 환경에서의 견고한 하위 태스크 전환 문제를 해결하는 것을 목표로 합니다.

#Review #Humanoid Robots #Vision-Language Models #Task Planning #Egocentric Control #Mobile Manipulation #Active Perception #Human-Robot Interaction #Real-World Deployment

2026년 2월 4일

[논문리뷰] ERNIE 5.0 Technical Report

ERNIE 5.0은 텍스트, 이미지, 비디오, 오디오에 걸쳐 통합된 멀티모달 이해 및 생성 을 위한 본질적으로 자기회귀(autoregressive) 기반 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Foundation Model #Autoregressive #Mixture-of-Experts #Elastic Training #Reinforcement Learning #Unified Architecture #Sparse MoE #Efficient Deployment

2026년 2월 4일

[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.

#Review #Self-Supervised Learning #Code Generation #Documentation Generation #Back-Translation #Reinforcement Learning #Large Language Models (LLMs)#Code-Documentation Alignment #Low-Resource Languages

2026년 2월 4일

[논문리뷰] AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations

과학 논문의 복잡한 내용을 효과적으로 시각화하는 고품질 삽화의 수동 생성 병목 현상을 해결하고자 합니다. 특히, 긴 과학 텍스트(long-form scientific texts)로부터 출판 준비 수준의 과학 삽화를 자동으로 생성 및 개선 하는 것을 목표로 합니다.

#Review #Scientific Illustration Generation #Long-form Text-to-Image #Agentic Framework #Reasoned Rendering #Layout Planning #Text Refinement #FigureBench #VLM-as-a-judge

2026년 2월 4일

[논문리뷰] Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

이 논문은 LLM 에이전트가 복잡한 실제 작업을 수행할 때 발생하는 과도한 사고(thought) 및 관찰(observation) 컨텍스트 축적 문제 를 해결하고 효율성을 향상시키는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Context Management #Thought Omission #Observation Omission #Reinforcement Learning #Adaptive Policy

2026년 2월 4일

[논문리뷰] A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

기존 RAG(Retrieval-Augmented Generation) 시스템이 대규모 언어 모델(LLM)의 추론 및 도구 사용 능력을 충분히 활용하지 못하고, 정적인 검색 알고리즘이나 사전 정의된 워크플로우에 의존하는 한계를 해결하고자 합니다.

#Review #Agentic RAG #Hierarchical Retrieval #LLM Tool Use #Multi-hop QA #Context Efficiency #Dynamic Strategy #Retrieval-Augmented Generation

2026년 2월 4일

[Triton] AMD PartitionedSharedEncodingAttr 도입으로 shared memory 파티셔닝 지원

텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict를 줄이는 새로운 encoding attribute 추가

#Triton #AMD #MLIR #Shared Memory #Memory Optimization

2026년 2월 4일