Review

[논문리뷰] Self-Hinting Language Models Enhance Reinforcement Learning

본 논문은 Group Relative Policy Optimization (GRPO) 이 희소한(sparse) 터미널 보상 환경에서 발생하는 문제, 즉 롤아웃 그룹 내 보상이 동일하여 이점이 소멸되고 학습이 정체되는 현상을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #GRPO #Sparse Rewards #Self-Hinting #Policy Optimization #Adaptive Curriculum #On-Policy Training

2026년 2월 4일

[논문리뷰] Rethinking the Trust Region in LLM Reinforcement Learning

Large Language Models (LLMs)의 강화학습 미세 조정 시, 기존 Proximal Policy Optimization (PPO) 의 비율 클리핑 메커니즘이 대규모 어휘 공간에 부적합하여 발생하는 훈련 비효율성과 불안정성을 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Learning #Trust Region #PPO #DPPO #Policy Optimization #Training Stability #Divergence Approximation

2026년 2월 4일

[논문리뷰] Residual Context Diffusion Language Models

Diffusion Large Language Models (dLLMs)가 병렬 디코딩의 잠재력에도 불구하고, 낮은 신뢰도의 토큰을 폐기하여 계산을 낭비하고 추론 정확도가 Autoregressive (AR) 모델에 뒤처지는 문제를 해결하고자 합니다.

#Review #Diffusion Language Models #Residual Learning #Context Aggregation #Parallel Decoding #Masked Denoising #Reasoning Benchmarks #Entropy Weighting

2026년 2월 4일

[논문리뷰] Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization

논문은 오토-회귀 비디오 생성 모델의 주요 병목인 KV-cache 메모리 문제 를 해결하고자 합니다.

#Review #Auto-Regressive Video Generation #KV-Cache Quantization #Memory Optimization #Long Video Generation #Video Diffusion Models #Semantic-Aware Smoothing #Progressive Residual Quantization

2026년 2월 4일

[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Scientific QA #Information Retrieval #Verifiable Rewards #Biomedical Domain #Search Agents #Dataset Generation

2026년 2월 4일

[논문리뷰] OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

본 논문은 Omni-modal Large Language Models (Omni-LLMs) 가 긴 멀티모달 토큰 시퀀스로 인해 겪는 막대한 계산 오버헤드를 해결하는 것을 목표로 합니다.

#Review #Omni-modal LLMs #Token Compression #Modality-Asymmetric #Video Pruning #Audio Selection #Efficiency #Large Language Models #Spatio-Temporal

2026년 2월 4일

[논문리뷰] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing

본 논문은 기존 희소 어텐션(sparse attention) 방법론의 두 가지 근본적인 한계를 해결하고자 합니다. 첫째, 토큰 중요도 예측에 추가적인 프록시(proxy)를 사용하는 복잡성과 성능 저하 문제.

#Review #Sparse Attention #KV Cache Sharing #Hybrid Attention #Long-Context LLMs #Memory Optimization #Token Selection #Transformer Architecture

2026년 2월 4일

[논문리뷰] HY3D-Bench: Generation of 3D Assets

3D 콘텐츠 생성 분야의 데이터 처리 병목 현상 을 해결하고, 고품질 3D 콘텐츠 생성을 위한 통합적이고 표준화된 오픈소스 생태계 인 HY3D-Bench 를 구축하는 것이 목표입니다. 이는 3D 생성 모델의 훈련 및 평가를 위한 견고한 기반을 제공하여 연구 발전을 가속화하고자 합니다.

#Review #3D Generation #Dataset #Benchmark #AIGC #Watertight Mesh #Part-level Decomposition #Foundation Model #Robotics

2026년 2월 4일

[논문리뷰] FASA: Frequency-aware Sparse Attention

대규모 언어 모델(LLMs)이 긴 입력 시퀀스를 처리할 때 발생하는 KV 캐시의 막대한 메모리 사용량과 연산 병목 현상 을 해결하는 것이 목표입니다.

#Review #Sparse Attention #KV Cache Optimization #Rotary Positional Embedding (RoPE)#Frequency Chunks (FCs)#LLMs #Long-Context #Training-Free

2026년 2월 4일

[논문리뷰] EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

본 논문은 인간형 로봇의 실제 환경 배포 시 발생하는 고유한 불안정성, 부분적 정보 기반의 지각/이동/조작 통합의 어려움, 그리고 동적 환경에서의 견고한 하위 태스크 전환 문제를 해결하는 것을 목표로 합니다.

#Review #Humanoid Robots #Vision-Language Models #Task Planning #Egocentric Control #Mobile Manipulation #Active Perception #Human-Robot Interaction #Real-World Deployment

2026년 2월 4일

[논문리뷰] ERNIE 5.0 Technical Report

ERNIE 5.0은 텍스트, 이미지, 비디오, 오디오에 걸쳐 통합된 멀티모달 이해 및 생성 을 위한 본질적으로 자기회귀(autoregressive) 기반 파운데이션 모델 을 개발하는 것을 목표로 합니다.

#Review #Multimodal Foundation Model #Autoregressive #Mixture-of-Experts #Elastic Training #Reinforcement Learning #Unified Architecture #Sparse MoE #Efficient Deployment

2026년 2월 4일

[논문리뷰] BatCoder: Self-Supervised Bidirectional Code-Documentation Learning via Back-Translation

본 논문의 핵심 목표는 고품질 코드-문서 쌍의 부족이라는 문제를 해결하는 것입니다.

#Review #Self-Supervised Learning #Code Generation #Documentation Generation #Back-Translation #Reinforcement Learning #Large Language Models (LLMs)#Code-Documentation Alignment #Low-Resource Languages

2026년 2월 4일

[논문리뷰] AutoFigure: Generating and Refining Publication-Ready Scientific Illustrations

과학 논문의 복잡한 내용을 효과적으로 시각화하는 고품질 삽화의 수동 생성 병목 현상을 해결하고자 합니다. 특히, 긴 과학 텍스트(long-form scientific texts)로부터 출판 준비 수준의 과학 삽화를 자동으로 생성 및 개선 하는 것을 목표로 합니다.

#Review #Scientific Illustration Generation #Long-form Text-to-Image #Agentic Framework #Reasoned Rendering #Layout Planning #Text Refinement #FigureBench #VLM-as-a-judge

2026년 2월 4일

[논문리뷰] Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

이 논문은 LLM 에이전트가 복잡한 실제 작업을 수행할 때 발생하는 과도한 사고(thought) 및 관찰(observation) 컨텍스트 축적 문제 를 해결하고 효율성을 향상시키는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Context Management #Thought Omission #Observation Omission #Reinforcement Learning #Adaptive Policy

2026년 2월 4일

[논문리뷰] A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces

기존 RAG(Retrieval-Augmented Generation) 시스템이 대규모 언어 모델(LLM)의 추론 및 도구 사용 능력을 충분히 활용하지 못하고, 정적인 검색 알고리즘이나 사전 정의된 워크플로우에 의존하는 한계를 해결하고자 합니다.

#Review #Agentic RAG #Hierarchical Retrieval #LLM Tool Use #Multi-hop QA #Context Efficiency #Dynamic Strategy #Retrieval-Augmented Generation

2026년 2월 4일

[논문리뷰] daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

본 논문은 대규모 언어 모델(LLM)이 단기 작업에서 뛰어난 성능을 보임에도 불구하고, 실제와 같은 복잡한 장기 에이전트 워크플로우로 확장하는 데 필요한 고품질 훈련 데이터 부족 문제를 해결하고자 합니다.

#Review #Long-Horizon Agency #Data Synthesis #Pull Request Chains #Software Evolution #LLM Training #Agentic AI #Self-Distillation #Code Generation

2026년 2월 3일

[논문리뷰] WideSeek: Advancing Wide Research via Multi-Agent Scaling

본 논문은 기존의 심층 연구(Deep Research) 패러다임이 아닌, 복잡한 제약 조건 하에서 포괄적인 정보를 병렬적으로 검색하고 종합하는 광범위 연구(Wide Research) 패러다임의 발전을 목표로 합니다. 특히, 이러한 광범위 검색을 위한 전용 벤치마크 및 최적화 방법론의 부족이라는 문제를 해결하고자 합니다.

#Review #Wide Research #Multi-Agent Systems #Reinforcement Learning #Information Seeking #Benchmarking #LLM Agents #Knowledge Graphs

2026년 2월 3일

[논문리뷰] Unified Personalized Reward Model for Vision Generation

본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.

#Review #Reward Model #Vision Generation #Personalized Learning #Context-Adaptive Reasoning #Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning #Group Relative Policy Optimization (GRPO)

2026년 2월 3일

[논문리뷰] Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection

대규모 언어 모델(LLMs)에서 O(L²) 의 복잡성을 가지는 어텐션 메커니즘이 긴 컨텍스트 추론의 병목이 되는 문제를 해결하고자 합니다.

#Review #Sparse Attention #Long-Context Inference #LLMs #Token Selection #Efficiency #Transformer #Dynamic Sparsity

2026년 2월 3일

[논문리뷰] SimpleGPT: Improving GPT via A Simple Normalization Strategy

본 논문은 Transformer 모델의 최적화 안정성 문제를 해결하고자 합니다. 기존 정규화 기법들이 경험적으로 도입되었던 한계를 넘어, 2차 최적화 기하학 과 활성화 스케일 의 관점에서 아키텍처 설계와 최대 허용 학습률 간의 직접적인 연결을 이론적으로 규명하는 것을 목표로 합니다.

#Review #Transformer Optimization #Normalization Strategy #Hessian Spectral Norm #Learning Rate Stability #Large Language Models #SimpleNorm #Second-Order Optimization

2026년 2월 3일