Review

[논문리뷰] Quantile Advantage Estimation for Entropy-Safe Reasoning

An Zhang이 arXiv에 게시한 'Quantile Advantage Estimation for Entropy-Safe Reasoning' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #LLM Reasoning #Entropy Control #Advantage Estimation #Quantile Baseline #Exploration-Exploitation #RLVR

2025년 9월 29일

[논문리뷰] PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Lingpeng Kong이 arXiv에 게시한 'PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning' 논문에 대한 자세한 리뷰입니다.

#Review #Prompt Synthesis #Large Language Models #Reasoning #Expectation-Maximization #Self-Play #Supervised Fine-Tuning #Task Generation #Rationale Generation

2025년 9월 29일

[논문리뷰] No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping

arXiv에 게시된 'No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Reinforcement Learning #Zero-Variance Prompts #Advantage Shaping #Entropy-Guided #Math Reasoning #RLVR #Group Relative Policy Optimization

2025년 9월 29일

[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

SunYuefeng이 arXiv에 게시한 'MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing' 논문에 대한 자세한 리뷰입니다.

#Review #Document Parsing #Vision-Language Model #High-Resolution #Two-Stage Inference #Layout Analysis #Content Recognition #Data Engine #Computational Efficiency

2025년 9월 29일

[논문리뷰] Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

Peter Wonka이 arXiv에 게시한 'Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation' 논문에 대한 자세한 리뷰입니다.

#Review #Subject-Driven Generation #Visual Inconsistency Detection #Feature Disentanglement #Diffusion Models #Semantic Correspondence #Evaluation Metric #Spatial Localization #Contrastive Learning

2025년 9월 29일

[논문리뷰] MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning

Weipeng Zhong이 arXiv에 게시한 'MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning' 논문에 대한 자세한 리뷰입니다.

#Review #3D Scene Generation #Robotic Manipulation #Large Language Models #Spatial Reasoning #Dataset #Direct Preference Optimization #Tabletop Scene

2025년 9월 29일

[논문리뷰] LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

arXiv에 게시된 'LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer' 논문에 대한 자세한 리뷰입니다.

#Review #Universal Image Restoration #Diffusion Transformer #Caption-Free #Semantic Alignment #Image Quality Assessment #Data Curation #Real-World Degradations #Deep Learning

2025년 9월 29일

[논문리뷰] LongLive: Real-time Interactive Long Video Generation

arXiv에 게시된 'LongLive: Real-time Interactive Long Video Generation' 논문에 대한 자세한 리뷰입니다.

#Review #Long Video Generation #Real-time #Interactive AI #Autoregressive Models #KV Cache #Streaming Tuning #Attention Sink #Diffusion Models

2025년 9월 29일

[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

Gang Li이 arXiv에 게시한 'Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #LLM Agents #Exploration-Exploitation #Self-Imitation Learning #Intrinsic Rewards #Curriculum Learning #Policy Entropy #Tool Use

2025년 9월 29일

[논문리뷰] Language Models Can Learn from Verbal Feedback Without Scalar Rewards

arXiv에 게시된 'Language Models Can Learn from Verbal Feedback Without Scalar Rewards' 논문에 대한 자세한 리뷰입니다.

#Review #Verbal Feedback #Conditional Generation #Large Language Models #Feedback-Conditional Policy #Offline-Online Learning #Reward Hypothesis Bypass

2025년 9월 29일

[논문리뷰] Instruction-Following Evaluation in Function Calling for Large Language Models

NikolaiSkripko이 arXiv에 게시한 'Instruction-Following Evaluation in Function Calling for Large Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Function Calling #LLMs #Instruction Following #Benchmarking #JSON Schema #AI Agents #Evaluation Metrics

2025년 9월 29일

[논문리뷰] HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models

Romann M. Weber이 arXiv에 게시한 'HiGS: History-Guided Sampling for Plug-and-Play Enhancement of Diffusion Models' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion Models #Sampling #Generative AI #Image Generation #Plug-and-Play #Training-Free #Guidance #Momentum-Based Methods

2025년 9월 29일

[논문리뷰] FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing

Linghe Kong이 arXiv에 게시한 'FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing' 논문에 대한 자세한 리뷰입니다.

#Review #Text-Guided Image Editing #Diffusion Models #Real-Time Editing #One-Step Inversion #Attention Control #Background Preservation #Semantic Disentanglement

2025년 9월 29일

[논문리뷰] Fine-tuning Done Right in Model Editing

Du Su이 arXiv에 게시한 'Fine-tuning Done Right in Model Editing' 논문에 대한 자세한 리뷰입니다.

#Review #Model Editing #Fine-tuning #Large Language Models #Catastrophic Forgetting #Breadth-First Pipeline #Depth-First Pipeline #Localized Tuning #Lifelong Learning

2025년 9월 29일

[논문리뷰] Finding 3D Positions of Distant Objects from Noisy Camera Movement and Semantic Segmentation Sequences

Eija Honkavaara이 arXiv에 게시한 'Finding 3D Positions of Distant Objects from Noisy Camera Movement and Semantic Segmentation Sequences' 논문에 대한 자세한 리뷰입니다.

#Review #3D Object Localization #Particle Filter #Multi-target Tracking #Drone Surveillance #Wildfire Monitoring #Semantic Segmentation #Camera Pose Estimation

2025년 9월 29일

[논문리뷰] ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

Ki-Ung Song이 arXiv에 게시한 'ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #High-Resolution Vision #Vision-Language Models #Efficient Reasoning #Coarse-to-Fine #Reinforcement Learning #Visual Understanding #Attention Mechanism

2025년 9월 29일

[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

Li Yu-Jhe이 arXiv에 게시한 'EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Agents #Reinforcement Learning #Entropy Regularization #Policy Optimization #Sparse Rewards #Multi-turn Environments #Exploration-Exploitation

2025년 9월 29일

[논문리뷰] D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents

Jinyuan Li이 arXiv에 게시한 'D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents' 논문에 대한 자세한 리뷰입니다.

#Review #Mobile GUI Automation #Multi-Agent System #Cognitive Architecture #Pre-execution Alignment #Post-execution Reflection #Retrieval-Augmented Generation #Multimodal LLM #Deliberative AI

2025년 9월 29일

[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

arXiv에 게시된 'Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training' 논문에 대한 자세한 리뷰입니다.

#Review #LLM #Reinforcement Fine-tuning #Reward Modeling #Reward Over-optimization #Rubric-based Rewards #High-reward Tail #Off-policy Data #LLM Alignment

2025년 9월 29일

[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

arXiv에 게시된 'CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Image Captioning #Reinforcement Learning #Verifiable Rewards #LVLMs #VQA #Data Curation #Caption Quality

2025년 9월 29일