최신 포스트

[논문리뷰] EnvX: Agentize Everything with Agentic AI

이 논문은 오픈소스 코드 저장소의 재활용 및 협업의 비효율성을 해결하기 위해, 저장소를 지능적인 자율 에이전트 로 변환하는 프레임워크인 EnvX 를 제안합니다.

#Review #Agentic AI #Multi-Agent Systems #Code Repository #Agentization #Natural Language Interaction #Agent-to-Agent Protocol #LLM-based Agents

2025년 9월 11일

[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interaction #Long-Horizon Decision Making #Agent Framework #Exploration-Exploitation #Progressive Scaling

2025년 9월 11일

[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models

본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Reasoning Models #LLMs #Reward Design #Policy Optimization #Verifiable Rewards #Agentic AI #Multimodal AI

2025년 9월 11일

[논문리뷰] 3D and 4D World Modeling: A Survey

본 설문조사는 3D 및 4D 세계 모델링 및 생성을 위한 최초의 포괄적인 리뷰를 제공하여, 2D 데이터 중심 연구에서 간과되었던 RGB-D, Occupancy Grids, LiDAR Point Clouds 와 같은 네이티브 3D 및 4D 표현의 중요성을 강조합니다.

#Review #3D World Modeling #4D World Modeling #Generative Models #Predictive Models #LiDAR #Occupancy Grids #Video Generation #Autonomous Driving #Robotics

2025년 9월 11일

[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR

이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.

#Review #Reinforcement Learning #LLMs #Gradient Variance #Loss Aggregation #Unbiased Estimator #RLVR #Policy Gradient #Normalization

2025년 9월 10일

[논문리뷰] Visual Representation Alignment for Multimodal Large Language Models

본 논문은 시각적 지시 튜닝으로 훈련된 다중 모달 대규모 언어 모델(MLLM) 이 객체 카운팅이나 공간 추론과 같은 시각 중심 작업에서 제한적인 성능을 보이는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Visual Representation Alignment #Foundation Models #Regularization #Fine-grained Visual Understanding #Spatial Reasoning #Object Counting #Vision-Language Models

2025년 9월 10일

[논문리뷰] UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward

본 논문은 이미지 커스터마이징 모델에서 다중 정체성(multi-identity)을 생성할 때 발생하는 정체성 일관성 부족(identity consistency) 과 정체성 혼란(identity confusion) 문제를 해결하는 것을 목표로 합니다.

#Review #Image Customization #Multi-Identity Generation #Identity Consistency #Identity Confusion #Reinforcement Learning #Diffusion Models #Matching Reward #Global Assignment

2025년 9월 10일

[논문리뷰] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding

대규모 언어 모델(LLM)의 추론 능력 강화를 위한 기존 확인 가능한 보상 강화 학습(RLVR) 방법론이 겪는 탐색 비효율성 문제를 해결하는 것이 목표입니다.

#Review #RLVR #LLM Reasoning #Adaptive Learning #Hint Scaffolding #Item Response Theory #Exploration Efficiency #Problem Difficulty #Policy Optimization

2025년 9월 10일

[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Large Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #LLM Factuality #Parametric Knowledge #Benchmark #Question Answering #Data Curation #Evaluation Metrics #Hallucination Mitigation #Large Language Models

2025년 9월 10일

[논문리뷰] Reconstruction Alignment Improves Unified Multimodal Models

논문은 통합 멀티모달 모델(UMM)이 이미지-텍스트 쌍으로 훈련될 때 캡션의 희소성으로 인해 미세한 시각적 디테일을 놓치고, 이해와 생성 간의 정렬이 불완전하다는 문제를 해결하고자 합니다.

#Review #Unified Multimodal Models #Image Generation #Image Editing #Post-training #Self-supervised Learning #Reconstruction Alignment #Visual Embeddings

2025년 9월 10일

[논문리뷰] Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling

본 논문은 계산 비용이 높은 텍스트-이미지 확산 모델의 추론 효율성 을 개선하는 것을 목표로 합니다.

#Review #Diffusion Models #Quantization #Few-Step Generation #Model Compression #Noise Scheduling #Post-Training Quantization #Image Quality Metrics #Latent Consistency Models

2025년 9월 10일

[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.

#Review #Large Language Models #Parallel Thinking #Reinforcement Learning #Mathematical Reasoning #Progressive Curriculum #Reward Design #Exploration Scaffold

2025년 9월 10일

[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.

#Review #Visual Search #Multi-Turn Reasoning #Reinforcement Learning #Tool-Integrated Agents #Exploratory Reasoning #Data Augmentation #Over-turn Masking #Visual Language Models

2025년 9월 10일

[논문리뷰] Language Self-Play For Data-Free Training

본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.

#Review #Large Language Models #Reinforcement Learning #Self-Play #Data-Free Training #Instruction Following #Adversarial Training #Reward Modeling

2025년 9월 10일

[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions

본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.

#Review #Vision-Language-Action #Embodied AI #Visual Foresight #Predictive Inverse Dynamics #Mixture-of-Transformer #Robot Manipulation #Multi-stage Training #Generalization

2025년 9월 10일

[논문리뷰] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

본 논문은 기존 온라인 강화 학습(Online-RL) 기반 확산 모델 정렬 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Human Preference #Text-to-Image Generation #Reward Hacking #Direct-Align #SRPO #Fine-Grained Control #Flow Matching Models

2025년 9월 10일

[논문리뷰] Curia: A Multi-Modal Foundation Model for Radiology

기존 방사선과 AI 모델의 '원 태스크, 원 모델' 방식이 비효율적이고 일반화 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Foundation Model #Radiology #Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning #Vision Transformer #Cross-Modality Generalization

2025년 9월 10일

[논문리뷰] Causal Attention with Lookahead Keys

이 연구는 자기회귀(autoregressive) 언어 모델 의 핵심 구성 요소인 표준 인과적 어텐션(causal attention)이 이전 문맥에만 의존하여 전역적 문맥 파악과 자연어 이해 능력을 저해하는 문제를 해결하는 것을 목표로 합니다.

#Review #Causal Attention #Lookahead Keys #Autoregressive Modeling #Language Models #Transformer #Perplexity Reduction #Parallel Training #Efficient Inference

2025년 9월 10일

[논문리뷰] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents

본 논문은 복잡한 정보 탐색과 다단계 웹 탐색을 요구하는 장기 웹 에이전트 를 훈련하기 위한 핵심 과제인 고품질 훈련 데이터 부족 문제 를 해결하고자 합니다.

#Review #Web Agents #Long-Horizon Reasoning #Large Language Models (LLMs)#Data Generation #Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Web Navigation #Information Retrieval

2025년 9월 9일

[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of Experts

본 논문은 기존 비디오 생성 모델 들이 시각적 도메인에만 집중하여 오디오-비디오의 다중 모달 특성을 간과하는 문제를 해결하고, Google Veo3 와 같은 폐쇄형 시스템에 필적하는 통합된 오디오-비디오 생성 모델 인 UniVerse-1 을 오픈 소스로 개발하는 것을 목표로 합니다.

#Review #Unified Audio-Video Generation #Stitching of Experts (SoE)#Multimodal Diffusion #Online Annotation #Cross-modal Noise Correlation #Foundation Models #Verse-Bench

2025년 9월 9일