[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI AssistantsAI에 대한 인간의 의존도가 높아짐에 따라 개인 및 집단적 통제력을 상실하는 '인간 에이전시 상실' 문제에 대응하고자 합니다.#Review#Human Agency#AI Assistants#LLM Evaluation#Benchmark#Sociotechnical AI#AI Alignment#Scalable Evaluation2025년 9월 11일댓글 수 로딩 중
[논문리뷰] EnvX: Agentize Everything with Agentic AI이 논문은 오픈소스 코드 저장소의 재활용 및 협업의 비효율성을 해결하기 위해, 저장소를 지능적인 자율 에이전트 로 변환하는 프레임워크인 EnvX 를 제안합니다.#Review#Agentic AI#Multi-Agent Systems#Code Repository#Agentization#Natural Language Interaction#Agent-to-Agent Protocol#LLM-based Agents2025년 9월 11일댓글 수 로딩 중
[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Multi-Turn Interaction#Long-Horizon Decision Making#Agent Framework#Exploration-Exploitation#Progressive Scaling2025년 9월 11일댓글 수 로딩 중
[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Reasoning Models#LLMs#Reward Design#Policy Optimization#Verifiable Rewards#Agentic AI#Multimodal AI2025년 9월 11일댓글 수 로딩 중
[논문리뷰] 3D and 4D World Modeling: A Survey본 설문조사는 3D 및 4D 세계 모델링 및 생성을 위한 최초의 포괄적인 리뷰를 제공하여, 2D 데이터 중심 연구에서 간과되었던 RGB-D, Occupancy Grids, LiDAR Point Clouds 와 같은 네이티브 3D 및 4D 표현의 중요성을 강조합니다.#Review#3D World Modeling#4D World Modeling#Generative Models#Predictive Models#LiDAR#Occupancy Grids#Video Generation#Autonomous Driving#Robotics2025년 9월 11일댓글 수 로딩 중
[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.#Review#Reinforcement Learning#LLMs#Gradient Variance#Loss Aggregation#Unbiased Estimator#RLVR#Policy Gradient#Normalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Visual Representation Alignment for Multimodal Large Language Models본 논문은 시각적 지시 튜닝으로 훈련된 다중 모달 대규모 언어 모델(MLLM) 이 객체 카운팅이나 공간 추론과 같은 시각 중심 작업에서 제한적인 성능을 보이는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Visual Representation Alignment#Foundation Models#Regularization#Fine-grained Visual Understanding#Spatial Reasoning#Object Counting#Vision-Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward본 논문은 이미지 커스터마이징 모델에서 다중 정체성(multi-identity)을 생성할 때 발생하는 정체성 일관성 부족(identity consistency) 과 정체성 혼란(identity confusion) 문제를 해결하는 것을 목표로 합니다.#Review#Image Customization#Multi-Identity Generation#Identity Consistency#Identity Confusion#Reinforcement Learning#Diffusion Models#Matching Reward#Global Assignment2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding대규모 언어 모델(LLM)의 추론 능력 강화를 위한 기존 확인 가능한 보상 강화 학습(RLVR) 방법론이 겪는 탐색 비효율성 문제를 해결하는 것이 목표입니다.#Review#RLVR#LLM Reasoning#Adaptive Learning#Hint Scaffolding#Item Response Theory#Exploration Efficiency#Problem Difficulty#Policy Optimization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric KnowledgeLarge Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.#Review#LLM Factuality#Parametric Knowledge#Benchmark#Question Answering#Data Curation#Evaluation Metrics#Hallucination Mitigation#Large Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Reconstruction Alignment Improves Unified Multimodal Models논문은 통합 멀티모달 모델(UMM)이 이미지-텍스트 쌍으로 훈련될 때 캡션의 희소성으로 인해 미세한 시각적 디테일을 놓치고, 이해와 생성 간의 정렬이 불완전하다는 문제를 해결하고자 합니다.#Review#Unified Multimodal Models#Image Generation#Image Editing#Post-training#Self-supervised Learning#Reconstruction Alignment#Visual Embeddings2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling본 논문은 계산 비용이 높은 텍스트-이미지 확산 모델의 추론 효율성 을 개선하는 것을 목표로 합니다.#Review#Diffusion Models#Quantization#Few-Step Generation#Model Compression#Noise Scheduling#Post-Training Quantization#Image Quality Metrics#Latent Consistency Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.#Review#Large Language Models#Parallel Thinking#Reinforcement Learning#Mathematical Reasoning#Progressive Curriculum#Reward Design#Exploration Scaffold2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.#Review#Visual Search#Multi-Turn Reasoning#Reinforcement Learning#Tool-Integrated Agents#Exploratory Reasoning#Data Augmentation#Over-turn Masking#Visual Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Language Self-Play For Data-Free Training본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.#Review#Large Language Models#Reinforcement Learning#Self-Play#Data-Free Training#Instruction Following#Adversarial Training#Reward Modeling2025년 9월 10일댓글 수 로딩 중
[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.#Review#Vision-Language-Action#Embodied AI#Visual Foresight#Predictive Inverse Dynamics#Mixture-of-Transformer#Robot Manipulation#Multi-stage Training#Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference본 논문은 기존 온라인 강화 학습(Online-RL) 기반 확산 모델 정렬 방식의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Reinforcement Learning#Human Preference#Text-to-Image Generation#Reward Hacking#Direct-Align#SRPO#Fine-Grained Control#Flow Matching Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Curia: A Multi-Modal Foundation Model for Radiology기존 방사선과 AI 모델의 '원 태스크, 원 모델' 방식이 비효율적이고 일반화 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Foundation Model#Radiology#Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning#Vision Transformer#Cross-Modality Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Causal Attention with Lookahead Keys이 연구는 자기회귀(autoregressive) 언어 모델 의 핵심 구성 요소인 표준 인과적 어텐션(causal attention)이 이전 문맥에만 의존하여 전역적 문맥 파악과 자연어 이해 능력을 저해하는 문제를 해결하는 것을 목표로 합니다.#Review#Causal Attention#Lookahead Keys#Autoregressive Modeling#Language Models#Transformer#Perplexity Reduction#Parallel Training#Efficient Inference2025년 9월 10일댓글 수 로딩 중
[논문리뷰] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents본 논문은 복잡한 정보 탐색과 다단계 웹 탐색을 요구하는 장기 웹 에이전트 를 훈련하기 위한 핵심 과제인 고품질 훈련 데이터 부족 문제 를 해결하고자 합니다.#Review#Web Agents#Long-Horizon Reasoning#Large Language Models (LLMs)#Data Generation#Reinforcement Learning (RL)#Supervised Fine-tuning (SFT)#Web Navigation#Information Retrieval2025년 9월 9일댓글 수 로딩 중