[논문리뷰] <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs본 연구는 대규모 언어 모델(LLM)이 생성한 독성 텍스트가 텍스트 정화(detoxification) 모델 훈련을 위한 인간 주석 데이터를 효과적으로 대체할 수 있는지 평가하는 것을 목표로 합니다.#Review#Toxic Text Generation#LLMs#Text Detoxification#Lexical Diversity#Synthetic Data#Human Annotation#Style Transfer2025년 9월 11일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual Generation시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중
[논문리뷰] P3-SAM: Native 3D Part Segmentation본 논문은 기존 3D 파트 분할 방법론의 한계, 특히 복잡한 객체에 대한 불충분한 견고성 과 완전한 자동화의 부재 를 극복하고자 합니다.#Review#3D Part Segmentation#Point Cloud Segmentation#Prompt-based Segmentation#Deep Learning#Transformer#Interactive Segmentation#Automatic Segmentation#Native 3D2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Hunyuan-MT Technical Report본 논문은 오픈소스 다국어 기계 번역 모델인 Hunyuan-MT-7B 및 Hunyuan-MT-Chimera-7B 를 소개하며, 33개 언어 에 대한 양방향 번역에서 최첨단 성능을 달성하고 특히 만다린어와 소수 민족 언어 및 방언 번역의 품질을 향상시키는 것을 목표로 합니다.#Review#Machine Translation#Large Language Model#Multilingual#Low-Resource Languages#Reinforcement Learning#Weak-to-Strong Learning#Slow Thinking2025년 9월 11일댓글 수 로딩 중
[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI AssistantsAI에 대한 인간의 의존도가 높아짐에 따라 개인 및 집단적 통제력을 상실하는 '인간 에이전시 상실' 문제에 대응하고자 합니다.#Review#Human Agency#AI Assistants#LLM Evaluation#Benchmark#Sociotechnical AI#AI Alignment#Scalable Evaluation2025년 9월 11일댓글 수 로딩 중
[논문리뷰] EnvX: Agentize Everything with Agentic AI이 논문은 오픈소스 코드 저장소의 재활용 및 협업의 비효율성을 해결하기 위해, 저장소를 지능적인 자율 에이전트 로 변환하는 프레임워크인 EnvX 를 제안합니다.#Review#Agentic AI#Multi-Agent Systems#Code Repository#Agentization#Natural Language Interaction#Agent-to-Agent Protocol#LLM-based Agents2025년 9월 11일댓글 수 로딩 중
[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Multi-Turn Interaction#Long-Horizon Decision Making#Agent Framework#Exploration-Exploitation#Progressive Scaling2025년 9월 11일댓글 수 로딩 중
[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Reasoning Models#LLMs#Reward Design#Policy Optimization#Verifiable Rewards#Agentic AI#Multimodal AI2025년 9월 11일댓글 수 로딩 중
[논문리뷰] 3D and 4D World Modeling: A Survey본 설문조사는 3D 및 4D 세계 모델링 및 생성을 위한 최초의 포괄적인 리뷰를 제공하여, 2D 데이터 중심 연구에서 간과되었던 RGB-D, Occupancy Grids, LiDAR Point Clouds 와 같은 네이티브 3D 및 4D 표현의 중요성을 강조합니다.#Review#3D World Modeling#4D World Modeling#Generative Models#Predictive Models#LiDAR#Occupancy Grids#Video Generation#Autonomous Driving#Robotics2025년 9월 11일댓글 수 로딩 중
[논문리뷰] ΔL Normalization: Rethink Loss Aggregation in RLVR이 논문은 Verifiable Rewards를 사용하는 강화 학습 (RLVR) 환경에서 응답 길이의 동적 변화로 인해 발생하는 문제에 주목합니다.#Review#Reinforcement Learning#LLMs#Gradient Variance#Loss Aggregation#Unbiased Estimator#RLVR#Policy Gradient#Normalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Visual Representation Alignment for Multimodal Large Language Models본 논문은 시각적 지시 튜닝으로 훈련된 다중 모달 대규모 언어 모델(MLLM) 이 객체 카운팅이나 공간 추론과 같은 시각 중심 작업에서 제한적인 성능을 보이는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Visual Representation Alignment#Foundation Models#Regularization#Fine-grained Visual Understanding#Spatial Reasoning#Object Counting#Vision-Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward본 논문은 이미지 커스터마이징 모델에서 다중 정체성(multi-identity)을 생성할 때 발생하는 정체성 일관성 부족(identity consistency) 과 정체성 혼란(identity confusion) 문제를 해결하는 것을 목표로 합니다.#Review#Image Customization#Multi-Identity Generation#Identity Consistency#Identity Confusion#Reinforcement Learning#Diffusion Models#Matching Reward#Global Assignment2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding대규모 언어 모델(LLM)의 추론 능력 강화를 위한 기존 확인 가능한 보상 강화 학습(RLVR) 방법론이 겪는 탐색 비효율성 문제를 해결하는 것이 목표입니다.#Review#RLVR#LLM Reasoning#Adaptive Learning#Hint Scaffolding#Item Response Theory#Exploration Efficiency#Problem Difficulty#Policy Optimization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric KnowledgeLarge Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.#Review#LLM Factuality#Parametric Knowledge#Benchmark#Question Answering#Data Curation#Evaluation Metrics#Hallucination Mitigation#Large Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Reconstruction Alignment Improves Unified Multimodal Models논문은 통합 멀티모달 모델(UMM)이 이미지-텍스트 쌍으로 훈련될 때 캡션의 희소성으로 인해 미세한 시각적 디테일을 놓치고, 이해와 생성 간의 정렬이 불완전하다는 문제를 해결하고자 합니다.#Review#Unified Multimodal Models#Image Generation#Image Editing#Post-training#Self-supervised Learning#Reconstruction Alignment#Visual Embeddings2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling본 논문은 계산 비용이 높은 텍스트-이미지 확산 모델의 추론 효율성 을 개선하는 것을 목표로 합니다.#Review#Diffusion Models#Quantization#Few-Step Generation#Model Compression#Noise Scheduling#Post-Training Quantization#Image Quality Metrics#Latent Consistency Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.#Review#Large Language Models#Parallel Thinking#Reinforcement Learning#Mathematical Reasoning#Progressive Curriculum#Reward Design#Exploration Scaffold2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.#Review#Visual Search#Multi-Turn Reasoning#Reinforcement Learning#Tool-Integrated Agents#Exploratory Reasoning#Data Augmentation#Over-turn Masking#Visual Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Language Self-Play For Data-Free Training본 연구는 대규모 언어 모델(LLM) 훈련의 핵심 병목인 고품질 훈련 데이터의 지속적인 필요성을 해결하는 것을 목표로 합니다. 데이터에 대한 의존성을 제거하고, 모델이 추가 데이터 없이도 스스로 개선할 수 있도록 하는 강화 학습(RL) 접근 방식 을 제안합니다.#Review#Large Language Models#Reinforcement Learning#Self-Play#Data-Free Training#Instruction Following#Adversarial Training#Reward Modeling2025년 9월 10일댓글 수 로딩 중
[논문리뷰] F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions본 논문은 동적인 시각 환경에서 언어 조건부 태스크를 실행하는 로봇의 한계를 극복하고자 합니다.#Review#Vision-Language-Action#Embodied AI#Visual Foresight#Predictive Inverse Dynamics#Mixture-of-Transformer#Robot Manipulation#Multi-stage Training#Generalization2025년 9월 10일댓글 수 로딩 중