최신 포스트

[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models (LLMs)#Diversity Collapse #f-divergence #Forward-KL #JS-divergence #Pass@k #Catastrophic Forgetting

2025년 9월 12일

[논문리뷰] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations

본 논문은 대규모의 실세계 동적 비디오 데이터셋에 부족한 명시적인 공간 정보 및 풍부한 의미론적 주석의 부재 문제를 해결하고자 합니다. 이는 3D 재구성, 세계 모델링, 그리고 동적 장면 합성과 같은 AI/ML 분야의 발전을 저해하며, 물리적으로 일관성 있는 모델 학습을 위한 핵심 자원의 필요성을 강조합니다.

#Review #Video Dataset #Spatial Annotation #Camera Pose Estimation #Depth Map #Structured Caption #Motion Instruction #3D Vision #World Modeling

2025년 9월 12일

[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Robotic Manipulation #Data Scarcity #Generalization #Sim-to-Real Transfer #Online RL #Long-Horizon Planning

2025년 9월 12일

[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

본 논문은 대규모 언어 모델(LLM)의 단계별 추론(Chain-of-Thought, CoT) 능력 이 새로운 유형의 데이터 포이즈닝 공격 기회를 제공함과 동시에, 이러한 공격을 최종 답변으로 유도하는 것을 복잡하게 만드는 예상치 못한 견고성을 생성한다는 점을 탐구합니다.

#Review #LLM Security #Data Poisoning #Chain-of-Thought #Reasoning Models #Backdoor Attacks #CoT Unfaithfulness #Emergent Robustness

2025년 9월 12일

[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다.

#Review #Embodied AI #Multimodal LLMs #3D Grounding #Task-Adaptive Reasoning #Embodiment-Aware Planning #Robotics #Spatial Reasoning

2025년 9월 12일

[논문리뷰] Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation

본 논문은 기존 멀티모달 추천 시스템의 두 가지 주요 한계를 해결하고자 합니다: (1) 미세-정교한 교차-모달 연관성을 모델링하는 능력 부족으로 인한 최적 이하의 융합 품질, (2) 전역 분포 수준의 일관성 부족으로 발생하는 표현 편향.

#Review #Multimodal Recommendation #Modality Alignment #Attention Mechanism #Dilated Convolution #Maximum Mean Discrepancy #Contrastive Learning #Dimensionality Reduction

2025년 9월 12일

[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.

#Review #Long-Context LLMs #Software Engineering #Code Evaluation #Benchmark #Multi-file Reasoning #Architectural Understanding #Context Length #Software Development Lifecycle #Metrics

2025년 9월 12일

[논문리뷰] Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

기존 아바타 애니메이션 방법론의 지시 불이행 및 장기적 일관성 부족 문제를 해결하고, 오디오, 이미지, 텍스트 등 다중 모드 지시 를 심층적으로 이해하여 표정, 동작, 립싱크 가 정교하고 사실적인 고품질 장기 아바타 애니메이션 을 생성하는 것을 목표로 합니다.

#Review #Avatar Animation #Multimodal Instructions #Long-Duration Video Generation #MLLM Director #Cascaded Framework #Lip Synchronization #Instruction Grounding #Video Diffusion Transformers

2025년 9월 12일

[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.

#Review #Human-Centric Video Generation #Multimodal Conditioning #Text-to-Video #Image-to-Video #Audio-to-Video #Diffusion Models #Subject Preservation #Audio-Visual Synchronization #Progressive Training

2025년 9월 12일

[논문리뷰] Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

본 논문은 장기 시퀀스(long-horizon) LLM 에이전트 태스크에서 희소한 보상(sparse rewards) 으로 인해 발생하는 신용 할당(credit assignment) 문제 와 정책 경사(policy gradient)의 비효율적인 업데이트 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Policy Gradients #Entropy Modulation #Credit Assignment #Uncertainty #Long-Horizon Tasks #Self-Calibrating Gradient Scaling

2025년 9월 12일

[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

본 연구는 텍스트 기반 인물 검색(Text-based Person Retrieval)에서 CLIP 의 성능 저하를 야기하는 두 가지 주요 문제점을 해결하는 것을 목표로 합니다.

#Review #Text-based Person Retrieval #CLIP #MLLM #Data Curation #Dual-Masking #Gradient-Attention #WebPerson Dataset

2025년 9월 12일

[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.

#Review #Text-to-Image Generation #Reasoning Dataset #Benchmark #Generation Chain-of-Thought #Vision-Language Model #Image Aesthetics #Prompt Alignment

2025년 9월 12일

[논문리뷰] EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

본 논문은 텍스트 기반 LLM에서 파생된 SLLM(Speech-to-Speech Large Language Models)이 지식 및 추론 능력에서 저하를 보이는 문제에 주목합니다.

#Review #Speech-to-Speech LLMs #Acoustic-Semantic Gap #Echo Training #Unit Language #Streaming Inference #Knowledge-based QA

2025년 9월 12일

[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?

이 논문은 멀티모달 이해(I2T)와 생성(T2I) 간의 근본적인 불일치를 해결하고, 이들이 단순히 공존하는 것을 넘어 진정으로 상호 이점을 얻을 수 있는지 탐구합니다. 저자들은 두 태스크를 통합하는 단일하고 근본적인 목적 함수 를 제시하여, 상호 보완적인 방식으로 멀티모달 시스템의 성능을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Understanding #Multimodal Generation #Unified Models #Auto-Encoder #Reinforcement Learning #Image-to-Text #Text-to-Image #Reconstruction Fidelity

2025년 9월 12일

[논문리뷰] 2D Gaussian Splatting with Semantic Alignment for Image Inpainting

본 논문은 기존 이미지 인페인팅 방법론의 이산적인 픽셀 처리 방식이 갖는 한계를 극복하고, 2D Gaussian Splatting(2DGS) 의 연속적인 특성을 활용하여 픽셀 수준의 일관성과 전역적인 의미론적 정합성을 갖춘 고품질 이미지 인페인팅 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Image Inpainting #2D Gaussian Splatting #Semantic Alignment #DINO Features #Patch-level Rasterization #Continuous Representation #Generative Models

2025년 9월 12일

[논문리뷰] <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs

본 연구는 대규모 언어 모델(LLM)이 생성한 독성 텍스트가 텍스트 정화(detoxification) 모델 훈련을 위한 인간 주석 데이터를 효과적으로 대체할 수 있는지 평가하는 것을 목표로 합니다.

#Review #Toxic Text Generation #LLMs #Text Detoxification #Lexical Diversity #Synthetic Data #Human Annotation #Style Transfer

2025년 9월 11일

[논문리뷰] RewardDance: Reward Scaling in Visual Generation

시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.

#Review #Reward Model #Visual Generation #RLHF #VLM #Reward Scaling #Reward Hacking #Generative Paradigm #Context Scaling #Text-to-Image #Text-to-Video

2025년 9월 11일

[논문리뷰] P3-SAM: Native 3D Part Segmentation

본 논문은 기존 3D 파트 분할 방법론의 한계, 특히 복잡한 객체에 대한 불충분한 견고성 과 완전한 자동화의 부재 를 극복하고자 합니다.

#Review #3D Part Segmentation #Point Cloud Segmentation #Prompt-based Segmentation #Deep Learning #Transformer #Interactive Segmentation #Automatic Segmentation #Native 3D

2025년 9월 11일

[논문리뷰] Hunyuan-MT Technical Report

본 논문은 오픈소스 다국어 기계 번역 모델인 Hunyuan-MT-7B 및 Hunyuan-MT-Chimera-7B 를 소개하며, 33개 언어 에 대한 양방향 번역에서 최첨단 성능을 달성하고 특히 만다린어와 소수 민족 언어 및 방언 번역의 품질을 향상시키는 것을 목표로 합니다.

#Review #Machine Translation #Large Language Model #Multilingual #Low-Resource Languages #Reinforcement Learning #Weak-to-Strong Learning #Slow Thinking

2025년 9월 11일

[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

AI에 대한 인간의 의존도가 높아짐에 따라 개인 및 집단적 통제력을 상실하는 '인간 에이전시 상실' 문제에 대응하고자 합니다.

#Review #Human Agency #AI Assistants #LLM Evaluation #Benchmark #Sociotechnical AI #AI Alignment #Scalable Evaluation

2025년 9월 11일