[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action ModelVLA(Vision-Language-Action) 모델이 대규모 VLM(Vision-Language Model)과 광범위한 사전 훈련에 크게 의존하여 발생하는 높은 훈련 비용, 느린 미세 조정, 과도한 VRAM 사용 및 낮은 추론 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Multimodal Learning#Efficient AI#Model Adaptation#Bridge Attention#Low-resource Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models (LLMs)#Diversity Collapse#f-divergence#Forward-KL#JS-divergence#Pass@k#Catastrophic Forgetting2025년 9월 12일댓글 수 로딩 중
[논문리뷰] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations본 논문은 대규모의 실세계 동적 비디오 데이터셋에 부족한 명시적인 공간 정보 및 풍부한 의미론적 주석의 부재 문제를 해결하고자 합니다. 이는 3D 재구성, 세계 모델링, 그리고 동적 장면 합성과 같은 AI/ML 분야의 발전을 저해하며, 물리적으로 일관성 있는 모델 학습을 위한 핵심 자원의 필요성을 강조합니다.#Review#Video Dataset#Spatial Annotation#Camera Pose Estimation#Depth Map#Structured Caption#Motion Instruction#3D Vision#World Modeling2025년 9월 12일댓글 수 로딩 중
[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.#Review#Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models#Robotic Manipulation#Data Scarcity#Generalization#Sim-to-Real Transfer#Online RL#Long-Horizon Planning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated본 논문은 대규모 언어 모델(LLM)의 단계별 추론(Chain-of-Thought, CoT) 능력 이 새로운 유형의 데이터 포이즈닝 공격 기회를 제공함과 동시에, 이러한 공격을 최종 답변으로 유도하는 것을 복잡하게 만드는 예상치 못한 견고성을 생성한다는 점을 탐구합니다.#Review#LLM Security#Data Poisoning#Chain-of-Thought#Reasoning Models#Backdoor Attacks#CoT Unfaithfulness#Emergent Robustness2025년 9월 12일댓글 수 로딩 중
[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다.#Review#Embodied AI#Multimodal LLMs#3D Grounding#Task-Adaptive Reasoning#Embodiment-Aware Planning#Robotics#Spatial Reasoning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation본 논문은 기존 멀티모달 추천 시스템의 두 가지 주요 한계를 해결하고자 합니다: (1) 미세-정교한 교차-모달 연관성을 모델링하는 능력 부족으로 인한 최적 이하의 융합 품질, (2) 전역 분포 수준의 일관성 부족으로 발생하는 표현 편향.#Review#Multimodal Recommendation#Modality Alignment#Attention Mechanism#Dilated Convolution#Maximum Mean Discrepancy#Contrastive Learning#Dimensionality Reduction2025년 9월 12일댓글 수 로딩 중
[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.#Review#Long-Context LLMs#Software Engineering#Code Evaluation#Benchmark#Multi-file Reasoning#Architectural Understanding#Context Length#Software Development Lifecycle#Metrics2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis기존 아바타 애니메이션 방법론의 지시 불이행 및 장기적 일관성 부족 문제를 해결하고, 오디오, 이미지, 텍스트 등 다중 모드 지시 를 심층적으로 이해하여 표정, 동작, 립싱크 가 정교하고 사실적인 고품질 장기 아바타 애니메이션 을 생성하는 것을 목표로 합니다.#Review#Avatar Animation#Multimodal Instructions#Long-Duration Video Generation#MLLM Director#Cascaded Framework#Lip Synchronization#Instruction Grounding#Video Diffusion Transformers2025년 9월 12일댓글 수 로딩 중
[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.#Review#Human-Centric Video Generation#Multimodal Conditioning#Text-to-Video#Image-to-Video#Audio-to-Video#Diffusion Models#Subject Preservation#Audio-Visual Synchronization#Progressive Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents본 논문은 장기 시퀀스(long-horizon) LLM 에이전트 태스크에서 희소한 보상(sparse rewards) 으로 인해 발생하는 신용 할당(credit assignment) 문제 와 정책 경사(policy gradient)의 비효율적인 업데이트 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Policy Gradients#Entropy Modulation#Credit Assignment#Uncertainty#Long-Horizon Tasks#Self-Calibrating Gradient Scaling2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval본 연구는 텍스트 기반 인물 검색(Text-based Person Retrieval)에서 CLIP 의 성능 저하를 야기하는 두 가지 주요 문제점을 해결하는 것을 목표로 합니다.#Review#Text-based Person Retrieval#CLIP#MLLM#Data Curation#Dual-Masking#Gradient-Attention#WebPerson Dataset2025년 9월 12일댓글 수 로딩 중
[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.#Review#Text-to-Image Generation#Reasoning Dataset#Benchmark#Generation Chain-of-Thought#Vision-Language Model#Image Aesthetics#Prompt Alignment2025년 9월 12일댓글 수 로딩 중
[논문리뷰] EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs본 논문은 텍스트 기반 LLM에서 파생된 SLLM(Speech-to-Speech Large Language Models)이 지식 및 추론 능력에서 저하를 보이는 문제에 주목합니다.#Review#Speech-to-Speech LLMs#Acoustic-Semantic Gap#Echo Training#Unit Language#Streaming Inference#Knowledge-based QA2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?이 논문은 멀티모달 이해(I2T)와 생성(T2I) 간의 근본적인 불일치를 해결하고, 이들이 단순히 공존하는 것을 넘어 진정으로 상호 이점을 얻을 수 있는지 탐구합니다. 저자들은 두 태스크를 통합하는 단일하고 근본적인 목적 함수 를 제시하여, 상호 보완적인 방식으로 멀티모달 시스템의 성능을 향상시키는 것을 목표로 합니다.#Review#Multimodal Understanding#Multimodal Generation#Unified Models#Auto-Encoder#Reinforcement Learning#Image-to-Text#Text-to-Image#Reconstruction Fidelity2025년 9월 12일댓글 수 로딩 중
[논문리뷰] 2D Gaussian Splatting with Semantic Alignment for Image Inpainting본 논문은 기존 이미지 인페인팅 방법론의 이산적인 픽셀 처리 방식이 갖는 한계를 극복하고, 2D Gaussian Splatting(2DGS) 의 연속적인 특성을 활용하여 픽셀 수준의 일관성과 전역적인 의미론적 정합성을 갖춘 고품질 이미지 인페인팅 프레임워크를 개발하는 것을 목표로 합니다.#Review#Image Inpainting#2D Gaussian Splatting#Semantic Alignment#DINO Features#Patch-level Rasterization#Continuous Representation#Generative Models2025년 9월 12일댓글 수 로딩 중
[논문리뷰] <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs본 연구는 대규모 언어 모델(LLM)이 생성한 독성 텍스트가 텍스트 정화(detoxification) 모델 훈련을 위한 인간 주석 데이터를 효과적으로 대체할 수 있는지 평가하는 것을 목표로 합니다.#Review#Toxic Text Generation#LLMs#Text Detoxification#Lexical Diversity#Synthetic Data#Human Annotation#Style Transfer2025년 9월 11일댓글 수 로딩 중
[논문리뷰] RewardDance: Reward Scaling in Visual Generation시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중
[논문리뷰] P3-SAM: Native 3D Part Segmentation본 논문은 기존 3D 파트 분할 방법론의 한계, 특히 복잡한 객체에 대한 불충분한 견고성 과 완전한 자동화의 부재 를 극복하고자 합니다.#Review#3D Part Segmentation#Point Cloud Segmentation#Prompt-based Segmentation#Deep Learning#Transformer#Interactive Segmentation#Automatic Segmentation#Native 3D2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Hunyuan-MT Technical Report본 논문은 오픈소스 다국어 기계 번역 모델인 Hunyuan-MT-7B 및 Hunyuan-MT-Chimera-7B 를 소개하며, 33개 언어 에 대한 양방향 번역에서 최첨단 성능을 달성하고 특히 만다린어와 소수 민족 언어 및 방언 번역의 품질을 향상시키는 것을 목표로 합니다.#Review#Machine Translation#Large Language Model#Multilingual#Low-Resource Languages#Reinforcement Learning#Weak-to-Strong Learning#Slow Thinking2025년 9월 11일댓글 수 로딩 중