[논문리뷰] HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering본 논문은 멀티-홉 질문(multi-hop queries) 처리 시 기존 RAG(Retrieval-Augmented Generation) 시스템이 겪는 비효율성(과도한 반복 검색), 비합리적인 쿼리(원래 쿼리에 대한 노이즈 검색), 그리고 노이즈 축적 문제를 해결하고자 합니다.#Review#Retrieval-Augmented Generation#Multi-hop QA#Noise Resistance#LLM#Query Decomposition#Adaptive Retrieval#Heuristic Framework#Revelator2025년 9월 15일댓글 수 로딩 중
[논문리뷰] FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies본 논문은 현재 Vision-Language-Action (VLA) 정책의 높은 계산 비용과 자원 요구사항 문제를 해결하고자 합니다. 특히, 수십억 개의 파라미터를 가진 대규모 모델 없이도 강력한 성능을 달성하는 효율적인 일반화 로봇 정책을 개발하는 것을 목표로 합니다.#Review#Generalist Robot Policies#Vision-Language-Action Models#Efficient AI#Imitation Learning#Diffusion Models#Intermediate Fusion#Robotics2025년 9월 15일댓글 수 로딩 중
[논문리뷰] CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China중국 내 소수 언어(티베트어, 위구르어, 몽골어)의 헤드라인 생성 을 위한 공개 데이터셋 및 벤치마크 부재 문제를 해결하고자 합니다. 이들 언어는 고유한 문자 체계와 자원 부족으로 인해 NLP 연구에서 소외되어 왔으며, 본 연구는 고품질 데이터셋을 제공하여 해당 분야의 발전을 촉진하는 것을 목표로 합니다.#Review#Headline Generation#Minority Languages#Low-Resource NLP#Dataset#Benchmark#Natural Language Generation#Chinese Minority Languages2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart UnderstandingVision-Language Models (VLM)이 차트 이해 태스크에서 고정된 추론 전략(예: 외부 도구 의존 또는 단일 Chain-of-Thought)으로 인해 복잡하거나 '실제 환경' 차트에서 성능이 저하되는 문제를 해결합니다.#Review#Visual Programmability#Code-as-Thought (CaT)#Chart Understanding#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Adaptive Reasoning#Dual-Reward System#Multimodal AI2025년 9월 12일댓글 수 로딩 중
[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action ModelVLA(Vision-Language-Action) 모델이 대규모 VLM(Vision-Language Model)과 광범위한 사전 훈련에 크게 의존하여 발생하는 높은 훈련 비용, 느린 미세 조정, 과도한 VRAM 사용 및 낮은 추론 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Robotics#Multimodal Learning#Efficient AI#Model Adaptation#Bridge Attention#Low-resource Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models (LLMs)#Diversity Collapse#f-divergence#Forward-KL#JS-divergence#Pass@k#Catastrophic Forgetting2025년 9월 12일댓글 수 로딩 중
[논문리뷰] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations본 논문은 대규모의 실세계 동적 비디오 데이터셋에 부족한 명시적인 공간 정보 및 풍부한 의미론적 주석의 부재 문제를 해결하고자 합니다. 이는 3D 재구성, 세계 모델링, 그리고 동적 장면 합성과 같은 AI/ML 분야의 발전을 저해하며, 물리적으로 일관성 있는 모델 학습을 위한 핵심 자원의 필요성을 강조합니다.#Review#Video Dataset#Spatial Annotation#Camera Pose Estimation#Depth Map#Structured Caption#Motion Instruction#3D Vision#World Modeling2025년 9월 12일댓글 수 로딩 중
[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.#Review#Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models#Robotic Manipulation#Data Scarcity#Generalization#Sim-to-Real Transfer#Online RL#Long-Horizon Planning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated본 논문은 대규모 언어 모델(LLM)의 단계별 추론(Chain-of-Thought, CoT) 능력 이 새로운 유형의 데이터 포이즈닝 공격 기회를 제공함과 동시에, 이러한 공격을 최종 답변으로 유도하는 것을 복잡하게 만드는 예상치 못한 견고성을 생성한다는 점을 탐구합니다.#Review#LLM Security#Data Poisoning#Chain-of-Thought#Reasoning Models#Backdoor Attacks#CoT Unfaithfulness#Emergent Robustness2025년 9월 12일댓글 수 로딩 중
[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다.#Review#Embodied AI#Multimodal LLMs#3D Grounding#Task-Adaptive Reasoning#Embodiment-Aware Planning#Robotics#Spatial Reasoning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation본 논문은 기존 멀티모달 추천 시스템의 두 가지 주요 한계를 해결하고자 합니다: (1) 미세-정교한 교차-모달 연관성을 모델링하는 능력 부족으로 인한 최적 이하의 융합 품질, (2) 전역 분포 수준의 일관성 부족으로 발생하는 표현 편향.#Review#Multimodal Recommendation#Modality Alignment#Attention Mechanism#Dilated Convolution#Maximum Mean Discrepancy#Contrastive Learning#Dimensionality Reduction2025년 9월 12일댓글 수 로딩 중
[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.#Review#Long-Context LLMs#Software Engineering#Code Evaluation#Benchmark#Multi-file Reasoning#Architectural Understanding#Context Length#Software Development Lifecycle#Metrics2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis기존 아바타 애니메이션 방법론의 지시 불이행 및 장기적 일관성 부족 문제를 해결하고, 오디오, 이미지, 텍스트 등 다중 모드 지시 를 심층적으로 이해하여 표정, 동작, 립싱크 가 정교하고 사실적인 고품질 장기 아바타 애니메이션 을 생성하는 것을 목표로 합니다.#Review#Avatar Animation#Multimodal Instructions#Long-Duration Video Generation#MLLM Director#Cascaded Framework#Lip Synchronization#Instruction Grounding#Video Diffusion Transformers2025년 9월 12일댓글 수 로딩 중
[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.#Review#Human-Centric Video Generation#Multimodal Conditioning#Text-to-Video#Image-to-Video#Audio-to-Video#Diffusion Models#Subject Preservation#Audio-Visual Synchronization#Progressive Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents본 논문은 장기 시퀀스(long-horizon) LLM 에이전트 태스크에서 희소한 보상(sparse rewards) 으로 인해 발생하는 신용 할당(credit assignment) 문제 와 정책 경사(policy gradient)의 비효율적인 업데이트 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Policy Gradients#Entropy Modulation#Credit Assignment#Uncertainty#Long-Horizon Tasks#Self-Calibrating Gradient Scaling2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval본 연구는 텍스트 기반 인물 검색(Text-based Person Retrieval)에서 CLIP 의 성능 저하를 야기하는 두 가지 주요 문제점을 해결하는 것을 목표로 합니다.#Review#Text-based Person Retrieval#CLIP#MLLM#Data Curation#Dual-Masking#Gradient-Attention#WebPerson Dataset2025년 9월 12일댓글 수 로딩 중
[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.#Review#Text-to-Image Generation#Reasoning Dataset#Benchmark#Generation Chain-of-Thought#Vision-Language Model#Image Aesthetics#Prompt Alignment2025년 9월 12일댓글 수 로딩 중
[논문리뷰] EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs본 논문은 텍스트 기반 LLM에서 파생된 SLLM(Speech-to-Speech Large Language Models)이 지식 및 추론 능력에서 저하를 보이는 문제에 주목합니다.#Review#Speech-to-Speech LLMs#Acoustic-Semantic Gap#Echo Training#Unit Language#Streaming Inference#Knowledge-based QA2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?이 논문은 멀티모달 이해(I2T)와 생성(T2I) 간의 근본적인 불일치를 해결하고, 이들이 단순히 공존하는 것을 넘어 진정으로 상호 이점을 얻을 수 있는지 탐구합니다. 저자들은 두 태스크를 통합하는 단일하고 근본적인 목적 함수 를 제시하여, 상호 보완적인 방식으로 멀티모달 시스템의 성능을 향상시키는 것을 목표로 합니다.#Review#Multimodal Understanding#Multimodal Generation#Unified Models#Auto-Encoder#Reinforcement Learning#Image-to-Text#Text-to-Image#Reconstruction Fidelity2025년 9월 12일댓글 수 로딩 중
[논문리뷰] 2D Gaussian Splatting with Semantic Alignment for Image Inpainting본 논문은 기존 이미지 인페인팅 방법론의 이산적인 픽셀 처리 방식이 갖는 한계를 극복하고, 2D Gaussian Splatting(2DGS) 의 연속적인 특성을 활용하여 픽셀 수준의 일관성과 전역적인 의미론적 정합성을 갖춘 고품질 이미지 인페인팅 프레임워크를 개발하는 것을 목표로 합니다.#Review#Image Inpainting#2D Gaussian Splatting#Semantic Alignment#DINO Features#Patch-level Rasterization#Continuous Representation#Generative Models2025년 9월 12일댓글 수 로딩 중