Review

[논문리뷰] HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering

본 논문은 멀티-홉 질문(multi-hop queries) 처리 시 기존 RAG(Retrieval-Augmented Generation) 시스템이 겪는 비효율성(과도한 반복 검색), 비합리적인 쿼리(원래 쿼리에 대한 노이즈 검색), 그리고 노이즈 축적 문제를 해결하고자 합니다.

#Review #Retrieval-Augmented Generation #Multi-hop QA #Noise Resistance #LLM #Query Decomposition #Adaptive Retrieval #Heuristic Framework #Revelator

2025년 9월 15일

[논문리뷰] FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies

본 논문은 현재 Vision-Language-Action (VLA) 정책의 높은 계산 비용과 자원 요구사항 문제를 해결하고자 합니다. 특히, 수십억 개의 파라미터를 가진 대규모 모델 없이도 강력한 성능을 달성하는 효율적인 일반화 로봇 정책을 개발하는 것을 목표로 합니다.

#Review #Generalist Robot Policies #Vision-Language-Action Models #Efficient AI #Imitation Learning #Diffusion Models #Intermediate Fusion #Robotics

2025년 9월 15일

[논문리뷰] CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China

중국 내 소수 언어(티베트어, 위구르어, 몽골어)의 헤드라인 생성 을 위한 공개 데이터셋 및 벤치마크 부재 문제를 해결하고자 합니다. 이들 언어는 고유한 문자 체계와 자원 부족으로 인해 NLP 연구에서 소외되어 왔으며, 본 연구는 고품질 데이터셋을 제공하여 해당 분야의 발전을 촉진하는 것을 목표로 합니다.

#Review #Headline Generation #Minority Languages #Low-Resource NLP #Dataset #Benchmark #Natural Language Generation #Chinese Minority Languages

2025년 9월 15일

[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

Vision-Language Models (VLM)이 차트 이해 태스크에서 고정된 추론 전략(예: 외부 도구 의존 또는 단일 Chain-of-Thought)으로 인해 복잡하거나 '실제 환경' 차트에서 성능이 저하되는 문제를 해결합니다.

#Review #Visual Programmability #Code-as-Thought (CaT)#Chart Understanding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Adaptive Reasoning #Dual-Reward System #Multimodal AI

2025년 9월 12일

[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

VLA(Vision-Language-Action) 모델이 대규모 VLM(Vision-Language Model)과 광범위한 사전 훈련에 크게 의존하여 발생하는 높은 훈련 비용, 느린 미세 조정, 과도한 VRAM 사용 및 낮은 추론 효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Multimodal Learning #Efficient AI #Model Adaptation #Bridge Attention #Low-resource Training

2025년 9월 12일

[논문리뷰] The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

본 논문은 RLVR (Reinforcement Learning with Verifiable Reward) 로 미세 조정된 대규모 언어 모델(LLM)에서 빈번하게 발생하는 Pass@k 성능 저하 및 다양성 붕괴(diversity collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models (LLMs)#Diversity Collapse #f-divergence #Forward-KL #JS-divergence #Pass@k #Catastrophic Forgetting

2025년 9월 12일

[논문리뷰] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations

본 논문은 대규모의 실세계 동적 비디오 데이터셋에 부족한 명시적인 공간 정보 및 풍부한 의미론적 주석의 부재 문제를 해결하고자 합니다. 이는 3D 재구성, 세계 모델링, 그리고 동적 장면 합성과 같은 AI/ML 분야의 발전을 저해하며, 물리적으로 일관성 있는 모델 학습을 위한 핵심 자원의 필요성을 강조합니다.

#Review #Video Dataset #Spatial Annotation #Camera Pose Estimation #Depth Map #Structured Caption #Motion Instruction #3D Vision #World Modeling

2025년 9월 12일

[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Robotic Manipulation #Data Scarcity #Generalization #Sim-to-Real Transfer #Online RL #Long-Horizon Planning

2025년 9월 12일

[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

본 논문은 대규모 언어 모델(LLM)의 단계별 추론(Chain-of-Thought, CoT) 능력 이 새로운 유형의 데이터 포이즈닝 공격 기회를 제공함과 동시에, 이러한 공격을 최종 답변으로 유도하는 것을 복잡하게 만드는 예상치 못한 견고성을 생성한다는 점을 탐구합니다.

#Review #LLM Security #Data Poisoning #Chain-of-Thought #Reasoning Models #Backdoor Attacks #CoT Unfaithfulness #Emergent Robustness

2025년 9월 12일

[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

본 논문은 기존 MLLM 기반 Embodied 시스템의 Geometric Adaptability Gap (다양한 공간 요구사항에 대한 3D 정보 부족)과 Embodiment Constraint Gap (실제 로봇의 물리적 제약 무시)이라는 두 가지 핵심 한계를 해결하고자 합니다.

#Review #Embodied AI #Multimodal LLMs #3D Grounding #Task-Adaptive Reasoning #Embodiment-Aware Planning #Robotics #Spatial Reasoning

2025년 9월 12일

[논문리뷰] Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation

본 논문은 기존 멀티모달 추천 시스템의 두 가지 주요 한계를 해결하고자 합니다: (1) 미세-정교한 교차-모달 연관성을 모델링하는 능력 부족으로 인한 최적 이하의 융합 품질, (2) 전역 분포 수준의 일관성 부족으로 발생하는 표현 편향.

#Review #Multimodal Recommendation #Modality Alignment #Attention Mechanism #Dilated Convolution #Maximum Mean Discrepancy #Contrastive Learning #Dimensionality Reduction

2025년 9월 12일

[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.

#Review #Long-Context LLMs #Software Engineering #Code Evaluation #Benchmark #Multi-file Reasoning #Architectural Understanding #Context Length #Software Development Lifecycle #Metrics

2025년 9월 12일

[논문리뷰] Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

기존 아바타 애니메이션 방법론의 지시 불이행 및 장기적 일관성 부족 문제를 해결하고, 오디오, 이미지, 텍스트 등 다중 모드 지시 를 심층적으로 이해하여 표정, 동작, 립싱크 가 정교하고 사실적인 고품질 장기 아바타 애니메이션 을 생성하는 것을 목표로 합니다.

#Review #Avatar Animation #Multimodal Instructions #Long-Duration Video Generation #MLLM Director #Cascaded Framework #Lip Synchronization #Instruction Grounding #Video Diffusion Transformers

2025년 9월 12일

[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning

본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.

#Review #Human-Centric Video Generation #Multimodal Conditioning #Text-to-Video #Image-to-Video #Audio-to-Video #Diffusion Models #Subject Preservation #Audio-Visual Synchronization #Progressive Training

2025년 9월 12일

[논문리뷰] Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

본 논문은 장기 시퀀스(long-horizon) LLM 에이전트 태스크에서 희소한 보상(sparse rewards) 으로 인해 발생하는 신용 할당(credit assignment) 문제 와 정책 경사(policy gradient)의 비효율적인 업데이트 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Policy Gradients #Entropy Modulation #Credit Assignment #Uncertainty #Long-Horizon Tasks #Self-Calibrating Gradient Scaling

2025년 9월 12일

[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

본 연구는 텍스트 기반 인물 검색(Text-based Person Retrieval)에서 CLIP 의 성능 저하를 야기하는 두 가지 주요 문제점을 해결하는 것을 목표로 합니다.

#Review #Text-based Person Retrieval #CLIP #MLLM #Data Curation #Dual-Masking #Gradient-Attention #WebPerson Dataset

2025년 9월 12일

[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.

#Review #Text-to-Image Generation #Reasoning Dataset #Benchmark #Generation Chain-of-Thought #Vision-Language Model #Image Aesthetics #Prompt Alignment

2025년 9월 12일

[논문리뷰] EchoX: Towards Mitigating Acoustic-Semantic Gap via Echo Training for Speech-to-Speech LLMs

본 논문은 텍스트 기반 LLM에서 파생된 SLLM(Speech-to-Speech Large Language Models)이 지식 및 추론 능력에서 저하를 보이는 문제에 주목합니다.

#Review #Speech-to-Speech LLMs #Acoustic-Semantic Gap #Echo Training #Unit Language #Streaming Inference #Knowledge-based QA

2025년 9월 12일

[논문리뷰] Can Understanding and Generation Truly Benefit Together -- or Just Coexist?

이 논문은 멀티모달 이해(I2T)와 생성(T2I) 간의 근본적인 불일치를 해결하고, 이들이 단순히 공존하는 것을 넘어 진정으로 상호 이점을 얻을 수 있는지 탐구합니다. 저자들은 두 태스크를 통합하는 단일하고 근본적인 목적 함수 를 제시하여, 상호 보완적인 방식으로 멀티모달 시스템의 성능을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Understanding #Multimodal Generation #Unified Models #Auto-Encoder #Reinforcement Learning #Image-to-Text #Text-to-Image #Reconstruction Fidelity

2025년 9월 12일

[논문리뷰] 2D Gaussian Splatting with Semantic Alignment for Image Inpainting

본 논문은 기존 이미지 인페인팅 방법론의 이산적인 픽셀 처리 방식이 갖는 한계를 극복하고, 2D Gaussian Splatting(2DGS) 의 연속적인 특성을 활용하여 픽셀 수준의 일관성과 전역적인 의미론적 정합성을 갖춘 고품질 이미지 인페인팅 프레임워크를 개발하는 것을 목표로 합니다.

#Review #Image Inpainting #2D Gaussian Splatting #Semantic Alignment #DINO Features #Patch-level Rasterization #Continuous Representation #Generative Models

2025년 9월 12일