Review

[논문리뷰] MPJudge: Towards Perceptual Assessment of Music-Induced Paintings

음악에 의해 영감을 받은 그림의 지각적 일관성을 평가하는 어려운 과제를 해결하는 것을 목표로 합니다. 기존 감정 기반 접근 방식의 한계(불정확성 및 감정 외 다른 지각적 단서 간과)를 극복하고, 음악과 시각 예술 간의 지각적 일관성을 직접적으로 모델링하는 새로운 프레임워크를 제안하고자 합니다.

#Review #Music-Painting Cross-Modal #Perceptual Assessment #Modality-Adaptive Normalization #Direct Preference Optimization #Cross-Modal Fusion #Dataset Annotation #Affective Computing

2025년 11월 10일

[논문리뷰] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

본 논문은 시각적 수학을 넘어선 복합적인 추론 구조를 갖춘 대규모, 비전 중심 추론 데이터셋 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Reasoning #Compositional AI #Vision-Language Models #Data Synthesis #Chain-of-Thought #Reinforcement Learning #Multimodal Transfer #Grounded Reasoning

2025년 11월 10일

[논문리뷰] Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks

본 논문은 기존 임베딩 모델의 불투명한 훈련 데이터 및 방법론 문제를 해결하고자, 다국어 및 교차 언어 태스크에서 최첨단 성능을 달성하는 완전 오픈 소스 범용 텍스트 임베딩 모델인 llama-embed-nemotron-8b 를 개발하는 것을 목표로 합니다.

#Review #Text Embedding #Multilingual #Cross-Lingual #Contrastive Learning #Model Merging #Synthetic Data Generation #Instruction-Tuning #LLM

2025년 11월 10일

[논문리뷰] LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs

본 논문은 효율적인 단일 배치 대규모 언어 모델(LLM) 추론을 위해 FPGA 의 장점을 활용하는 것을 목표로 합니다. 특히, 기존 산술 기반 연산에서 메모리 기반 연산 으로 전환하여 GPU 대비 FPGA의 성능 및 에너지 효율성 한계를 극복하고, 온디바이스 AI 구현을 위한 핵심 기술을 개발하고자 합니다.

#Review #FPGA #Large Language Models (LLM)#Inference Optimization #Memory-based Computation #Vector Quantization #Table Lookup #Hardware Acceleration

2025년 11월 10일

[논문리뷰] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

이 논문은 기존 딥-리서치 에이전트들이 단일 확장 컨텍스트 창에 정보를 축적하는 mono-contextual paradigm으로 인해 발생하는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Agents #Markov Decision Process #Workspace Reconstruction #Reinforcement Learning #Context Management #Iterative Deep Research #LLM Agents #Efficiency-Aware Policy Optimization

2025년 11월 10일

[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of Agents

본 논문은 LLM 및 AI 에이전트의 장기 학습 및 지속적인 상호작용을 가능하게 하는 메모리 시스템에서 발생하는 기억 환각(memory hallucinations) 문제를 해결하고자 합니다.

#Review #Memory Systems #AI Agents #Hallucination Detection #Evaluation Benchmark #Long-term Memory #Memory Extraction #Memory Updating #Question Answering

2025년 11월 10일

[논문리뷰] Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

본 논문은 기존 텍스트-이미지(T2I) 모델의 낮은 제어 가능성과 표현력 부족 문제를 해결하는 것을 목표로 합니다. 짧은 텍스트 프롬프트와 풍부한 시각적 출력 사이의 불일치로 인해 모델이 세부 정보를 임의로 채우는 경향이 있으며, 이는 전문적인 사용에 필요한 정밀한 제어를 제한합니다.

#Review #Text-to-Image Generation #Structured Captions #LLM Fusion #Controllability #Image Generation Evaluation #Diffusion Models #DimFusion #TaBR

2025년 11월 10일

[논문리뷰] FLEX: Continuous Agent Evolution via Forward Learning from Experience

본 논문의 핵심 목표는 기존 LLM(Large Language Model) 에이전트의 고정된 특성, 경험 기반 학습의 부재, 파라미터 최적화의 높은 비용 및 카타스트로픽 망각 문제점을 해결하는 것입니다.

#Review #LLM Agents #Continuous Learning #Experience Library #Forward Learning #Meta-MDP #Knowledge Distillation #Non-parametric Adaptation

2025년 11월 10일

[논문리뷰] Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning

본 논문은 대규모 언어 모델(LLMs)이 대화에서 명시적(explicit) 및 암묵적(implicit) 감정을 효과적으로 인식할 수 있는지 탐구하고, 이 분야의 현재 한계점을 극복하는 것을 목표로 합니다. 특히, LLM의 감정 이해 능력을 향상시켜 인간-컴퓨터 상호작용의 자연성과 공감 능력을 증진하고자 합니다.

#Review #Emotion Recognition in Conversation #Large Language Models #Prompt Engineering #Demonstration Retrieval #Curriculum Learning #Fine-tuning #Affective Computing #SOTA

2025년 11월 10일

[논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control Agents

본 논문은 모바일 제어 에이전트 훈련을 위한 고품질의 대규모 데이터셋 인 DigiData를 구축하고, 에이전트 성능을 평가할 수 있는 강력한 벤치마크 인 DigiData-Bench를 제시하는 것을 목표로 합니다.

#Review #Mobile Control Agents #User Interface Automation #Large-Scale Dataset #Benchmarking #LLM Judges #Data Diversity #Task Success Rate

2025년 11월 10일

[논문리뷰] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models

텍스트-이미지 확산 모델을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 문제를 해결하는 것이 목표입니다.

#Review #Diffusion Models #Direct Preference Optimization (DPO)#Safeguarded Learning #Text-to-Image Generation #Preference Alignment #Generative Models #Stable Diffusion

2025년 11월 10일

[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.

#Review #Reinforcement Learning with Verifiable Reward #Competitive Programming #Code Generation #Data Curation #Curriculum Learning #Supervised Fine-tuning #Entropy Expansion

2025년 11월 10일

[논문리뷰] DIMO: Diverse 3D Motion Generation for Arbitrary Objects

본 연구는 기존 4D 생성 모델이 단일 객체에 대해 단일 모션만 생성하거나, 카테고리별로 제한된 모션만을 다루는 한계를 극복하고자 합니다. 단일 이미지 에서 임의의 객체 에 대한 다양한 3D 모션 을 단일 생성 모델 을 통해 단일 포워드 패스 로 즉시 생성하는 것을 목표로 합니다.

#Review #3D Motion Generation #Generative Models #Arbitrary Objects #Neural Key Points #Latent Space #4D Content Generation #Diffusion Models #3D Gaussian Splatting

2025년 11월 10일

[논문리뷰] Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries

본 연구는 RL 후처리 훈련이 기존 VLM의 내재적 추론 능력 경계 를, 특히 시각 중심의 공간 추론 작업에서 확장할 수 있는지 탐색하는 것을 목표로 합니다. 이를 위해, 정밀하게 난이도를 제어할 수 있는 프레임워크인 Ariadne 를 도입하여 VLM의 추론 행동을 체계적으로 조사하고 한계를 확장하고자 합니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Spatial Reasoning #Controllable Framework #RLVR #GRPO #Maze Navigation #Generalization Boundaries

2025년 11월 10일

[논문리뷰] 10 Open Challenges Steering the Future of Vision-Language-Action Models

본 논문은 Vision-Language-Action (VLA) 모델 의 개발과 광범위한 수용을 가속화하기 위해 현재 연구 분야에서 직면한 10가지 주요 개방형 과제를 식별하고 논의하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied AI #Robotics #Multimodal Perception #Cross-Robot Generalization #Hierarchical Planning #World Models #Robot Safety

2025년 11월 10일

[논문리뷰] Visual Spatial Tuning

본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Spatial Reasoning #Spatial Perception #Dataset Creation #Reinforcement Learning #Visuospatial AI #Robotics

2025년 11월 9일

[논문리뷰] VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks

본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 논리적 오류와 신뢰성 문제를 해결하는 것을 목표로 합니다. LLM이 최종 정답을 맞히더라도 추론 과정이 비논리적이거나 근거가 불충분할 수 있는 한계를 극복하고, 고위험 도메인에서의 LLM 신뢰도를 높이고자 합니다.

#Review #Neuro-symbolic AI #Chain-of-Thought #Large Language Models #Logical Consistency #Automated Verification #Fine-tuning #SMT Solvers #Self-Reflection

2025년 11월 9일

[논문리뷰] Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings

대규모 비전-언어 모델(LVLM)이 시각적 정보를 불충분하게 활용하고 텍스트 우선(textual priors)에 과도하게 의존하여 발생하는 환각(hallucinations) 문제를 해결하는 것을 목표로 합니다. 이를 통해 모델의 시각적 grounding을 강화하고 더 균형 잡힌 멀티모달 추론을 촉진하고자 합니다.

#Review #Hallucination Mitigation #Large Vision-Language Models #Textual Embeddings #Multimodal Reasoning #Attention Mechanism #Visual Grounding #Modality Imbalance

2025년 11월 9일

[논문리뷰] Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

본 논문은 대규모 언어 모델(LLM)이 다양한 도덕적 스펙트럼, 특히 악역 캐릭터를 얼마나 설득력 있게 연기할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #LLM #Role-playing #Safety Alignment #Villain #Persona Simulation #Moral Alignment #Benchmark #Character Fidelity

2025년 11월 9일

[논문리뷰] Real-Time Reasoning Agents in Evolving Environments

본 논문은 실시간으로 변화하는 환경에서 대규모 언어 모델(LLM) 기반 에이전트가 논리적이고 시의적절한 판단을 내리는 실시간 추론(Real-Time Reasoning) 이라는 근본적인 과제를 해결하는 것을 목표로 합니다.

#Review #Real-time Reasoning #LLM Agents #Dynamic Environments #Dual-System AI #AgileThinker #Reactive Planning #Cognitive Load #Time Pressure

2025년 11월 9일