[논문리뷰] MPJudge: Towards Perceptual Assessment of Music-Induced Paintings음악에 의해 영감을 받은 그림의 지각적 일관성을 평가하는 어려운 과제를 해결하는 것을 목표로 합니다. 기존 감정 기반 접근 방식의 한계(불정확성 및 감정 외 다른 지각적 단서 간과)를 극복하고, 음악과 시각 예술 간의 지각적 일관성을 직접적으로 모델링하는 새로운 프레임워크를 제안하고자 합니다.#Review#Music-Painting Cross-Modal#Perceptual Assessment#Modality-Adaptive Normalization#Direct Preference Optimization#Cross-Modal Fusion#Dataset Annotation#Affective Computing2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale본 논문은 시각적 수학을 넘어선 복합적인 추론 구조를 갖춘 대규모, 비전 중심 추론 데이터셋 의 부족 문제를 해결하는 것을 목표로 합니다.#Review#Visual Reasoning#Compositional AI#Vision-Language Models#Data Synthesis#Chain-of-Thought#Reinforcement Learning#Multimodal Transfer#Grounded Reasoning2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks본 논문은 기존 임베딩 모델의 불투명한 훈련 데이터 및 방법론 문제를 해결하고자, 다국어 및 교차 언어 태스크에서 최첨단 성능을 달성하는 완전 오픈 소스 범용 텍스트 임베딩 모델인 llama-embed-nemotron-8b 를 개발하는 것을 목표로 합니다.#Review#Text Embedding#Multilingual#Cross-Lingual#Contrastive Learning#Model Merging#Synthetic Data Generation#Instruction-Tuning#LLM2025년 11월 10일댓글 수 로딩 중
[논문리뷰] LUT-LLM: Efficient Large Language Model Inference with Memory-based Computations on FPGAs본 논문은 효율적인 단일 배치 대규모 언어 모델(LLM) 추론을 위해 FPGA 의 장점을 활용하는 것을 목표로 합니다. 특히, 기존 산술 기반 연산에서 메모리 기반 연산 으로 전환하여 GPU 대비 FPGA의 성능 및 에너지 효율성 한계를 극복하고, 온디바이스 AI 구현을 위한 핵심 기술을 개발하고자 합니다.#Review#FPGA#Large Language Models (LLM)#Inference Optimization#Memory-based Computation#Vector Quantization#Table Lookup#Hardware Acceleration2025년 11월 10일댓글 수 로딩 중
[논문리뷰] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction이 논문은 기존 딥-리서치 에이전트들이 단일 확장 컨텍스트 창에 정보를 축적하는 mono-contextual paradigm으로 인해 발생하는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제를 해결하는 것을 목표로 합니다.#Review#Long-Horizon Agents#Markov Decision Process#Workspace Reconstruction#Reinforcement Learning#Context Management#Iterative Deep Research#LLM Agents#Efficiency-Aware Policy Optimization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of Agents본 논문은 LLM 및 AI 에이전트의 장기 학습 및 지속적인 상호작용을 가능하게 하는 메모리 시스템에서 발생하는 기억 환각(memory hallucinations) 문제를 해결하고자 합니다.#Review#Memory Systems#AI Agents#Hallucination Detection#Evaluation Benchmark#Long-term Memory#Memory Extraction#Memory Updating#Question Answering2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions본 논문은 기존 텍스트-이미지(T2I) 모델의 낮은 제어 가능성과 표현력 부족 문제를 해결하는 것을 목표로 합니다. 짧은 텍스트 프롬프트와 풍부한 시각적 출력 사이의 불일치로 인해 모델이 세부 정보를 임의로 채우는 경향이 있으며, 이는 전문적인 사용에 필요한 정밀한 제어를 제한합니다.#Review#Text-to-Image Generation#Structured Captions#LLM Fusion#Controllability#Image Generation Evaluation#Diffusion Models#DimFusion#TaBR2025년 11월 10일댓글 수 로딩 중
[논문리뷰] FLEX: Continuous Agent Evolution via Forward Learning from Experience본 논문의 핵심 목표는 기존 LLM(Large Language Model) 에이전트의 고정된 특성, 경험 기반 학습의 부재, 파라미터 최적화의 높은 비용 및 카타스트로픽 망각 문제점을 해결하는 것입니다.#Review#LLM Agents#Continuous Learning#Experience Library#Forward Learning#Meta-MDP#Knowledge Distillation#Non-parametric Adaptation2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning본 논문은 대규모 언어 모델(LLMs)이 대화에서 명시적(explicit) 및 암묵적(implicit) 감정을 효과적으로 인식할 수 있는지 탐구하고, 이 분야의 현재 한계점을 극복하는 것을 목표로 합니다. 특히, LLM의 감정 이해 능력을 향상시켜 인간-컴퓨터 상호작용의 자연성과 공감 능력을 증진하고자 합니다.#Review#Emotion Recognition in Conversation#Large Language Models#Prompt Engineering#Demonstration Retrieval#Curriculum Learning#Fine-tuning#Affective Computing#SOTA2025년 11월 10일댓글 수 로딩 중
[논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control Agents본 논문은 모바일 제어 에이전트 훈련을 위한 고품질의 대규모 데이터셋 인 DigiData를 구축하고, 에이전트 성능을 평가할 수 있는 강력한 벤치마크 인 DigiData-Bench를 제시하는 것을 목표로 합니다.#Review#Mobile Control Agents#User Interface Automation#Large-Scale Dataset#Benchmarking#LLM Judges#Data Diversity#Task Success Rate2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models텍스트-이미지 확산 모델을 인간의 선호도에 맞춰 정렬하는 과정에서 발생하는 문제를 해결하는 것이 목표입니다.#Review#Diffusion Models#Direct Preference Optimization (DPO)#Safeguarded Learning#Text-to-Image Generation#Preference Alignment#Generative Models#Stable Diffusion2025년 11월 10일댓글 수 로딩 중
[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.#Review#Reinforcement Learning with Verifiable Reward#Competitive Programming#Code Generation#Data Curation#Curriculum Learning#Supervised Fine-tuning#Entropy Expansion2025년 11월 10일댓글 수 로딩 중
[논문리뷰] DIMO: Diverse 3D Motion Generation for Arbitrary Objects본 연구는 기존 4D 생성 모델이 단일 객체에 대해 단일 모션만 생성하거나, 카테고리별로 제한된 모션만을 다루는 한계를 극복하고자 합니다. 단일 이미지 에서 임의의 객체 에 대한 다양한 3D 모션 을 단일 생성 모델 을 통해 단일 포워드 패스 로 즉시 생성하는 것을 목표로 합니다.#Review#3D Motion Generation#Generative Models#Arbitrary Objects#Neural Key Points#Latent Space#4D Content Generation#Diffusion Models#3D Gaussian Splatting2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries본 연구는 RL 후처리 훈련이 기존 VLM의 내재적 추론 능력 경계 를, 특히 시각 중심의 공간 추론 작업에서 확장할 수 있는지 탐색하는 것을 목표로 합니다. 이를 위해, 정밀하게 난이도를 제어할 수 있는 프레임워크인 Ariadne 를 도입하여 VLM의 추론 행동을 체계적으로 조사하고 한계를 확장하고자 합니다.#Review#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Spatial Reasoning#Controllable Framework#RLVR#GRPO#Maze Navigation#Generalization Boundaries2025년 11월 10일댓글 수 로딩 중
[논문리뷰] 10 Open Challenges Steering the Future of Vision-Language-Action Models본 논문은 Vision-Language-Action (VLA) 모델 의 개발과 광범위한 수용을 가속화하기 위해 현재 연구 분야에서 직면한 10가지 주요 개방형 과제를 식별하고 논의하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied AI#Robotics#Multimodal Perception#Cross-Robot Generalization#Hierarchical Planning#World Models#Robot Safety2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Visual Spatial Tuning본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Spatial Reasoning#Spatial Perception#Dataset Creation#Reinforcement Learning#Visuospatial AI#Robotics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VeriCoT: Neuro-symbolic Chain-of-Thought Validation via Logical Consistency Checks본 논문은 대규모 언어 모델(LLM)의 Chain-of-Thought (CoT) 추론 과정에서 발생하는 논리적 오류와 신뢰성 문제를 해결하는 것을 목표로 합니다. LLM이 최종 정답을 맞히더라도 추론 과정이 비논리적이거나 근거가 불충분할 수 있는 한계를 극복하고, 고위험 도메인에서의 LLM 신뢰도를 높이고자 합니다.#Review#Neuro-symbolic AI#Chain-of-Thought#Large Language Models#Logical Consistency#Automated Verification#Fine-tuning#SMT Solvers#Self-Reflection2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Towards Mitigating Hallucinations in Large Vision-Language Models by Refining Textual Embeddings대규모 비전-언어 모델(LVLM)이 시각적 정보를 불충분하게 활용하고 텍스트 우선(textual priors)에 과도하게 의존하여 발생하는 환각(hallucinations) 문제를 해결하는 것을 목표로 합니다. 이를 통해 모델의 시각적 grounding을 강화하고 더 균형 잡힌 멀티모달 추론을 촉진하고자 합니다.#Review#Hallucination Mitigation#Large Vision-Language Models#Textual Embeddings#Multimodal Reasoning#Attention Mechanism#Visual Grounding#Modality Imbalance2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Too Good to be Bad: On the Failure of LLMs to Role-Play Villains본 논문은 대규모 언어 모델(LLM)이 다양한 도덕적 스펙트럼, 특히 악역 캐릭터를 얼마나 설득력 있게 연기할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM#Role-playing#Safety Alignment#Villain#Persona Simulation#Moral Alignment#Benchmark#Character Fidelity2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Real-Time Reasoning Agents in Evolving Environments본 논문은 실시간으로 변화하는 환경에서 대규모 언어 모델(LLM) 기반 에이전트가 논리적이고 시의적절한 판단을 내리는 실시간 추론(Real-Time Reasoning) 이라는 근본적인 과제를 해결하는 것을 목표로 합니다.#Review#Real-time Reasoning#LLM Agents#Dynamic Environments#Dual-System AI#AgileThinker#Reactive Planning#Cognitive Load#Time Pressure2025년 11월 9일댓글 수 로딩 중