[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer본 논문은 텍스트 지시 기반의 이미지 및 비디오 색상 편집에서 물리적 일관성 을 유지하며 정교한 제어를 가능하게 하는 미해결 문제를 다룹니다. 기존의 훈련 불필요(training-free) 방법론들이 정확한 색상 제어와 시각적 불일치 문제를 겪는 한계를 극복하고자 합니다.#Review#Text-Guided Editing#Color Editing#Diffusion Transformers#Training-Free#Multi-Modal AI#Attention Control#Image Manipulation2025년 8월 20일댓글 수 로딩 중
[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.#Review#Flow Matching#Reinforcement Learning#Human Preference Alignment#GRPO#Temporal Credit Assignment#Generative AI#Text-to-Image2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Semantic IDs for Joint Generative Search and Recommendation본 논문은 대규모 언어 모델(LLM)을 활용한 통합 검색 및 추천 시스템 구축을 위해, 항목을 LLM 친화적인 이산 토큰(Semantic ID)으로 효과적으로 표현하는 방법을 제시하고, 공동 태스크에서의 성능 최적화를 목표로 합니다. 특히, 기존의 분리된 시스템을 통합할 때 발생하는 성능 충돌 문제를 해결하고자 합니다.#Review#Generative Models#Search and Recommendation#Semantic IDs#Bi-Encoder#Quantization#Multi-Task Learning#Retrieval Augmented Generation2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Radiance Fields in XR: A Survey on How Radiance Fields are Envisioned and Addressed for XR Research이 논문은 NeRF 및 3DGS 와 같은 Radiance Field (RF) 기술이 확장 현실(XR) 분야에서 어떻게 구상되고(envisioned) 실제로 구현되었는지(addressed) 사이의 연구 격차를 체계적으로 분석하는 것을 목표로 합니다.#Review#Radiance Fields#XR#NeRF#3D Gaussian Splatting#View Synthesis#Systematic Review#Immersive Technology2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Prompt Orchestration Markup Language이 논문은 대규모 언어 모델(LLM) 프롬프트의 구조화, 데이터 통합, 형식 민감성 및 개발 도구의 부족이라는 현재의 과제를 해결하고자 합니다.#Review#Prompt Engineering#Large Language Models#Markup Language#Structured Prompting#IDE Support#Multimodal Data#Styling System#Development Toolkit2025년 8월 20일댓글 수 로딩 중
[논문리뷰] OmniTry: Virtual Try-On Anything without Masks이 논문은 기존 가상 착용(VTON) 기술이 의류에 국한되고 입력 마스크를 필요로 하는 한계를 극복하고자 합니다. 마스크 없이도 주얼리, 액세서리 등 다양한 종류의 착용 가능한 객체 를 가상으로 착용시켜볼 수 있는 범용적인 VTON 프레임워크인 OmniTry 를 개발하여, 실제 응용 분야의 폭넓은 확장을 목표로 합니다.#Review#Virtual Try-On#Diffusion Model#Mask-Free#Image Inpainting#ID Consistency#Wearable Objects#Generative AI2025년 8월 20일댓글 수 로딩 중
[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual References이 연구는 텍스트 프롬프트나 단일 이미지 참조에 의존하는 기존 이미지 생성 모델의 한계를 극복하고, 다중 시각 참조(multiple visual references)를 활용한 제어 가능한 이미지 생성 이라는 새로운 문제에 초점을 맞춥니다.#Review#Controllable Image Generation#Multi-modal Generation#Visual References#Image-to-Image#Benchmark#Dataset#MLLM-as-a-Judge2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Motion2Motion: Cross-topology Motion Transfer with Sparse Correspondence이 논문은 골격 토폴로지가 크게 다른 캐릭터 간의 애니메이션 전이 문제를 해결하는 것을 목표로 합니다.#Review#Motion Transfer#Cross-topology#Sparse Correspondence#Motion Matching#Animation#Training-free#Few-shot Learning2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation대규모 언어 모델(LLM)이 답변 생성 과정에서 겪는 과신(overconfidence) 문제를 해결하고, 기존의 거친(coarse-grained) 신뢰도 추정 방식의 한계를 극복하는 것을 목표로 합니다.#Review#LLMs#Confidence Estimation#Fine-Grained#Generation Process#Calibration#Monte Carlo Sampling#Backward Confidence Integration2025년 8월 20일댓글 수 로딩 중
[논문리뷰] MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation의료 영상 분할 분야에서 SAM(Segment Anything Model) 기반의 미세 조정된 모델들이 특정 작업에서 불균형한 성능과 제한된 일반화 능력을 보이는 문제를 해결하고자 합니다.#Review#Medical Image Segmentation#Model Merging#Training-Free#SAM#Generalization#Zero-Order Optimization#Bayesian Optimization2025년 8월 20일댓글 수 로딩 중
[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence본 논문은 AI 시스템의 청각 지능을 포괄적으로 평가하는 데 있어 기존 벤치마크의 한계를 극복하고, 홀리스틱 오디오 이해 능력 을 종합적으로 측정하기 위한 새롭고 도전적인 벤치마크 MMAU-Pro 를 제안합니다.#Review#Audio Intelligence#Multimodal AI#Benchmark#Audio-Language Models#Holistic Evaluation#Reasoning#Long-Form Audio#Multicultural Music2025년 8월 20일댓글 수 로딩 중
[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.#Review#Multimodal Browsing#AI Agents#Benchmark#Vision-Language Models#Reasoning#Tool Use#Deep Search2025년 8월 20일댓글 수 로딩 중
[논문리뷰] LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos본 논문은 불규칙한 카메라 움직임, 알 수 없는 카메라 자세, 방대한 장면 크기 등 일반적인 긴 비디오에서 발생하는 Novel View Synthesis (NVS)의 핵심 문제 를 해결하고자 합니다.#Review#Novel View Synthesis#3D Gaussian Splatting#Unposed Reconstruction#Camera Pose Estimation#Incremental Optimization#Octree#Long Videos2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Leveraging Large Language Models for Predictive Analysis of Human Misery본 연구는 자연어 시나리오 설명으로부터 인간이 인지하는 불행 점수를 예측하는 것을 목표로 합니다. 이는 0에서 100까지의 척도 를 사용하는 회귀 문제로, 대규모 언어 모델(LLM)의 주관적인 감정 추론 능력과 피드백 기반 적응성을 평가하고자 합니다.#Review#Large Language Models (LLMs)#Affective Computing#Misery Score Prediction#Prompt Engineering#Few-shot Learning#Gamified Evaluation#Feedback-driven Adaptation2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge본 논문은 팟캐스트와 같은 롱폼 오디오 도메인에서 개인화된 추천 시스템 평가의 어려움(노출 편향, A/B 테스트의 높은 비용 및 제약)을 해결하고자 합니다. 특히, 배포 전 모델 선택 단계에서 확장 가능하고 신뢰할 수 있으며 해석 가능한 평가 방법론의 부재라는 핵심 문제를 다룹니다.#Review#Podcast Recommendation#LLM-as-a-Judge#Offline Evaluation#User Profiling#Recommender Systems#Natural Language Processing2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.#Review#Embodied AI#Robotic Manipulation#Reinforcement Learning#Vision-Language Model#Pointing#Zero-shot Generalization2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations기존 비디오 추천 시스템의 한계인 저수준 시각/음성 특징 및 메타데이터의 의미론적 깊이 부족 문제를 해결하는 것이 목표입니다. 사용자의 의도, 유머, 세계 지식과 같은 고수준의 의미를 포착하여 비디오 클립이 시청자에게 공감을 얻는 이유를 파악하고, 이를 통해 개인화된 추천의 질을 향상시키고자 합니다.#Review#Multimodal Large Language Models#Video Recommendation#Zero-Shot Learning#Content-Based Filtering#Natural Language Processing#Foundation Models2025년 8월 20일댓글 수 로딩 중
[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection본 논문은 기존의 Sparse Autoencoder (SAE) 기반 LLM 조향 방식이 요구하는 대규모 대조 데이터셋 또는 방대한 활성화 저장 공간 의 한계를 해결하고자 합니다.#Review#Sparse Autoencoders#LLM Steering#Feature Selection#Correlation Analysis#AI Safety#Bias Mitigation#Mechanistic Interpretability2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Copyright Protection for Large Language Models: A Survey of Methods, Challenges, and Trends이 논문은 대규모 언어 모델(LLM)의 높은 개발 비용, 독점적 가치 및 오용 가능성을 고려할 때 필수적인 저작권 보호 에 대한 포괄적인 조사를 제공합니다.#Review#LLM Copyright Protection#Model Fingerprinting#Text Watermarking#Invasive Fingerprinting#Intrinsic Fingerprinting#Intellectual Property#Digital Rights Management#Backdoor Watermarking2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL본 논문은 기존의 다중 에이전트 시스템(MAS)과 도구 통합 추론(TIR) 패러다임이 가진 한계를 극복하고, 단일 LLM(Large Language Model) 내에서 다중 에이전트 협업 능력을 내재화하여 복잡한 문제 해결을 위한 종단 간(End-to-End) 에이전트 파운데이션 모델(AFM)을 구축하는 것을 목표로 합니다.#Review#Chain-of-Agents#Agent Foundation Models#Multi-Agent Systems#Tool-Integrated Reasoning#Multi-agent Distillation#Agentic Reinforcement Learning#LLMs#End-to-End Learning2025년 8월 20일댓글 수 로딩 중