Review

[논문리뷰] Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

본 논문은 텍스트 지시 기반의 이미지 및 비디오 색상 편집에서 물리적 일관성 을 유지하며 정교한 제어를 가능하게 하는 미해결 문제를 다룹니다. 기존의 훈련 불필요(training-free) 방법론들이 정확한 색상 제어와 시각적 불일치 문제를 겪는 한계를 극복하고자 합니다.

#Review #Text-Guided Editing #Color Editing #Diffusion Transformers #Training-Free #Multi-Modal AI #Attention Control #Image Manipulation

2025년 8월 20일

[논문리뷰] TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

텍스트-투-이미지 플로우 매칭 모델의 GRPO(Generalized Policy Rejection Optimization) 훈련이 시간적 균일성 가정 과 중간 피드백 신호 부족 으로 인해 인간 선호도 정렬에 비효율적인 문제를 해결하는 것이 목표입니다.

#Review #Flow Matching #Reinforcement Learning #Human Preference Alignment #GRPO #Temporal Credit Assignment #Generative AI #Text-to-Image

2025년 8월 20일

[논문리뷰] Semantic IDs for Joint Generative Search and Recommendation

본 논문은 대규모 언어 모델(LLM)을 활용한 통합 검색 및 추천 시스템 구축을 위해, 항목을 LLM 친화적인 이산 토큰(Semantic ID)으로 효과적으로 표현하는 방법을 제시하고, 공동 태스크에서의 성능 최적화를 목표로 합니다. 특히, 기존의 분리된 시스템을 통합할 때 발생하는 성능 충돌 문제를 해결하고자 합니다.

#Review #Generative Models #Search and Recommendation #Semantic IDs #Bi-Encoder #Quantization #Multi-Task Learning #Retrieval Augmented Generation

2025년 8월 20일

[논문리뷰] Radiance Fields in XR: A Survey on How Radiance Fields are Envisioned and Addressed for XR Research

이 논문은 NeRF 및 3DGS 와 같은 Radiance Field (RF) 기술이 확장 현실(XR) 분야에서 어떻게 구상되고(envisioned) 실제로 구현되었는지(addressed) 사이의 연구 격차를 체계적으로 분석하는 것을 목표로 합니다.

#Review #Radiance Fields #XR #NeRF #3D Gaussian Splatting #View Synthesis #Systematic Review #Immersive Technology

2025년 8월 20일

[논문리뷰] Prompt Orchestration Markup Language

이 논문은 대규모 언어 모델(LLM) 프롬프트의 구조화, 데이터 통합, 형식 민감성 및 개발 도구의 부족이라는 현재의 과제를 해결하고자 합니다.

#Review #Prompt Engineering #Large Language Models #Markup Language #Structured Prompting #IDE Support #Multimodal Data #Styling System #Development Toolkit

2025년 8월 20일

[논문리뷰] OmniTry: Virtual Try-On Anything without Masks

이 논문은 기존 가상 착용(VTON) 기술이 의류에 국한되고 입력 마스크를 필요로 하는 한계를 극복하고자 합니다. 마스크 없이도 주얼리, 액세서리 등 다양한 종류의 착용 가능한 객체 를 가상으로 착용시켜볼 수 있는 범용적인 VTON 프레임워크인 OmniTry 를 개발하여, 실제 응용 분야의 폭넓은 확장을 목표로 합니다.

#Review #Virtual Try-On #Diffusion Model #Mask-Free #Image Inpainting #ID Consistency #Wearable Objects #Generative AI

2025년 8월 20일

[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual References

이 연구는 텍스트 프롬프트나 단일 이미지 참조에 의존하는 기존 이미지 생성 모델의 한계를 극복하고, 다중 시각 참조(multiple visual references)를 활용한 제어 가능한 이미지 생성 이라는 새로운 문제에 초점을 맞춥니다.

#Review #Controllable Image Generation #Multi-modal Generation #Visual References #Image-to-Image #Benchmark #Dataset #MLLM-as-a-Judge

2025년 8월 20일

[논문리뷰] Motion2Motion: Cross-topology Motion Transfer with Sparse Correspondence

이 논문은 골격 토폴로지가 크게 다른 캐릭터 간의 애니메이션 전이 문제를 해결하는 것을 목표로 합니다.

#Review #Motion Transfer #Cross-topology #Sparse Correspondence #Motion Matching #Animation #Training-free #Few-shot Learning

2025년 8월 20일

[논문리뷰] Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation

대규모 언어 모델(LLM)이 답변 생성 과정에서 겪는 과신(overconfidence) 문제를 해결하고, 기존의 거친(coarse-grained) 신뢰도 추정 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #LLMs #Confidence Estimation #Fine-Grained #Generation Process #Calibration #Monte Carlo Sampling #Backward Confidence Integration

2025년 8월 20일

[논문리뷰] MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation

의료 영상 분할 분야에서 SAM(Segment Anything Model) 기반의 미세 조정된 모델들이 특정 작업에서 불균형한 성능과 제한된 일반화 능력을 보이는 문제를 해결하고자 합니다.

#Review #Medical Image Segmentation #Model Merging #Training-Free #SAM #Generalization #Zero-Order Optimization #Bayesian Optimization

2025년 8월 20일

[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

본 논문은 AI 시스템의 청각 지능을 포괄적으로 평가하는 데 있어 기존 벤치마크의 한계를 극복하고, 홀리스틱 오디오 이해 능력 을 종합적으로 측정하기 위한 새롭고 도전적인 벤치마크 MMAU-Pro 를 제안합니다.

#Review #Audio Intelligence #Multimodal AI #Benchmark #Audio-Language Models #Holistic Evaluation #Reasoning #Long-Form Audio #Multicultural Music

2025년 8월 20일

[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.

#Review #Multimodal Browsing #AI Agents #Benchmark #Vision-Language Models #Reasoning #Tool Use #Deep Search

2025년 8월 20일

[논문리뷰] LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

본 논문은 불규칙한 카메라 움직임, 알 수 없는 카메라 자세, 방대한 장면 크기 등 일반적인 긴 비디오에서 발생하는 Novel View Synthesis (NVS)의 핵심 문제 를 해결하고자 합니다.

#Review #Novel View Synthesis #3D Gaussian Splatting #Unposed Reconstruction #Camera Pose Estimation #Incremental Optimization #Octree #Long Videos

2025년 8월 20일

[논문리뷰] Leveraging Large Language Models for Predictive Analysis of Human Misery

본 연구는 자연어 시나리오 설명으로부터 인간이 인지하는 불행 점수를 예측하는 것을 목표로 합니다. 이는 0에서 100까지의 척도 를 사용하는 회귀 문제로, 대규모 언어 모델(LLM)의 주관적인 감정 추론 능력과 피드백 기반 적응성을 평가하고자 합니다.

#Review #Large Language Models (LLMs)#Affective Computing #Misery Score Prediction #Prompt Engineering #Few-shot Learning #Gamified Evaluation #Feedback-driven Adaptation

2025년 8월 20일

[논문리뷰] Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

본 논문은 팟캐스트와 같은 롱폼 오디오 도메인에서 개인화된 추천 시스템 평가의 어려움(노출 편향, A/B 테스트의 높은 비용 및 제약)을 해결하고자 합니다. 특히, 배포 전 모델 선택 단계에서 확장 가능하고 신뢰할 수 있으며 해석 가능한 평가 방법론의 부재라는 핵심 문제를 다룹니다.

#Review #Podcast Recommendation #LLM-as-a-Judge #Offline Evaluation #User Profiling #Recommender Systems #Natural Language Processing

2025년 8월 20일

[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.

#Review #Embodied AI #Robotic Manipulation #Reinforcement Learning #Vision-Language Model #Pointing #Zero-shot Generalization

2025년 8월 20일

[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

기존 비디오 추천 시스템의 한계인 저수준 시각/음성 특징 및 메타데이터의 의미론적 깊이 부족 문제를 해결하는 것이 목표입니다. 사용자의 의도, 유머, 세계 지식과 같은 고수준의 의미를 포착하여 비디오 클립이 시청자에게 공감을 얻는 이유를 파악하고, 이를 통해 개인화된 추천의 질을 향상시키고자 합니다.

#Review #Multimodal Large Language Models #Video Recommendation #Zero-Shot Learning #Content-Based Filtering #Natural Language Processing #Foundation Models

2025년 8월 20일

[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection

본 논문은 기존의 Sparse Autoencoder (SAE) 기반 LLM 조향 방식이 요구하는 대규모 대조 데이터셋 또는 방대한 활성화 저장 공간 의 한계를 해결하고자 합니다.

#Review #Sparse Autoencoders #LLM Steering #Feature Selection #Correlation Analysis #AI Safety #Bias Mitigation #Mechanistic Interpretability

2025년 8월 20일

[논문리뷰] Copyright Protection for Large Language Models: A Survey of Methods, Challenges, and Trends

이 논문은 대규모 언어 모델(LLM)의 높은 개발 비용, 독점적 가치 및 오용 가능성을 고려할 때 필수적인 저작권 보호 에 대한 포괄적인 조사를 제공합니다.

#Review #LLM Copyright Protection #Model Fingerprinting #Text Watermarking #Invasive Fingerprinting #Intrinsic Fingerprinting #Intellectual Property #Digital Rights Management #Backdoor Watermarking

2025년 8월 20일

[논문리뷰] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL

본 논문은 기존의 다중 에이전트 시스템(MAS)과 도구 통합 추론(TIR) 패러다임이 가진 한계를 극복하고, 단일 LLM(Large Language Model) 내에서 다중 에이전트 협업 능력을 내재화하여 복잡한 문제 해결을 위한 종단 간(End-to-End) 에이전트 파운데이션 모델(AFM)을 구축하는 것을 목표로 합니다.

#Review #Chain-of-Agents #Agent Foundation Models #Multi-Agent Systems #Tool-Integrated Reasoning #Multi-agent Distillation #Agentic Reinforcement Learning #LLMs #End-to-End Learning

2025년 8월 20일