최신 포스트

[논문리뷰] OmniTry: Virtual Try-On Anything without Masks

이 논문은 기존 가상 착용(VTON) 기술이 의류에 국한되고 입력 마스크를 필요로 하는 한계를 극복하고자 합니다. 마스크 없이도 주얼리, 액세서리 등 다양한 종류의 착용 가능한 객체 를 가상으로 착용시켜볼 수 있는 범용적인 VTON 프레임워크인 OmniTry 를 개발하여, 실제 응용 분야의 폭넓은 확장을 목표로 합니다.

#Review #Virtual Try-On #Diffusion Model #Mask-Free #Image Inpainting #ID Consistency #Wearable Objects #Generative AI

2025년 8월 20일

[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual References

이 연구는 텍스트 프롬프트나 단일 이미지 참조에 의존하는 기존 이미지 생성 모델의 한계를 극복하고, 다중 시각 참조(multiple visual references)를 활용한 제어 가능한 이미지 생성 이라는 새로운 문제에 초점을 맞춥니다.

#Review #Controllable Image Generation #Multi-modal Generation #Visual References #Image-to-Image #Benchmark #Dataset #MLLM-as-a-Judge

2025년 8월 20일

[논문리뷰] Motion2Motion: Cross-topology Motion Transfer with Sparse Correspondence

이 논문은 골격 토폴로지가 크게 다른 캐릭터 간의 애니메이션 전이 문제를 해결하는 것을 목표로 합니다.

#Review #Motion Transfer #Cross-topology #Sparse Correspondence #Motion Matching #Animation #Training-free #Few-shot Learning

2025년 8월 20일

[논문리뷰] Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation

대규모 언어 모델(LLM)이 답변 생성 과정에서 겪는 과신(overconfidence) 문제를 해결하고, 기존의 거친(coarse-grained) 신뢰도 추정 방식의 한계를 극복하는 것을 목표로 합니다.

#Review #LLMs #Confidence Estimation #Fine-Grained #Generation Process #Calibration #Monte Carlo Sampling #Backward Confidence Integration

2025년 8월 20일

[논문리뷰] MedSAMix: A Training-Free Model Merging Approach for Medical Image Segmentation

의료 영상 분할 분야에서 SAM(Segment Anything Model) 기반의 미세 조정된 모델들이 특정 작업에서 불균형한 성능과 제한된 일반화 능력을 보이는 문제를 해결하고자 합니다.

#Review #Medical Image Segmentation #Model Merging #Training-Free #SAM #Generalization #Zero-Order Optimization #Bayesian Optimization

2025년 8월 20일

[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

본 논문은 AI 시스템의 청각 지능을 포괄적으로 평가하는 데 있어 기존 벤치마크의 한계를 극복하고, 홀리스틱 오디오 이해 능력 을 종합적으로 측정하기 위한 새롭고 도전적인 벤치마크 MMAU-Pro 를 제안합니다.

#Review #Audio Intelligence #Multimodal AI #Benchmark #Audio-Language Models #Holistic Evaluation #Reasoning #Long-Form Audio #Multicultural Music

2025년 8월 20일

[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.

#Review #Multimodal Browsing #AI Agents #Benchmark #Vision-Language Models #Reasoning #Tool Use #Deep Search

2025년 8월 20일

[논문리뷰] LongSplat: Robust Unposed 3D Gaussian Splatting for Casual Long Videos

본 논문은 불규칙한 카메라 움직임, 알 수 없는 카메라 자세, 방대한 장면 크기 등 일반적인 긴 비디오에서 발생하는 Novel View Synthesis (NVS)의 핵심 문제 를 해결하고자 합니다.

#Review #Novel View Synthesis #3D Gaussian Splatting #Unposed Reconstruction #Camera Pose Estimation #Incremental Optimization #Octree #Long Videos

2025년 8월 20일

[논문리뷰] Leveraging Large Language Models for Predictive Analysis of Human Misery

본 연구는 자연어 시나리오 설명으로부터 인간이 인지하는 불행 점수를 예측하는 것을 목표로 합니다. 이는 0에서 100까지의 척도 를 사용하는 회귀 문제로, 대규모 언어 모델(LLM)의 주관적인 감정 추론 능력과 피드백 기반 적응성을 평가하고자 합니다.

#Review #Large Language Models (LLMs)#Affective Computing #Misery Score Prediction #Prompt Engineering #Few-shot Learning #Gamified Evaluation #Feedback-driven Adaptation

2025년 8월 20일

[논문리뷰] Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

본 논문은 팟캐스트와 같은 롱폼 오디오 도메인에서 개인화된 추천 시스템 평가의 어려움(노출 편향, A/B 테스트의 높은 비용 및 제약)을 해결하고자 합니다. 특히, 배포 전 모델 선택 단계에서 확장 가능하고 신뢰할 수 있으며 해석 가능한 평가 방법론의 부재라는 핵심 문제를 다룹니다.

#Review #Podcast Recommendation #LLM-as-a-Judge #Offline Evaluation #User Profiling #Recommender Systems #Natural Language Processing

2025년 8월 20일

[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation

본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.

#Review #Embodied AI #Robotic Manipulation #Reinforcement Learning #Vision-Language Model #Pointing #Zero-shot Generalization

2025년 8월 20일

[논문리뷰] Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

기존 비디오 추천 시스템의 한계인 저수준 시각/음성 특징 및 메타데이터의 의미론적 깊이 부족 문제를 해결하는 것이 목표입니다. 사용자의 의도, 유머, 세계 지식과 같은 고수준의 의미를 포착하여 비디오 클립이 시청자에게 공감을 얻는 이유를 파악하고, 이를 통해 개인화된 추천의 질을 향상시키고자 합니다.

#Review #Multimodal Large Language Models #Video Recommendation #Zero-Shot Learning #Content-Based Filtering #Natural Language Processing #Foundation Models

2025년 8월 20일

[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection

본 논문은 기존의 Sparse Autoencoder (SAE) 기반 LLM 조향 방식이 요구하는 대규모 대조 데이터셋 또는 방대한 활성화 저장 공간 의 한계를 해결하고자 합니다.

#Review #Sparse Autoencoders #LLM Steering #Feature Selection #Correlation Analysis #AI Safety #Bias Mitigation #Mechanistic Interpretability

2025년 8월 20일

[논문리뷰] Copyright Protection for Large Language Models: A Survey of Methods, Challenges, and Trends

이 논문은 대규모 언어 모델(LLM)의 높은 개발 비용, 독점적 가치 및 오용 가능성을 고려할 때 필수적인 저작권 보호 에 대한 포괄적인 조사를 제공합니다.

#Review #LLM Copyright Protection #Model Fingerprinting #Text Watermarking #Invasive Fingerprinting #Intrinsic Fingerprinting #Intellectual Property #Digital Rights Management #Backdoor Watermarking

2025년 8월 20일

[논문리뷰] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL

본 논문은 기존의 다중 에이전트 시스템(MAS)과 도구 통합 추론(TIR) 패러다임이 가진 한계를 극복하고, 단일 LLM(Large Language Model) 내에서 다중 에이전트 협업 능력을 내재화하여 복잡한 문제 해결을 위한 종단 간(End-to-End) 에이전트 파운데이션 모델(AFM)을 구축하는 것을 목표로 합니다.

#Review #Chain-of-Agents #Agent Foundation Models #Multi-Agent Systems #Tool-Integrated Reasoning #Multi-agent Distillation #Agentic Reinforcement Learning #LLMs #End-to-End Learning

2025년 8월 20일

[논문리뷰] CAMAR: Continuous Actions Multi-Agent Routing

이 논문은 기존 다중 에이전트 강화 학습(MARL) 벤치마크가 연속적인 상태 및 행동 공간, 복잡한 조정 및 계획 작업을 충분히 지원하지 못하는 한계를 해결하고자 합니다.

#Review #Multi-Agent Reinforcement Learning #Continuous Control #Pathfinding #MARL Benchmark #GPU Acceleration #Robotics Simulation #Scalability #Heterogeneous Agents

2025년 8월 20일

[논문리뷰] Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

본 연구는 대규모 언어 모델(LLMs)이 인간과 비교하여 도덕적 차원을 어떻게 이해하는지 평가하는 것을 목표로 합니다. 특히, 기존의 확정론적 정답(ground-truth) 가정에서 벗어나 어노테이터 불일치를 베이지안 방식으로 모델링 하여 인간의 내재된 불확실성과 모델의 도메인 민감도를 포착하고자 합니다.

#Review #Large Language Models #Moral Reasoning #Bayesian Evaluation #Uncertainty Quantification #Natural Language Processing #Soft Labels

2025년 8월 20일

[논문리뷰] Advances in Speech Separation: Techniques, Challenges, and Future Trends

본 논문은 '칵테일 파티 문제' 해결을 목표로 하는 DNN 기반 음성 분리 기술 에 대한 포괄적이고 체계적인 조사를 제공합니다. 빠르게 진화하는 이 분야의 파편화된 이해를 해소하고, 다양한 아키텍처, 학습 패러다임 및 공정한 정량적 평가에 대한 기존 조사들의 격차를 메우는 것을 목표로 합니다.

#Review #Speech Separation #Deep Neural Networks #Cocktail Party Problem #Transformer Architecture #Unsupervised Learning #Supervised Learning #Evaluation Metrics #Datasets

2025년 8월 20일

[논문리뷰] A Stitch in Time Saves Nine: Proactive Self-Refinement for Language Models

대규모 언어 모델(LLM)이 고정된 반복 횟수와 사후(post-hoc) 방식에 의존하는 기존 자기 개선(self-refinement) 방법의 한계를 극복하고자 합니다.

#Review #Self-Refinement #Language Models #Reinforcement Learning #Proactive AI #Generation Process #Markov Decision Process #Adaptive Learning #LLM Efficiency

2025년 8월 20일

[논문리뷰] When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs

본 연구는 LLM이 프롬프트 구문 및 형식의 미묘한 비의미적 변화에 매우 민감하게 반응하는 문제를 해결하고자 합니다.

#Review #LLM Robustness #Prompt Sensitivity #In-Context Learning #Fine-Tuning #Batch Calibration #Template Ensembles #Distribution Shift

2025년 8월 19일