Review

[논문리뷰] Droplet3D: Commonsense Priors from Videos Facilitate 3D Generation

3D 데이터 부족 문제를 해결하기 위해 대규모 비디오 데이터에서 얻은 상식 사전(commonsense priors) 을 활용하여 3D 생성 모델의 일반화 능력을 향상시키는 것을 목표로 합니다.

#Review #3D Generation #Video Diffusion Models #Spatial Consistency #Semantic Knowledge #Multi-view Synthesis #Large-scale Dataset #Image-to-3D #Text-to-3D

2025년 9월 1일

[논문리뷰] CLIPSym: Delving into Symmetry Detection with CLIP

본 논문은 기존 대규모 비전-언어 모델(Vision-Language Models, VLMs)인 CLIP 을 활용하여 이미지 내의 반사 및 회전 대칭을 더욱 정확하고 견고하게 탐지하는 것을 목표로 합니다.

#Review #Symmetry Detection #Vision-Language Models #CLIP #Equivariant Networks #Prompt Engineering #Geometric Deep Learning

2025년 9월 1일

[논문리뷰] AHELM: A Holistic Evaluation of Audio-Language Models

오디오-언어 모델(ALMs)의 표준화된 벤치마크 부족 문제를 해결하고, 기존 평가들이 제한된 기능에만 초점을 맞추며 공정성 및 안전성 같은 중요한 측면을 간과하는 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Language Models #Holistic Evaluation #Benchmarking #Multimodality #Fairness #Robustness #Reasoning #Bias Detection

2025년 9월 1일

[논문리뷰] A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers

이 논문은 과학 분야 대규모 언어 모델(Sci-LLMs)의 발전 과정을 데이터 기반과 에이전트 프론티어 관점에서 종합적으로 분석하는 것을 목표로 합니다.

#Review #Scientific LLMs #AI for Science #Scientific Data #Agentic AI #Multimodal Integration #Knowledge Representation #Autonomous Discovery #Data Ecosystems

2025년 9월 1일

[논문리뷰] A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

본 논문은 기존의 LLM 코드 생성 평가 벤치마크가 단편적인 코드 스니펫 에 집중하고, 불안정한 평가 방식 을 사용하며, 실제 리포지토리 컨텍스트 를 반영하지 못하여 AI 생성 코드의 보안을 충분히 평가하지 못하는 문제를 해결하고자 합니다.

#Review #AI-Generated Code Security #LLM Evaluation #Repository-Level Benchmark #Code Security #Vulnerability Detection #Static Analysis #Reproducibility #Context-Awareness

2025년 9월 1일

[논문리뷰] rStar2-Agent: Agentic Reasoning Technical Report

본 논문은 대규모 언어 모델(LLM)이 복잡한 수학 추론에서 '더 길게 생각하는' 것을 넘어 '더 스마트하게 생각하도록' 돕는 것을 목표로 합니다. 구체적으로, 에이전트형 강화 학습(RL)을 통해 Python 코딩 도구 를 자율적으로 활용하고 환경 피드백으로부터 학습하여 최첨단 성능을 달성하고자 합니다.

#Review #Agentic Reinforcement Learning #Math Reasoning #Code Interpreter #Tool Use #GRPO-RoC #LLM Training Efficiency #Self-Reflection

2025년 8월 29일

[논문리뷰] USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

본 논문은 스타일 기반 생성(style-driven generation)과 주제 기반 생성(subject-driven generation)이 기존에 별개의 태스크로 다뤄져 상충되는 문제를 해결하고자 합니다.

#Review #Style-Driven Generation #Subject-Driven Generation #Disentangled Representation #Reward Learning #Cross-Task Learning #Diffusion Models #Image Customization #Unified Framework

2025년 8월 29일

[논문리뷰] Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection

본 논문은 대규모 언어 모델(LLM)의 안전 정렬(safety alignment)이 특정 내부 표현 방향에 의해 매개되며 우회될 수 있다는 기존 연구를 바탕으로, 정반대로 안전 정렬을 강화하는 새로운 방법을 제안합니다.

#Review #LLM Safety #Alignment Amplification #Rank-One Update #Mechanistic Interpretability #Weight Steering #Jailbreak Robustness #Fine-tuning-free #Safety Injection

2025년 8월 29일

[논문리뷰] TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning

본 논문은 대규모 언어 모델(LLM)의 효율적인 인스트럭션 튜닝을 위한 다양하고 실세계에 적합한 인스트럭션 데이터 를 구축하는 문제를 해결하고자 합니다.

#Review #Instruction Augmentation #Fine-tuning #Large Language Models #Task-Centric #Data Diversity #Task Alignment #Breadth-First Search #Constraint Generation

2025년 8월 29일

[논문리뷰] ROSE: Remove Objects with Side Effects in Videos

기존 비디오 객체 제거 모델들이 객체의 그림자, 반사, 조명 변화 등 '측면 효과(side effects)' 를 효과적으로 제거하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #Video Object Removal #Side Effects #3D Rendering #Diffusion Transformer #Video Inpainting #Synthetic Data #Difference Mask

2025년 8월 29일

[논문리뷰] Provable Benefits of In-Tool Learning for Large Language Models

본 논문은 대규모 언어 모델(LLM)에서 도구 사용 학습(in-tool learning) 방식이 내부 가중치 학습(in-weight learning) 방식보다 사실 정보 기억 및 회상에 있어 이론적, 실증적으로 우월함을 증명하는 것을 목표로 합니다.

#Review #Large Language Models #In-Tool Learning #In-Weight Learning #Factual Recall #Retrieval-Augmented Generation #Scaling Laws #Parameter Efficiency #Catastrophic Forgetting

2025년 8월 29일

[논문리뷰] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning

본 논문은 텍스트-투-이미지(T2I) 생성에서 기존 GRPO(Group Relative Policy Optimization) 기반 강화 학습 방법론이 겪는 보상 해킹(reward hacking) 문제를 해결하고, 보다 안정적인 훈련 패러다임을 확립하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Text-to-Image Generation #GRPO #Reward Hacking #Pairwise Preference #Reward Model #Stable Optimization #UniGenBench

2025년 8월 29일

[논문리뷰] Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

본 연구는 LLM이 다중 턴 대화에서 잘못된 정보에 대한 설득 저항성(robustness) 과 유효한 수정 사항에 대한 수용성(receptiveness) 사이의 균형을 유지하는 능력인 스탠스 변화 역학 을 평가하고 개선하는 것을 목표로 합니다.

#Review #Persuasion Dynamics #Large Language Models (LLMs)#Robustness #Gullibility #Receptiveness #Direct Preference Optimization (DPO)#Safety Alignment #Multi-turn Dialogue

2025년 8월 29일

[논문리뷰] OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

논문은 마스크 기반 이미지 편집(Image Fill, Extend, Object Removal, Text Rendering)의 다양한 하위 태스크에서 기존 모델들의 제한적인 범용성과 태스크별 지도 학습 미세 조정(SFT) 의 비효율성을 해결하고자 합니다.

#Review #Image Generation #Mask-Guided Editing #Reinforcement Learning #Human Preference Learning #Vision-Language Models #Multi-Task Learning #Flow Matching

2025년 8월 29일

[논문리뷰] OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn Dialogue with Large Language Models

다중 턴 대화에서 대규모 언어 모델(LLM) 과의 상호작용이 길고 복잡해짐에 따라, 사용자가 대화 목표 진행 상황 을 효과적으로 평가하고 검토하는 데 겪는 어려움을 해결하는 것이 핵심 연구 목표입니다.

#Review #Large Language Models (LLMs)#Human-Computer Interaction (HCI)#Conversational AI #Goal Tracking #Visualization #Multi-Turn Dialogue #User Interface Design #Sensemaking

2025년 8월 29일

[논문리뷰] Multi-View 3D Point Tracking

본 논문은 기존 단안 카메라 트래커의 깊이 모호성 및 가림(occlusion) 문제나, 20개 이상의 카메라와 복잡한 최적화를 요구하는 기존 멀티 카메라 방식의 한계를 극복하고자 합니다.

#Review #3D Point Tracking #Multi-View #Transformer #kNN Correlation #Depth Estimation #Dynamic Scenes #Occlusion Handling #Feature Fusion

2025년 8월 29일

[논문리뷰] Mixture of Contexts for Long Video Generation

본 논문은 Diffusion Transformer (DiT) 기반의 장시간 비디오 생성 모델에서 발생하는 quadratic cost의 self-attention 문제로 인한 연산 및 메모리 비효율성을 해결하고, 모델이 긴 시퀀스에 걸쳐 일관된 장기 기억 을 유지하면서 표류하거나 붕괴되지 않도록 하는 것을 목표로 합니다.

#Review #Long Video Generation #Diffusion Transformers (DiT)#Sparse Attention #Context Routing #Memory Management #Generative Models #Video Synthesis

2025년 8월 29일

[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

이 논문은 기존 도구 사용 벤치마크의 한계를 극복하고, LLM 에이전트 가 실제와 같은 복잡한 다단계 작업을 수행할 수 있도록 평가하는 대규모 벤치마크인 MCP-Bench 를 소개합니다. 특히 퍼지 지침 하에서의 도구 검색, 교차 도구 조정 , 정확한 매개변수 제어 , 장기 계획/추론 능력을 평가하는 데 중점을 둡니다.

#Review #LLM Agents #Tool Use #Benchmarking #Model Context Protocol (MCP)#Cross-Domain Orchestration #Fuzzy Instructions #Multi-Step Tasks #Real-World Scenarios

2025년 8월 29일

[논문리뷰] FakeParts: a New Family of AI-Generated DeepFakes

본 연구는 미묘하고 국소적인 조작이 가해져 탐지하기 어려운 새로운 형태의 딥페이크인 FakeParts 를 정의하고, 기존 탐지 시스템의 한계를 극복하기 위해 포괄적인 벤치마크 데이터셋 FakePartsBench 를 구축하는 것을 목표로 합니다.

#Review #Deepfake Detection #Partial Deepfakes #AI-Generated Video #Benchmark Dataset #Video Forensics #Generative Models #Manipulation Detection #Human Perception

2025년 8월 29일

[논문리뷰] Dress&Dance: Dress up and Dance as You Like It - Technical Preview

본 논문은 정적인 2D 이미지 기반의 가상 착용(virtual try-on) 방식과 기존 비디오 생성 모델의 한계를 극복하여, 사용자가 원하는 옷을 입고 특정 동작(춤)을 수행하는 고품질의 5초 길이, 1152x720 해상도, 24 FPS 가상 착용 비디오를 생성하는 것을 목표로 합니다.

#Review #Virtual Try-On #Video Diffusion #Multi-modal Conditioning #Garment Transfer #Pose Animation #Generative AI #Fashion Tech #CondNet

2025년 8월 29일