[논문리뷰] A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code본 논문은 기존의 LLM 코드 생성 평가 벤치마크가 단편적인 코드 스니펫 에 집중하고, 불안정한 평가 방식 을 사용하며, 실제 리포지토리 컨텍스트 를 반영하지 못하여 AI 생성 코드의 보안을 충분히 평가하지 못하는 문제를 해결하고자 합니다.#Review#AI-Generated Code Security#LLM Evaluation#Repository-Level Benchmark#Code Security#Vulnerability Detection#Static Analysis#Reproducibility#Context-Awareness2025년 9월 1일댓글 수 로딩 중
[논문리뷰] rStar2-Agent: Agentic Reasoning Technical Report본 논문은 대규모 언어 모델(LLM)이 복잡한 수학 추론에서 '더 길게 생각하는' 것을 넘어 '더 스마트하게 생각하도록' 돕는 것을 목표로 합니다. 구체적으로, 에이전트형 강화 학습(RL)을 통해 Python 코딩 도구 를 자율적으로 활용하고 환경 피드백으로부터 학습하여 최첨단 성능을 달성하고자 합니다.#Review#Agentic Reinforcement Learning#Math Reasoning#Code Interpreter#Tool Use#GRPO-RoC#LLM Training Efficiency#Self-Reflection2025년 8월 29일댓글 수 로딩 중
[논문리뷰] USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning본 논문은 스타일 기반 생성(style-driven generation)과 주제 기반 생성(subject-driven generation)이 기존에 별개의 태스크로 다뤄져 상충되는 문제를 해결하고자 합니다.#Review#Style-Driven Generation#Subject-Driven Generation#Disentangled Representation#Reward Learning#Cross-Task Learning#Diffusion Models#Image Customization#Unified Framework2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection본 논문은 대규모 언어 모델(LLM)의 안전 정렬(safety alignment)이 특정 내부 표현 방향에 의해 매개되며 우회될 수 있다는 기존 연구를 바탕으로, 정반대로 안전 정렬을 강화하는 새로운 방법을 제안합니다.#Review#LLM Safety#Alignment Amplification#Rank-One Update#Mechanistic Interpretability#Weight Steering#Jailbreak Robustness#Fine-tuning-free#Safety Injection2025년 8월 29일댓글 수 로딩 중
[논문리뷰] TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning본 논문은 대규모 언어 모델(LLM)의 효율적인 인스트럭션 튜닝을 위한 다양하고 실세계에 적합한 인스트럭션 데이터 를 구축하는 문제를 해결하고자 합니다.#Review#Instruction Augmentation#Fine-tuning#Large Language Models#Task-Centric#Data Diversity#Task Alignment#Breadth-First Search#Constraint Generation2025년 8월 29일댓글 수 로딩 중
[논문리뷰] ROSE: Remove Objects with Side Effects in Videos기존 비디오 객체 제거 모델들이 객체의 그림자, 반사, 조명 변화 등 '측면 효과(side effects)' 를 효과적으로 제거하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Video Object Removal#Side Effects#3D Rendering#Diffusion Transformer#Video Inpainting#Synthetic Data#Difference Mask2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Provable Benefits of In-Tool Learning for Large Language Models본 논문은 대규모 언어 모델(LLM)에서 도구 사용 학습(in-tool learning) 방식이 내부 가중치 학습(in-weight learning) 방식보다 사실 정보 기억 및 회상에 있어 이론적, 실증적으로 우월함을 증명하는 것을 목표로 합니다.#Review#Large Language Models#In-Tool Learning#In-Weight Learning#Factual Recall#Retrieval-Augmented Generation#Scaling Laws#Parameter Efficiency#Catastrophic Forgetting2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning본 논문은 텍스트-투-이미지(T2I) 생성에서 기존 GRPO(Group Relative Policy Optimization) 기반 강화 학습 방법론이 겪는 보상 해킹(reward hacking) 문제를 해결하고, 보다 안정적인 훈련 패러다임을 확립하는 것을 목표로 합니다.#Review#Reinforcement Learning#Text-to-Image Generation#GRPO#Reward Hacking#Pairwise Preference#Reward Model#Stable Optimization#UniGenBench2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD본 연구는 LLM이 다중 턴 대화에서 잘못된 정보에 대한 설득 저항성(robustness) 과 유효한 수정 사항에 대한 수용성(receptiveness) 사이의 균형을 유지하는 능력인 스탠스 변화 역학 을 평가하고 개선하는 것을 목표로 합니다.#Review#Persuasion Dynamics#Large Language Models (LLMs)#Robustness#Gullibility#Receptiveness#Direct Preference Optimization (DPO)#Safety Alignment#Multi-turn Dialogue2025년 8월 29일댓글 수 로딩 중
[논문리뷰] OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning논문은 마스크 기반 이미지 편집(Image Fill, Extend, Object Removal, Text Rendering)의 다양한 하위 태스크에서 기존 모델들의 제한적인 범용성과 태스크별 지도 학습 미세 조정(SFT) 의 비효율성을 해결하고자 합니다.#Review#Image Generation#Mask-Guided Editing#Reinforcement Learning#Human Preference Learning#Vision-Language Models#Multi-Task Learning#Flow Matching2025년 8월 29일댓글 수 로딩 중
[논문리뷰] OnGoal: Tracking and Visualizing Conversational Goals in Multi-Turn Dialogue with Large Language Models다중 턴 대화에서 대규모 언어 모델(LLM) 과의 상호작용이 길고 복잡해짐에 따라, 사용자가 대화 목표 진행 상황 을 효과적으로 평가하고 검토하는 데 겪는 어려움을 해결하는 것이 핵심 연구 목표입니다.#Review#Large Language Models (LLMs)#Human-Computer Interaction (HCI)#Conversational AI#Goal Tracking#Visualization#Multi-Turn Dialogue#User Interface Design#Sensemaking2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Multi-View 3D Point Tracking본 논문은 기존 단안 카메라 트래커의 깊이 모호성 및 가림(occlusion) 문제나, 20개 이상의 카메라와 복잡한 최적화를 요구하는 기존 멀티 카메라 방식의 한계를 극복하고자 합니다.#Review#3D Point Tracking#Multi-View#Transformer#kNN Correlation#Depth Estimation#Dynamic Scenes#Occlusion Handling#Feature Fusion2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Mixture of Contexts for Long Video Generation본 논문은 Diffusion Transformer (DiT) 기반의 장시간 비디오 생성 모델에서 발생하는 quadratic cost의 self-attention 문제로 인한 연산 및 메모리 비효율성을 해결하고, 모델이 긴 시퀀스에 걸쳐 일관된 장기 기억 을 유지하면서 표류하거나 붕괴되지 않도록 하는 것을 목표로 합니다.#Review#Long Video Generation#Diffusion Transformers (DiT)#Sparse Attention#Context Routing#Memory Management#Generative Models#Video Synthesis2025년 8월 29일댓글 수 로딩 중
[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers이 논문은 기존 도구 사용 벤치마크의 한계를 극복하고, LLM 에이전트 가 실제와 같은 복잡한 다단계 작업을 수행할 수 있도록 평가하는 대규모 벤치마크인 MCP-Bench 를 소개합니다. 특히 퍼지 지침 하에서의 도구 검색, 교차 도구 조정 , 정확한 매개변수 제어 , 장기 계획/추론 능력을 평가하는 데 중점을 둡니다.#Review#LLM Agents#Tool Use#Benchmarking#Model Context Protocol (MCP)#Cross-Domain Orchestration#Fuzzy Instructions#Multi-Step Tasks#Real-World Scenarios2025년 8월 29일댓글 수 로딩 중
[논문리뷰] FakeParts: a New Family of AI-Generated DeepFakes본 연구는 미묘하고 국소적인 조작이 가해져 탐지하기 어려운 새로운 형태의 딥페이크인 FakeParts 를 정의하고, 기존 탐지 시스템의 한계를 극복하기 위해 포괄적인 벤치마크 데이터셋 FakePartsBench 를 구축하는 것을 목표로 합니다.#Review#Deepfake Detection#Partial Deepfakes#AI-Generated Video#Benchmark Dataset#Video Forensics#Generative Models#Manipulation Detection#Human Perception2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Dress&Dance: Dress up and Dance as You Like It - Technical Preview본 논문은 정적인 2D 이미지 기반의 가상 착용(virtual try-on) 방식과 기존 비디오 생성 모델의 한계를 극복하여, 사용자가 원하는 옷을 입고 특정 동작(춤)을 수행하는 고품질의 5초 길이, 1152x720 해상도, 24 FPS 가상 착용 비디오를 생성하는 것을 목표로 합니다.#Review#Virtual Try-On#Video Diffusion#Multi-modal Conditioning#Garment Transfer#Pose Animation#Generative AI#Fashion Tech#CondNet2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Collaborative Multi-Modal Coding for High-Quality 3D Generation본 논문은 기존 3D 생성 모델들이 단일 모달리티(예: RGB 이미지)에 의존하여 훈련 데이터의 범위가 제한되고 멀티모달 데이터의 상호 보완적 이점을 간과하는 문제를 해결하고자 합니다.#Review#3D Generation#Multi-modal Learning#Diffusion Models#Triplane Representation#Collaborative Coding#Image-to-3D#Latent Space2025년 8월 29일댓글 수 로딩 중
[논문리뷰] CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification본 논문은 기존 Vision-Language-Action (VLA) 모델의 높은 계산 오버헤드 와 모달리티 간의 의미론적 불일치(semantic fragmentation) 문제를 해결하여, VLA 모델의 확장성과 배포 가능성을 제한하는 요소를 극복하는 것을 목표로 합니다.#Review#Vision-Language-Action Model#Sparsification#Instruction-Driven Routing#Cognition-Aligned AI#Robotics#Computational Efficiency#Multimodal AI2025년 8월 29일댓글 수 로딩 중
[논문리뷰] AWorld: Orchestrating the Training Recipe for Agentic AI본 논문은 에이전트 AI 시스템 개발의 핵심 병목인 비효율적인 경험 생성(experience generation) 문제를 해결하여, 복잡한 환경에서 '학습을 통한 실천(learning from practice)' 패러다임을 실용적이고 확장 가능하게 만드는 것을 목표로 합니다.#Review#Agentic AI#Reinforcement Learning#Distributed Systems#Experience Generation#LLM Fine-tuning#GAIA Benchmark#Scalability#AWORLD Framework2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference전통적인 자동 스케일러가 Prefill-Decode (P/D) 분리형 아키텍처 를 사용하는 대규모 언어 모델(LLM) 추론 환경에서 비효율적이라는 문제에 직면했습니다. 이로 인해 이기종 하드웨어의 비효율적인 사용, 네트워크 병목 현상, 그리고 Prefill 및 Decode 단계 간의 불균형이 발생합니다.#Review#LLM Inference#Autoscaling#Disaggregated Architecture#Heterogeneous Hardware#Resource Management#Topology-aware Scheduling#GPU Utilization2025년 8월 28일댓글 수 로딩 중