[논문리뷰] UniVerse-1: Unified Audio-Video Generation via Stitching of Experts본 논문은 기존 비디오 생성 모델 들이 시각적 도메인에만 집중하여 오디오-비디오의 다중 모달 특성을 간과하는 문제를 해결하고, Google Veo3 와 같은 폐쇄형 시스템에 필적하는 통합된 오디오-비디오 생성 모델 인 UniVerse-1 을 오픈 소스로 개발하는 것을 목표로 합니다.#Review#Unified Audio-Video Generation#Stitching of Experts (SoE)#Multimodal Diffusion#Online Annotation#Cross-modal Noise Correlation#Foundation Models#Verse-Bench2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet본 논문은 지식 집약적 태스크에서 Test-Time Scaling 기법이 모델의 정확도와 환각(hallucination) 감소에 효과적인지 종합적으로 평가하는 것을 목표로 합니다.#Review#Test-Time Scaling#Reasoning Models#Knowledge-Intensive Tasks#Hallucinations#Factual Accuracy#Chain-of-Thought#Large Language Models2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers논문은 대규모 언어 모델(LLM) 기반 자동화된 정리 증명 시스템에서 발생하는 훈련 시간(training-time) 확장성 과 추론 시간(inference-time) 컴퓨팅 이라는 두 가지 핵심 과제를 해결하는 것을 목표로 합니다.#Review#LLM Step-Provers#Reinforcement Learning (RL)#Off-Policy RL#Multi-Agent Systems#Tree Search#Automated Theorem Proving (ATP)#Formal Mathematics#AlphaZero2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 저해하는 고품질, 논리적으로 건전한 데이터의 부족 문제를 해결하는 것이 주된 목표입니다. 수십 년간의 자동화된 정리 증명(ATP) 연구를 확장 가능한 데이터 엔진으로 전환하여 LLM의 학습을 위한 대규모의 검증된 수학적 명제 및 추론 태스크 코퍼스를 생성하고자 합니다.#Review#Automated Theorem Proving#LLM#Mathematical Reasoning#Synthetic Data Generation#TPTP Ecosystem#Saturation Proving#Proof Graph Reconstruction#Data Augmentation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World이 논문은 급증하는 AI 역량과 뒤처지는 안전성 발전 간의 지속적인 격차를 해결하고자 합니다. 기존의 수동적이고 반응적인 안전 접근 방식의 한계를 지적하며, 예측 불가능한 위험에 적응하고 지능과 함께 진화하는 본질적으로 안전한 AI 를 구현하기 위한 새로운 패러다임인 safe-by-coevolution 을 제안합니다.#Review#AI Safety#Resistant AI#Resilient AI#Coevolution#Fast-Slow Models#Adversarial Training#Continual Learning#AGI Alignment2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.#Review#Diffusion Language Models#Reinforcement Learning#Trajectory-aware RL#Value Model#Masked Diffusion Models#Large Language Models#Reasoning Tasks#Code Generation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Reverse-Engineered Reasoning for Open-Ended Generation개방형(open-ended) 및 창의적 생성과 같이 검증 불가능한 도메인에서 대규모 언어 모델(LLM)에 깊이 있는 추론 능력 을 부여하는 것이 이 연구의 핵심 목표입니다. 기존의 강화 학습(RL) 및 증류(distillation) 방식의 한계, 즉 명확한 보상 신호 부재 및 높은 비용 문제를 극복하고자 합니다.#Review#Deep Reasoning#Open-Ended Generation#Reverse-Engineered Reasoning (REER)#LLMs#Synthetic Data#Iterative Refinement#Perplexity Minimization#DeepWriting-20K2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning Foundations for Deep Research Systems: A Survey본 논문은 복잡한 다단계 작업을 해결하는 딥 리서치 에이전트(agentic AI) 훈련을 위한 강화 학습(RL) 기반 기술 을 체계적으로 조사합니다.#Review#Reinforcement Learning#Deep Research Systems#Agentic AI#Tool Use#Hierarchical Agents#Reward Design#Multimodal AI#RL Frameworks2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Reinforced Visual Perception with Tools본 논문은 멀티모달 대규모 언어 모델(LLM)이 복잡한 시각적 추론 문제를 해결하고 외부 시각 도구를 효과적으로 활용하는 능력을 강화하는 것을 목표로 합니다. 기존 지도 학습(SFT) 기반 접근 방식의 한계인 고비용 데이터 생성, 섬세한 데이터 필터링 필요성, 그리고 제한된 일반화 능력을 극복하고자 합니다.#Review#Visual Reasoning#Multimodal LLMs#Reinforcement Learning#Tool Usage#Perception-heavy Benchmarks#GRPO#Vision Tools2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents본 논문은 정적인 연구 논문이 가진 기술적 장벽으로 인해 코드 및 방법론의 활용과 확산이 어려운 문제를 해결하고자 합니다. 연구는 논문을 상호작용적이고 신뢰할 수 있는 AI 에이전트 로 변환하여 연구 결과의 다운스트림 활용, 채택, 그리고 발견을 가속화하는 새로운 패러다임을 제시하는 것을 목표로 합니다.#Review#AI Agents#Research Reproducibility#Scientific Communication#Model Context Protocol (MCP)#Natural Language Interaction#Genomics#Single-Cell Analysis#Spatial Transcriptomics2025년 9월 9일댓글 수 로딩 중
[논문리뷰] MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents이 논문은 모바일 GUI 에이전트의 효율성을 높이기 위해 GUI 작업과 효율적인 바로가기(shortcuts) 를 결합한 하이브리드 패러다임의 체계적인 벤치마킹 프레임워크가 부족하다는 문제를 해결하고자 합니다.#Review#Mobile GUI Agents#Hybrid Automation#Shortcut Generation#Benchmark#Task Efficiency#LLM-based Agents#Mobile Robotics2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian대규모 언어 모델(LLM)의 영어 중심 편향 을 해결하고, 독일어, 영어, 바이에른어(Bavarian)를 지원하는 삼중 언어 기반 모델인 Llama-GENBA-10B 를 개발하는 것을 목표로 합니다.#Review#Multilingual LLM#Low-Resource Language#German#Bavarian Dialect#Cross-Lingual Transfer#Continuous Pretraining#Llama-3.1#Model Expansion2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Interleaving Reasoning for Better Text-to-Image Generation본 논문은 기존 텍스트-이미지(T2I) 생성 모델의 명령어 준수 및 세부 묘사 능력 한계를 극복하는 것을 목표로 합니다. 특히, 인터리빙 추론(Interleaving Reasoning) 메커니즘을 통합하여 T2I 생성의 시각적 품질과 미세한 디테일 표현을 향상시키는 방안을 탐구합니다.#Review#Text-to-Image Generation#Interleaving Reasoning#Multimodal Learning#Visual Quality#Fine-grained Detail#Diffusion Models#Self-Correction2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning본 논문은 복잡한 시각 환경에서 Vision-Language Models (VLMs) 의 추론 성능이 저하되는 문제를 해결하고자 합니다.#Review#Vision-Language Models (VLMs)#Visual Reasoning#Attention Mechanisms#Contrastive Learning#Noise Suppression#Visual Complexity#Training-Free2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?본 논문은 기존 텍스트-투-이미지(T2I) 벤치마크의 한계를 해결하고, T2I 모델의 구성(composition) 및 추론(reasoning) 능력을 포괄적이고 복합적인 실제 시나리오에서 평가하기 위한 새로운 벤치마크를 제시합니다.#Review#Text-to-Image Generation#T2I Benchmarking#Compositional Reasoning#Deductive Inference#Inductive Inference#Abductive Inference#MLLM Evaluation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?본 연구는 자연 이미지로만 사전 훈련된 최신 Self-Supervised Vision Transformer인 DINOv3 가 도메인 특화된 사전 훈련 없이 의료 영상 태스크에서 강력하고 통합된 인코더로 활용될 수 있는지 종합적으로 평가하는 것을 목표로 합니다.#Review#Medical Imaging#Foundation Models#DINOv3#Self-Supervised Learning#Vision Transformer#2D/3D Classification#Segmentation#Domain Adaptation#Scaling Laws2025년 9월 9일댓글 수 로딩 중
[논문리뷰] D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning온라인 밈(meme)에서 암묵적이고 문화적으로 민감한 다크 유머를 이해하고 탐지하는 문제를 해결하는 것을 목표로 합니다. 기존 자원 및 방법론의 부족을 다루기 위해 다중모드 콘텐츠에서 다크 유머의 존재, 타겟 범주 및 강도를 식별하는 포괄적인 프레임워크를 제시합니다.#Review#Dark Humor Detection#Multimodal Reasoning#Vision-Language Models (VLMs)#Iterative Reasoning Refinement#Meme Analysis#Content Moderation#Cross-Modal Attention#Dataset Annotation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool본 연구는 기존 온라인 3D 재구성 방법들이 겪는 재구성 품질과 실시간 성능 간의 절충 문제를 해결하고, 스트리밍 이미지로부터 정밀한 카메라 포즈와 고품질의 포인트 맵을 실시간으로 예측 하는 모델 WinT3R 를 제안하는 것을 목표로 합니다.#Review#Online 3D Reconstruction#Camera Pose Estimation#Streaming Reconstruction#Sliding Window#Camera Token Pool#Real-time Performance#Computer Vision2025년 9월 8일댓글 수 로딩 중
[논문리뷰] WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning본 논문은 Multimodal Large Language Models (MLLMs) 의 상징적 음악 분석 및 추론 능력에 대한 실세계 적용 가능성을 평가하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Symbolic Music Reasoning#Music Score Analysis#Benchmarking#Visual Question Answering#In-the-Wild Data#Music Theory2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Why Language Models Hallucinate본 논문은 대규모 언어 모델(LLM)이 '환각' 현상, 즉 그럴듯하지만 틀린 정보를 자신감 있게 생성하는 이유를 통계적으로 분석하고, 이러한 문제가 최신 모델에서도 지속되는 근본적인 원인을 밝히는 것을 목표로 합니다.#Review#Language Models#Hallucination#Pretraining#Post-training#Evaluation Metrics#Binary Classification#Uncertainty Quantification#Calibration2025년 9월 8일댓글 수 로딩 중