최신 포스트

[논문리뷰] Test-Time Scaling in Reasoning Models Is Not Effective for Knowledge-Intensive Tasks Yet

본 논문은 지식 집약적 태스크에서 Test-Time Scaling 기법이 모델의 정확도와 환각(hallucination) 감소에 효과적인지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Test-Time Scaling #Reasoning Models #Knowledge-Intensive Tasks #Hallucinations #Factual Accuracy #Chain-of-Thought #Large Language Models

2025년 9월 9일

[논문리뷰] Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers

논문은 대규모 언어 모델(LLM) 기반 자동화된 정리 증명 시스템에서 발생하는 훈련 시간(training-time) 확장성 과 추론 시간(inference-time) 컴퓨팅 이라는 두 가지 핵심 과제를 해결하는 것을 목표로 합니다.

#Review #LLM Step-Provers #Reinforcement Learning (RL)#Off-Policy RL #Multi-Agent Systems #Tree Search #Automated Theorem Proving (ATP)#Formal Mathematics #AlphaZero

2025년 9월 9일

[논문리뷰] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem

대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 저해하는 고품질, 논리적으로 건전한 데이터의 부족 문제를 해결하는 것이 주된 목표입니다. 수십 년간의 자동화된 정리 증명(ATP) 연구를 확장 가능한 데이터 엔진으로 전환하여 LLM의 학습을 위한 대규모의 검증된 수학적 명제 및 추론 태스크 코퍼스를 생성하고자 합니다.

#Review #Automated Theorem Proving #LLM #Mathematical Reasoning #Synthetic Data Generation #TPTP Ecosystem #Saturation Proving #Proof Graph Reconstruction #Data Augmentation

2025년 9월 9일

[논문리뷰] R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World

이 논문은 급증하는 AI 역량과 뒤처지는 안전성 발전 간의 지속적인 격차를 해결하고자 합니다. 기존의 수동적이고 반응적인 안전 접근 방식의 한계를 지적하며, 예측 불가능한 위험에 적응하고 지능과 함께 진화하는 본질적으로 안전한 AI 를 구현하기 위한 새로운 패러다임인 safe-by-coevolution 을 제안합니다.

#Review #AI Safety #Resistant AI #Resilient AI #Coevolution #Fast-Slow Models #Adversarial Training #Continual Learning #AGI Alignment

2025년 9월 9일

[논문리뷰] Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models

본 논문은 확산 언어 모델(DLMs)의 기존 강화 학습(RL) 프레임워크의 한계를 해결하고자 합니다.

#Review #Diffusion Language Models #Reinforcement Learning #Trajectory-aware RL #Value Model #Masked Diffusion Models #Large Language Models #Reasoning Tasks #Code Generation

2025년 9월 9일

[논문리뷰] Reverse-Engineered Reasoning for Open-Ended Generation

개방형(open-ended) 및 창의적 생성과 같이 검증 불가능한 도메인에서 대규모 언어 모델(LLM)에 깊이 있는 추론 능력 을 부여하는 것이 이 연구의 핵심 목표입니다. 기존의 강화 학습(RL) 및 증류(distillation) 방식의 한계, 즉 명확한 보상 신호 부재 및 높은 비용 문제를 극복하고자 합니다.

#Review #Deep Reasoning #Open-Ended Generation #Reverse-Engineered Reasoning (REER)#LLMs #Synthetic Data #Iterative Refinement #Perplexity Minimization #DeepWriting-20K

2025년 9월 9일

[논문리뷰] Reinforcement Learning Foundations for Deep Research Systems: A Survey

본 논문은 복잡한 다단계 작업을 해결하는 딥 리서치 에이전트(agentic AI) 훈련을 위한 강화 학습(RL) 기반 기술 을 체계적으로 조사합니다.

#Review #Reinforcement Learning #Deep Research Systems #Agentic AI #Tool Use #Hierarchical Agents #Reward Design #Multimodal AI #RL Frameworks

2025년 9월 9일

[논문리뷰] Reinforced Visual Perception with Tools

본 논문은 멀티모달 대규모 언어 모델(LLM)이 복잡한 시각적 추론 문제를 해결하고 외부 시각 도구를 효과적으로 활용하는 능력을 강화하는 것을 목표로 합니다. 기존 지도 학습(SFT) 기반 접근 방식의 한계인 고비용 데이터 생성, 섬세한 데이터 필터링 필요성, 그리고 제한된 일반화 능력을 극복하고자 합니다.

#Review #Visual Reasoning #Multimodal LLMs #Reinforcement Learning #Tool Usage #Perception-heavy Benchmarks #GRPO #Vision Tools

2025년 9월 9일

[논문리뷰] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

본 논문은 정적인 연구 논문이 가진 기술적 장벽으로 인해 코드 및 방법론의 활용과 확산이 어려운 문제를 해결하고자 합니다. 연구는 논문을 상호작용적이고 신뢰할 수 있는 AI 에이전트 로 변환하여 연구 결과의 다운스트림 활용, 채택, 그리고 발견을 가속화하는 새로운 패러다임을 제시하는 것을 목표로 합니다.

#Review #AI Agents #Research Reproducibility #Scientific Communication #Model Context Protocol (MCP)#Natural Language Interaction #Genomics #Single-Cell Analysis #Spatial Transcriptomics

2025년 9월 9일

[논문리뷰] MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents

이 논문은 모바일 GUI 에이전트의 효율성을 높이기 위해 GUI 작업과 효율적인 바로가기(shortcuts) 를 결합한 하이브리드 패러다임의 체계적인 벤치마킹 프레임워크가 부족하다는 문제를 해결하고자 합니다.

#Review #Mobile GUI Agents #Hybrid Automation #Shortcut Generation #Benchmark #Task Efficiency #LLM-based Agents #Mobile Robotics

2025년 9월 9일

[논문리뷰] Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian

대규모 언어 모델(LLM)의 영어 중심 편향 을 해결하고, 독일어, 영어, 바이에른어(Bavarian)를 지원하는 삼중 언어 기반 모델인 Llama-GENBA-10B 를 개발하는 것을 목표로 합니다.

#Review #Multilingual LLM #Low-Resource Language #German #Bavarian Dialect #Cross-Lingual Transfer #Continuous Pretraining #Llama-3.1 #Model Expansion

2025년 9월 9일

[논문리뷰] Interleaving Reasoning for Better Text-to-Image Generation

본 논문은 기존 텍스트-이미지(T2I) 생성 모델의 명령어 준수 및 세부 묘사 능력 한계를 극복하는 것을 목표로 합니다. 특히, 인터리빙 추론(Interleaving Reasoning) 메커니즘을 통합하여 T2I 생성의 시각적 품질과 미세한 디테일 표현을 향상시키는 방안을 탐구합니다.

#Review #Text-to-Image Generation #Interleaving Reasoning #Multimodal Learning #Visual Quality #Fine-grained Detail #Diffusion Models #Self-Correction

2025년 9월 9일

[논문리뷰] Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning

본 논문은 복잡한 시각 환경에서 Vision-Language Models (VLMs) 의 추론 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Visual Reasoning #Attention Mechanisms #Contrastive Learning #Noise Suppression #Visual Complexity #Training-Free

2025년 9월 9일

[논문리뷰] Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

본 논문은 기존 텍스트-투-이미지(T2I) 벤치마크의 한계를 해결하고, T2I 모델의 구성(composition) 및 추론(reasoning) 능력을 포괄적이고 복합적인 실제 시나리오에서 평가하기 위한 새로운 벤치마크를 제시합니다.

#Review #Text-to-Image Generation #T2I Benchmarking #Compositional Reasoning #Deductive Inference #Inductive Inference #Abductive Inference #MLLM Evaluation

2025년 9월 9일

[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?

본 연구는 자연 이미지로만 사전 훈련된 최신 Self-Supervised Vision Transformer인 DINOv3 가 도메인 특화된 사전 훈련 없이 의료 영상 태스크에서 강력하고 통합된 인코더로 활용될 수 있는지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Medical Imaging #Foundation Models #DINOv3 #Self-Supervised Learning #Vision Transformer #2D/3D Classification #Segmentation #Domain Adaptation #Scaling Laws

2025년 9월 9일

[논문리뷰] D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning

온라인 밈(meme)에서 암묵적이고 문화적으로 민감한 다크 유머를 이해하고 탐지하는 문제를 해결하는 것을 목표로 합니다. 기존 자원 및 방법론의 부족을 다루기 위해 다중모드 콘텐츠에서 다크 유머의 존재, 타겟 범주 및 강도를 식별하는 포괄적인 프레임워크를 제시합니다.

#Review #Dark Humor Detection #Multimodal Reasoning #Vision-Language Models (VLMs)#Iterative Reasoning Refinement #Meme Analysis #Content Moderation #Cross-Modal Attention #Dataset Annotation

2025년 9월 9일

[논문리뷰] WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool

본 연구는 기존 온라인 3D 재구성 방법들이 겪는 재구성 품질과 실시간 성능 간의 절충 문제를 해결하고, 스트리밍 이미지로부터 정밀한 카메라 포즈와 고품질의 포인트 맵을 실시간으로 예측 하는 모델 WinT3R 를 제안하는 것을 목표로 합니다.

#Review #Online 3D Reconstruction #Camera Pose Estimation #Streaming Reconstruction #Sliding Window #Camera Token Pool #Real-time Performance #Computer Vision

2025년 9월 8일

[논문리뷰] WildScore: Benchmarking MLLMs in-the-Wild Symbolic Music Reasoning

본 논문은 Multimodal Large Language Models (MLLMs) 의 상징적 음악 분석 및 추론 능력에 대한 실세계 적용 가능성을 평가하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Symbolic Music Reasoning #Music Score Analysis #Benchmarking #Visual Question Answering #In-the-Wild Data #Music Theory

2025년 9월 8일

[논문리뷰] Why Language Models Hallucinate

본 논문은 대규모 언어 모델(LLM)이 '환각' 현상, 즉 그럴듯하지만 틀린 정보를 자신감 있게 생성하는 이유를 통계적으로 분석하고, 이러한 문제가 최신 모델에서도 지속되는 근본적인 원인을 밝히는 것을 목표로 합니다.

#Review #Language Models #Hallucination #Pretraining #Post-training #Evaluation Metrics #Binary Classification #Uncertainty Quantification #Calibration

2025년 9월 8일

[논문리뷰] U-ARM : Ultra low-cost general teleoperation interface for robot manipulation

본 논문은 기존의 고비용 및 복잡한 엔지니어링 요구사항을 가진 로봇 텔레오퍼레이션 시스템의 한계를 극복하고, 대부분의 상용 로봇 팔과 호환되는 초저가, 사용자 친화적, 범용 리더-팔로워 텔레오퍼레이션 인터페이스 인 U-Arm을 개발하는 것을 목표로 합니다.

#Review #Teleoperation #Robot Manipulation #Low-Cost Hardware #3D Printing #Leader-Follower System #Data Collection #Robotics Interface #Open Source

2025년 9월 8일