[논문리뷰] FineVision: Open Data Is All You Need파편화되고 일관성 없으며 오염된 공개 데이터셋으로 인해 저해되는 Vision-Language Model (VLM) 연구의 한계를 극복하는 것이 목표입니다.#Review#Multimodal Datasets#VLM#Data Curation#Data Hygiene#De-duplication#Human-in-the-loop#GUI Automation#Test-set Decontamination2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Executable Knowledge Graphs for Replicating AI ResearchAI 연구 재현은 LLM 에이전트 에게 중요한 도전 과제이며, 기존 방법론은 불충분한 배경 지식, RAG 방식의 한계, 구조화된 지식 표현 부족으로 실행 가능한 코드를 생성하는 데 어려움을 겪습니다.#Review#AI Research Replication#Large Language Models (LLMs)#Knowledge Graphs (KGs)#Executable Code Generation#Retrieval-Augmented Generation (RAG)#PaperBench#Automated AI Research2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics본 논문은 기업이 비정형 데이터를 실용적인 통찰력으로 전환하는 과정에서 직면하는 어려움, 특히 기존 자율 에이전트의 도메인 특이성, 의도 정렬, 엔터프라이즈 통합 한계를 해결하고자 합니다.#Review#Multi-Agent Systems#Deep Research#Enterprise AI#Human-in-the-Loop#Steerable AI#LLM Agents#Context Engineering#Enterprise Analytics2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Embody 3D: A Large-scale Multimodal Motion and Behavior Dataset기존 2D 및 3D 모션 데이터셋이 가진 스케일, 품질, 완전성, 도메인 특화 문제점을 해결하는 것을 목표로 합니다. 특히, 사람의 행동 및 상호작용에 대한 포괄적인 이해와 합성을 가능하게 하는 대규모 고품질 멀티모달 3D 모션 데이터셋을 구축하고자 합니다.#Review#3D Motion Dataset#Multimodal Data#Human Behavior#Pose Tracking#Hand Tracking#Audio-Visual Data#Large-scale Dataset#SMPL-X2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense본 논문은 대규모 추론 모델(LRMs)에서 '추론 방해(Reasoning Distraction)' 라는 새로운 취약점을 식별하고 체계적으로 분석하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#Prompt Injection#Adversarial Attack#Reasoning Distraction#Chain-of-Thought#Robustness#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)2025년 10월 21일댓글 수 로딩 중
[논문리뷰] DeepAnalyze: Agentic Large Language Models for Autonomous Data Science본 논문은 원시 데이터부터 분석가 수준의 심층 연구 보고서에 이르는 완전히 자율적인 데이터 과학 을 달성하는 것을 목표로 합니다. 기존 워크플로우 기반 데이터 에이전트들이 사전 정의된 워크플로우에 의존하여 복잡한 데이터 과학 태스크와 다양한 정형 데이터 처리에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Autonomous Data Science#Agentic LLM#Curriculum Learning#Reinforcement Learning#Data Agents#End-to-end Data Science2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Deep Self-Evolving Reasoning본 연구는 개방형 소형 언어 모델(LLM)이 어려운 추론 작업에서 취약한 검증 및 교정 능력으로 인해 한계에 부딪히는 문제를 해결하고자 합니다.#Review#Deep Self-Evolving Reasoning#LLMs#Iterative Reasoning#Markov Chain#Self-Verification#Self-Refinement#Mathematical Reasoning#AIME Benchmark2025년 10월 21일댓글 수 로딩 중
[논문리뷰] ConsistEdit: Highly Consistent and Precise Training-free Visual Editing본 논문은 기존의 훈련 없이(training-free) 텍스트 기반 시각 편집 방법론이 겪는 한계, 즉 강한 편집 강도를 유지하면서도 원본과의 일관성을 보존하기 어렵다는 문제를 해결하고자 합니다.#Review#Image Editing#Video Editing#Diffusion Transformer#Attention Control#Training-free#Multi-modal Diffusion Transformer (MM-DiT)#Consistency Preservation2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Chronos-2: From Univariate to Universal Forecasting기존 사전 훈련된 시계열 모델이 주로 단변량 예측에 국한되어 실제 다변량 데이터 및 공변량 활용에 한계가 있다는 문제점을 해결하고자 합니다. Chronos-2 는 단변량, 다변량, 공변량 정보 기반 예측 태스크 를 제로샷 방식 으로 처리할 수 있는 범용적인 사전 훈련 모델을 개발하는 것을 목표로 합니다.#Review#Time Series Forecasting#Foundation Models#Pretrained Models#Transformer#In-Context Learning#Multivariate Forecasting#Covariates#Group Attention2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training이 논문은 사전 훈련된 모델 없이 위성 이미지 분류를 위한 맞춤형 CNN 아키텍처 를 체계적으로 연구하여 EuroSAT 데이터셋 에서 높은 정확도를 달성하는 것을 목표로 합니다. 위성 이미지 분류의 특정 실패 모드를 식별하고 해결하며, 공간 및 스펙트럼 특징 모달리티에 대한 균형 잡힌 어텐션의 필요성을 탐구합니다.#Review#Satellite Image Classification#Multi-Task Attention#From-Scratch Training#EuroSAT Dataset#Squeeze-Excitation Networks#Coordinate Attention#CNN#Deep Learning Architecture2025년 10월 21일댓글 수 로딩 중
[논문리뷰] AsyncVoice Agent: Real-Time Explanation for LLM Planning and Reasoning본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 과정(Chain-of-Thought, CoT)이 현재 모놀리식 텍스트 기반으로 제공되어, 음성 인터페이스에서 실시간 상호작용과 사용자 개입을 어렵게 하는 문제를 해결하고자 합니다.#Review#Real-Time Interaction#Asynchronous Agents#LLM Explanation#Human-AI Collaboration#Voice Interface#Planning and Reasoning#Context Management#Interruption Handling2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Annotation-Efficient Universal Honesty Alignment본 논문은 대규모 언어 모델(LLM)이 지식 경계를 인식하고 보정된 자신감을 표현하는 Honesty Alignment 를 달성하는 것을 목표로 합니다.#Review#LLM Honesty Alignment#Confidence Calibration#Annotation Efficiency#Self-Consistency#Elicitation-Then-Calibration (EliCal)#HonestyBench#LoRA#Trustworthy AI2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Agentic Reinforcement Learning for Search is Unsafe본 논문은 에이전트형 강화 학습(RL)으로 훈련된 검색 모델의 안전성, 특히 유해한 요청에 대한 거부 능력과 기존 지시 튜닝(Instruction Tuning)으로부터 물려받은 안전성 속성이 어떻게 변화하는지 평가하는 것을 목표로 합니다.#Review#Agentic Reinforcement Learning#LLM Safety#Tool Use#Search Models#Jailbreaking#Instruction Tuning#Vulnerability2025년 10월 21일댓글 수 로딩 중
[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.#Triton#NVIDIA#FP4#GPU#Optimization#LLM2025년 10월 20일댓글 수 로딩 중
[Triton] Gluon 레이아웃 검증 에러 메시지 개선TMA copy 연산의 레이아웃 검증 실패 시 더 명확한 에러 메시지를 제공하도록 개선#Triton#Gluon#NVIDIA#Error Handling#DX2025년 10월 20일댓글 수 로딩 중
[논문리뷰] VISTA: A Test-Time Self-Improving Video Generation Agent본 논문은 텍스트-투-비디오(T2V) 생성 모델이 사용자 프롬프트에 매우 민감 하여 고품질 비디오를 얻기 위한 반복적인 프롬프트 수정과 필터링이 필요하다는 문제를 해결하고자 합니다.#Review#Text-to-Video Generation#Prompt Optimization#Multi-Agent System#Test-Time Improvement#MLLM-as-a-Judge#Video Evaluation#Audio-Video Synthesis2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Train a Unified Multimodal Data Quality Classifier with Synthetic Data멀티모달 대규모 언어 모델(MLLM) 사전 학습에 사용되는 이미지-텍스트 캡션 및 인터리브된 문서 데이터의 고품질 필터링 방법이 미흡하다는 문제를 해결하고자 합니다.#Review#Multimodal Data Quality#MLLM#Synthetic Data#Data Filtering#Image-Text Captioning#Interleaved Document Analysis#Pre-training2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Skyfall-GS: Synthesizing Immersive 3D Urban Scenes from Satellite Imagery본 논문은 대규모의 탐색 가능하며 기하학적으로 정확한 3D 도시 장면을 합성하는 문제를 해결하는 데 중점을 둡니다. 특히, 제한된 위성 이미지 시차로 인한 불완전한 기하학과 부정확한 텍스처, 그리고 3D/거리 수준 훈련 데이터 부족으로 인해 발생하는 기존 방법론의 한계를 극복하고자 합니다.#Review#3D Scene Synthesis#Gaussian Splatting#Satellite Imagery#Diffusion Models#Urban Modeling#Novel View Synthesis#Curriculum Learning#Real-time Rendering2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset지시 기반 비디오 편집의 발전을 저해하는 대규모 고품질 학습 데이터의 부족 문제 를 해결하는 것이 목표입니다. 기존 데이터 생성 파이프라인의 제한된 확장성, 낮은 품질, 일관성 부족 등의 한계를 극복하고, 다양한 편집 작업에 대한 정확하고 일관된 편집 능력을 갖춘 모델 훈련을 위한 데이터셋과 방법론을 제시합니다.#Review#Video Editing#Instruction-Based Editing#Synthetic Data Generation#Dataset#Curriculum Learning#Diffusion Models#Vision-Language Models2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning본 논문은 Maximal-update Parameterization (µP)이 현대 스케일 불변 아키텍처에서 훈련의 정상 상태(steady state)에 도달했을 때 발생하는 학습률 전이(transfer) 저하 문제를 해결하고자 합니다.#Review#Weight Decay Scaling#Maximal-Update Parameterization (µP)#AdamW#Transformer#Hyperparameter Transfer#Scaling Laws#Singular Value Spectrum#Steady State Training2025년 10월 20일댓글 수 로딩 중