#Dataset Creation

11개의 포스트

[논문리뷰] Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

본 논문은 시계열 데이터로부터 통찰력을 추출하는 데 필요한 깊은 도메인 전문성과 시간 소모적인 과정을 해결하고자 합니다.

#Review #Time Series Analysis #Multimodal Language Models #Natural Language Generation #Dataset Creation #Instruction Tuning #GPT-4 #LLaVA #Cross-Domain Alignment

2025년 12월 18일

[논문리뷰] ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

본 논문은 기존 비디오 챕터링 방법론이 짧고 거친 주석에 의해 제한되어 장시간 비디오의 미묘한 전환에 대한 일반화가 어렵다는 문제를 해결하고자 합니다.

#Review #Video Chaptering #Long-form Video Understanding #Large Language Models #Multimodal Learning #Hierarchical Summarization #Video Segmentation #Reinforcement Learning #Dataset Creation

2025년 11월 19일

[논문리뷰] Visual Spatial Tuning

본 논문은 기존 Vision-Language Models (VLMs) 이 시각 정보에서 공간 관계를 포착하는 데 한계가 있다는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Spatial Reasoning #Spatial Perception #Dataset Creation #Reinforcement Learning #Visuospatial AI #Robotics

2025년 11월 9일

[논문리뷰] DIWALI - Diversity and Inclusivity aWare cuLture specific Items for India: Dataset and Assessment of LLMs for Cultural Text Adaptation in Indian Context

대규모 언어 모델(LLMs)이 서구 문화에 편향된 훈련 데이터로 인해 문화적 적합성과 지역적 다양성 측면에서 부족하다는 문제를 해결하고자 합니다.

#Review #Cultural Adaptation #Large Language Models #Indian Culture #Dataset Creation #CSI #Human Evaluation #LLM Evaluation #Cultural Bias

2025년 9월 23일

[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

기존 Role-playing Agents (RPAs) 가 정적인 역할 프로필에만 의존하여 인간의 동적인 지각 능력을 포착하지 못하는 한계를 극복하는 것입니다. 비디오 모달리티를 RPAs 에 통합하여 동적 역할 프로필 개념을 도입하고, 이를 통해 더욱 몰입감 있고 표현력 있는 역할극 경험을 제공하고자 합니다.

#Review #Role-playing Agents (RPAs)#Multimodal AI #Video Understanding #Large Language Models (LLMs)#Dataset Creation #Dynamic Role Profiles #Adaptive Temporal Sampling #Fine-tuning

2025년 9월 22일

[논문리뷰] SearchInstruct: Enhancing Domain Adaptation via Retrieval-Based Instruction Dataset Creation

이 논문은 대규모 언어 모델(LLM)의 특정 도메인 적응을 위한 고품질 SFT(Supervised Fine-Tuning) 데이터셋 생성 의 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM #Instruction Tuning #Domain Adaptation #Retrieval-Augmented Generation #Dataset Creation #Model Editing #Supervised Fine-Tuning

2025년 9월 16일

[논문리뷰] MovieCORE: COgnitive REasoning in Movies

본 논문은 기존의 비디오 질의응답(VQA) 데이터셋이 표면적인 이해에 머무는 한계를 극복하고, 영화 콘텐츠에 대한 깊이 있는 인지적 이해 와 System-2 사고 를 유도하는 새로운 VQA 데이터셋 MovieCORE 를 제안합니다.

#Review #Video Question Answering (VQA)#Cognitive Reasoning #System-2 Thinking #Multi-agent LLMs #Dataset Creation #Movie Understanding #Cinematic Content #Agentic Enhancement

2025년 8월 27일

[논문리뷰] Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

본 연구는 음성으로 표현된 수학 방정식과 문장을 LaTeX 형식으로 변환하는 도전적인 문제를 해결하고자 합니다. 기존 연구의 한계점(예: 이중 ASR 전사 의존성, 고립된 방정식에 대한 초점, 제한적인 데이터셋, 다국어 지원 부족)을 극복하고, 확장 가능하고 실제 적용 가능한 솔루션을 제공하는 것을 목표로 합니다.

#Review #Speech-to-LaTeX #ASR #Language Models #Multimodal AI #Dataset Creation #Mathematical Expression Recognition #LaTeX Generation

2025년 8월 12일

[논문리뷰] MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

본 논문은 고자원 언어에 집중되어 저자원 언어에서 성능이 저하되는 기존 다중 모드 대규모 언어 모델(MLLM) 의 한계를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Low-Resource Languages #Cultural Groundedness #Linguistic Capability #Dataset Creation #Multilingual AI

2025년 8월 11일

[논문리뷰] SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

본 논문은 과도한 잔향, 왜곡, 클리핑, 음색 불균형 등 다양한 오디오 품질 문제를 해결하는 통합적이고 텍스트 제어 가능한 음악 복원 및 마스터링 모델 을 개발하는 것을 목표로 합니다.

#Review #Music Restoration #Audio Mastering #Generative Models #Flow Matching #Text-to-Audio #Audio Quality Enhancement #Multi-task Learning #Dataset Creation

2025년 8월 7일

[논문리뷰] COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

대규모 언어 모델(LLM)이 비영어권, 특히 중국어 창의적 글쓰기에서 겪는 체계적인 결함(예: 예측 가능한 내러티브, 스타일 다양성 부족, 문화적 비정합성)을 해결하는 것을 목표로 합니다.

#Review #Chinese Creative Writing #Process Supervision #LLM Training #Dataset Creation #Cross-Lingual Transfer #Narrative Logic #Linguistic Expression #Type-Token Ratio

2025년 10월 17일