#Dataset Generation

8개의 포스트

[논문리뷰] Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

자연어 명령 기반 비디오 편집의 시각적 제어 한계를 극복하고, 레퍼런스 이미지 가이드 편집의 고품질 훈련 데이터 부족 문제 를 해결하는 것을 목표로 합니다. 복잡한 시각적 뉘앙스를 정확하게 제어하고 사용자의 편집 의도를 시각적 예시를 통해 효과적으로 반영하는 다재다능한 비디오 편집 프레임워크 를 구축하고자 합니다.

#Review #Video Editing #Instruction Guidance #Reference Guidance #Diffusion Models #MLLM #Dataset Generation #RefVIE #Curriculum Learning

2026년 3월 3일

[논문리뷰] PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

본 논문은 기존 RLVR(Verifiable Rewards를 사용한 강화 학습) 검색 에이전트가 주로 일반 도메인 QA에 초점을 맞춰 과학, 공학, 의학 분야의 기술 AI 시스템에 대한 관련성이 낮다는 문제점을 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Scientific QA #Information Retrieval #Verifiable Rewards #Biomedical Domain #Search Agents #Dataset Generation

2026년 2월 4일

[논문리뷰] A Hybrid Protocol for Large-Scale Semantic Dataset Generation in Low-Resource Languages: The Turkish Semantic Relations Corpus

본 논문은 저자원 언어 (특히 튀르키예어)에서 대규모 의미 관계 데이터셋을 효율적으로 생성하는 하이브리드 프로토콜 을 제시하고, 포괄적인 튀르키예어 의미 관계 코퍼스 를 구축하는 것을 목표로 합니다.

#Review #Low-Resource NLP #Semantic Relations #Dataset Generation #Turkish Language #LLM #FastText Embeddings #Agglomerative Clustering #Synonyms #Antonyms #Co-hyponyms

2026년 1월 20일

[논문리뷰] MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model

본 연구는 현미경 이미지 분석을 위한 대규모 고품질 멀티모달 질의응답(VQA) 데이터셋의 부족 이라는 문제점을 해결하여, 멀티모달 대규모 언어 모델(MLLM)의 현미경 과학 추론 능력을 향상시키는 것을 목표로 합니다. 기존 데이터셋의 제한된 규모와 낮은 난이도로 인한 MLLM 학습의 한계를 극복하고자 합니다.

#Review #Microscopy VQA #Multimodal LLM #Weak Supervision #Graph Neural Networks #Dataset Generation #Biomedical Imaging #Scientific Reasoning #Cross-Modal Consistency

2025년 11월 17일

[논문리뷰] German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German

이 논문은 독일어 텍스트를 다양한 독해 수준에 맞춰 재작성하는 Readability-Controlled Paraphrasing 분야의 중요한 격차를 해소하고자 합니다.

#Review #Text Simplification #Paraphrasing #Readability Control #German NLP #Dataset Generation #LLM Distillation #Multi-level Text Generation #Accessibility

2025년 8월 26일

[논문리뷰] Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models

본 연구는 비디오에서 배경을 교체하고 동시에 포그라운드의 조명을 조화롭게 조정하는 비디오 리라이팅 태스크를 해결하는 것을 목표로 합니다. 특히, 포그라운드의 본래 속성(예: 알베도, 텍스처)을 일관되게 보존 하면서 시간적 프레임 간 일관된 조명 변경을 전파 하는 것이 주된 도전 과제입니다.

#Review #Video Relighting #Background Replacement #Generative Models #Diffusion Models #Temporal Consistency #Dataset Generation #Video Editing

2025년 8월 19일

[논문리뷰] ChartCap: Mitigating Hallucination of Dense Chart Captioning

본 논문은 시각 언어 모델(VLMs)이 생성하는 차트 캡션의 환각 현상(hallucination)을 줄이고 정보의 정확성 및 밀도를 높이는 것 을 목표로 합니다. 기존 데이터셋의 외부 정보 포함 및 차트 유형별 핵심 정보 부족 문제를 해결하여, 모델이 차트 이미지로부터 직접 추론 가능한 고품질 캡션을 생성하도록 합니다.

#Review #Chart Captioning #Hallucination Mitigation #Dataset Generation #Visual Language Models #Cycle Consistency #Reference-Free Metric #Data Visualization

2025년 8월 6일

[논문리뷰] Towards Scalable and Consistent 3D Editing

3D 에셋의 기하학적 형태나 외관을 로컬하게 수정하는 3D 편집 태스크에서 발생하는 주요 난제들을 해결하는 것을 목표로 합니다.

#Review #3D Editing #Generative Models #Transformer Architecture #Dataset Generation #Multimodal Learning #Conditional Generation #Image-to-3D

2025년 10월 10일