[논문리뷰] GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration실세계 이미지 복원(IR) 모델은 학습 데이터 부족으로 인해 실제 환경에서의 일반화 성능이 현저히 떨어지는 고질적인 병목 현상을 겪고 있습니다. 합성 데이터는 실세계의 복잡한 열화(degradation) 과정을 제대로 모델링하지 못하며, 실제 촬영된 데이터는 비용과 확장성 및 장면 다양성 확보에 한계가 있습니다.#Review#Image Restoration#Generative Ground Truth#Multimodal Foundation Models#Generalization#Dataset Construction#Quality Control2026년 5월 31일댓글 수 로딩 중
[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning본 논문은 LLM의 추론 후속 훈련 과정에서 발생하는 콜드 스타트 문제, 제한된 도메인 커버리지, 주석 병목 현상 이라는 세 가지 핵심 데이터 관련 문제를 해결하는 것을 목표로 합니다. 특히, 인간 주석 없이 컴팩트하면서도 일반화 가능한 고품질 합성 추론 데이터셋 을 구축하여 이 문제를 해결하고자 합니다.#Review#Synthetic Data#LLM Reasoning#Chain-of-Thought#Data Efficiency#Post-training#Generalization#Quality Control#Domain Coverage2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Self-Improving Pretraining: using post-trained models to pretrain better models본 논문은 대규모 언어 모델(LLM)의 생성 안전성, 사실성 및 전반적인 품질 문제를 사전 훈련 단계에서부터 해결하는 것을 목표로 합니다.#Review#Self-Improving Pretraining#Reinforcement Learning (RL)#Large Language Models (LLMs)#Quality Control#Factuality#Safety#Post-trained Models#Pretraining Data Augmentation2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing본 논문은 대규모, 고품질, 공개적으로 접근 가능한 텍스트 기반 이미지 편집 데이터셋의 부족으로 인해 제한되었던 연구 발전을 해소하는 것을 목표로 합니다. 실제 이미지를 기반으로 한 포괄적이고 다양한 데이터셋을 제공하여 차세대 텍스트 기반 이미지 편집 모델의 훈련 및 벤치마킹을 위한 견고한 기반을 구축하고자 합니다.#Review#Text-Guided Image Editing#Large-Scale Dataset#Multimodal Models#Dataset Curation#Quality Control#Prompt Engineering#Preference Learning#Multi-Turn Editing2025년 10월 23일댓글 수 로딩 중