[논문리뷰] Is Position Bias in Dense Retrievers Built In-or Learned from Data?본 논문은 Dense Retrievers가 문서 내 정보 위치에 따라 성능이 크게 변하는 Position Bias 문제를 해결하고자 한다. 기존 연구들은 이러한 편향의 원인을 모델의 아키텍처나 사전 학습(pretraining) 방식에서 찾으려 했으나, 이들만으로는 체계적인 편향 방향을 완벽히 설명하지 못한다.#Review#Dense Retrievers#Position Bias#Fine-tuning#Position-Controlled Data#Retrieval-Augmented Generation#Positional Sensitivity#Data Curation2026년 5월 28일댓글 수 로딩 중
[논문리뷰] FrameSkip: Learning from Fewer but More Informative Frames in VLA Training본 논문은 기존 VLA 모델 학습 과정에서 무분별하게 모든 프레임을 동일한 비중으로 사용하는 'Temporal supervision imbalance' 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Robot Manipulation#Frame Selection#Temporal Supervision#Data Curation#Policy Learning#Embodied AI2026년 5월 13일댓글 수 로딩 중
[논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping본 논문은 기존 스타일 전이 기법들이 self-supervised 훈련 방식의 한계로 인해 스타일과 콘텐츠를 효과적으로 분리하지 못하고, 데이터셋의 품질 및 다양성 부족으로 스타일 전이 성능이 제한되는 문제를 해결하고자 한다.#Review#MegaStyle#Style Transfer#Data Curation#Diffusion Transformer#Contrastive Learning2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.#Review#Vision-Language Models#Video Understanding#Post-Training#Linguistic Bias#Reinforcement Learning#Data Curation#Visually Grounded Reasoning2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and GenerationDiffusion models과 autoregressive models의 발전으로 T2I generation 및 image editing task에서 상당한 진전이 있었으나, 이러한 모델들의 성능 향상을 위한 RL 기반 접근 방식은 reward model 의 신뢰성 문제에 직면해 있습니다.#Review#Reinforcement Learning#Reward Modeling#Image Editing#Image Generation#MLLM#Data Curation#Fidelity#Instruction Following2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Phi-4-reasoning-vision-15B Technical Report본 논문은 추론 능력, 효율성, 학습 데이터 요구사항의 균형을 맞춘 소형 오픈소스 멀티모달 추론 모델인 Phi-4-reasoning-vision-15B 를 개발하는 것을 목표로 합니다.#Review#Multimodal LLMs#Efficient AI#Reasoning Models#Vision-Language Models#Data Curation#Mid-Fusion#High-Resolution Vision#Small Language Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.#Review#GUI Agents#Reinforcement Learning#Supervised Fine-tuning#Visual Grounding#Long-Horizon Tasks#Partial Verifiability#KL Regularization#Data Curation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning기존 멀티모달 RLVR(Reinforcement Learning with Verifiable Rewards) 학습 데이터셋의 제한적인 다양성, 커버리지, 일반화 능력을 극복하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Mathematical Dataset#RLVR#Data Curation#Visual Diversity#K12 Mathematics#Large Multimodal Models2026년 2월 22일댓글 수 로딩 중
[논문리뷰] ClinAlign: Scaling Healthcare Alignment from Clinician Preference대규모 언어 모델(LLM)을 의료 분야에서 의사의 세밀한 선호도 및 전문 표준에 맞춰 정렬하는 문제를 해결하는 것이 목표입니다. 기존 방법론의 일반적인 목표와 신뢰할 수 없는 자동 평가자의 한계를 극복하고, 확장 가능한 방식으로 임상 정렬(clinical alignment)을 달성하고자 합니다.#Review#Healthcare AI#LLM Alignment#Clinician Preference#Rubric-based RLHF#Medical LLMs#Data Curation#HealthBench#Principle-based Supervision2026년 2월 17일댓글 수 로딩 중
[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.#Review#Image Editing#Diffusion Transformer#Instruction-based Editing#Data Curation#Reinforcement Learning#Multimodal Models#REDEdit-Bench#Generative AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions이 연구는 기존 비디오-명령어 데이터가 불완전하고 세분화된 정보 및 신뢰성 있는 주석이 부족하여 범용적인 비디오 이해 MLLM 의 성능을 제약하는 문제를 해결하고자 합니다.#Review#Video Understanding#Multimodal Large Language Models (MLLMs)#Instruction Tuning#Data Curation#Attribute-Structured Data#Quality Verification#Temporal Grounding#Video Captioning2026년 2월 15일댓글 수 로딩 중
[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.#Review#Robotic Manipulation#Vision-Language-Action (VLA)#Foundation Models#Action Manifold Learning#Diffusion Transformers#Data Curation#Embodied AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.#Review#LLM Adaptation#Reinforcement Learning#Data Curation#Data Pipelines#Data Recipes#Data Verifier#Data-centric AI2026년 2월 11일댓글 수 로딩 중
[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.#Review#Video-Audio Generation#Diffusion Transformer#Multimodal AI#Lip Synchronization#Open Source#Data Curation#Dual-Tower Architecture#Cross-Attention2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition본 논문은 높은 지연 시간 때문에 스트리밍 애플리케이션에 비실용적인 대규모 오프라인 ASR 모델(예: Whisper)의 한계를 극복하고, 저지연 태국어 자동 음성 인식(ASR)을 위한 효율적인 스트리밍 솔루션을 개발하는 것을 목표로 합니다.#Review#Thai ASR#Real-time Speech Recognition#FastConformer-Transducer#Low-latency#Text Normalization#Dialect Adaptation#Data Curation#Streaming ASR2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Action100M: A Large-scale Video Action Dataset본 연구는 기존 영상 액션 데이터셋의 규모 및 도메인 다양성 한계를 극복하고, 물리적 세계를 이해하는 AI 모델의 발전을 위한 대규모 오픈-어휘 영상 액션 데이터셋 인 ACTION100M 을 구축하는 것을 목표로 합니다.#Review#Large-scale Dataset#Video Action Recognition#Open-Vocabulary#Temporal Segmentation#Vision-Language Models#Zero-shot Learning#Data Curation#Self-Refine2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Motion Attribution for Video Generation본 논문은 비디오 생성 모델에서 생성된 비디오의 움직임(motion) 에 영향을 미치는 훈련 클립을 식별하는 것을 목표로 합니다.#Review#Motion Attribution#Video Generation#Diffusion Models#Gradient-based Attribution#Temporal Dynamics#Motion Masking#Fine-tuning#Data Curation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] DreamStyle: A Unified Framework for Video Stylization본 논문은 텍스트, 스타일 이미지, 스타일이 적용된 첫 프레임 등 단일 모달리티 조건에 국한된 기존 비디오 스타일 변환 방법론의 한계를 해결하고, 고품질 데이터 부족 및 시간적 일관성 문제를 극복하여 다중 모달리티 스타일 가이드를 지원하는 통합 프레임워크 를 제안하는 것을 목표로 합니다.#Review#Video Stylization#Unified Framework#Diffusion Models#LoRA#Data Curation#Multi-modal Input#Image-to-Video2026년 1월 6일댓글 수 로딩 중
[논문리뷰] UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement본 논문은 3D 콘텐츠 생성에서 데이터 품질, 기하학적 확장성, 미세 디테일 합성이라는 주요 과제를 해결하기 위해, 고품질의 3D 형상을 효율적으로 생성하는 확장 가능한(scalable) 3D 확산 프레임워크인 UltraShape 1.0 을 제안합니다.#Review#3D Shape Generation#Diffusion Models#Geometric Refinement#Data Curation#Watertight Mesh#Voxel-based#Scalability#High-Fidelity2025년 12월 30일댓글 수 로딩 중
[논문리뷰] Olmo 3Olmo 3는 7B 및 32B 파라미터 스케일에서 최첨단, 완전 오픈(fully-open) 언어 및 사고 모델 제품군을 소개하는 것을 목표로 합니다. 이 연구의 핵심은 모델의 전체 라이프사이클(모든 단계, 체크포인트, 데이터 포인트, 종속성 포함)을 완전히 공개 하여 무한한 커스터마이징과 연구 기회를 제공하는 것입니다.#Review#Large Language Models#Open-Source AI#Model Flow#Long-Context Reasoning#Instruction Following#Function Calling#Thinking Models#Data Curation#Reinforcement Learning2025년 12월 16일댓글 수 로딩 중
[논문리뷰] DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling기존 4D 데이터셋이 다양성, 물리적 스케일, 다중 모달리티 주석 측면에서 제한적이어서 파운데이션 모델이 단일 카메라 비디오에서 실세계 동역학을 정확하게 해석하는 데 한계가 있었습니다.#Review#4D World Modeling#Multimodal Data#Dynamic Scenes#Metric-Scale#Bundle Adjustment#Foundation Models#Video Analysis#Data Curation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment본 논문은 기존 참조 기반 이미지 생성 모델이 미세한 디테일에서 일관성을 유지하지 못하고, 텍스트 및 로고 영역에서 부정확하거나 흐릿하게 생성되는 문제를 해결하는 것을 목표로 합니다.#Review#Image Generation#Image Editing#Diffusion Models#Consistency Correction#Attention Mechanism#Reference-Guided#Agent Framework#Data Curation2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Revisiting Generalization Across Difficulty Levels: It's Not So Easy이 논문은 대규모 언어 모델(LLM)이 다양한 난이도 수준의 태스크에 대해 얼마나 잘 일반화하는지 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM Generalization#Task Difficulty#Item Response Theory#Cross-Difficulty#Data Curation#Model Evaluation#Supervised Fine-Tuning2025년 11월 26일댓글 수 로딩 중
[논문리뷰] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser논문은 대규모 언어 모델(LLM) 학습을 위한 웹 데이터 품질의 중요성을 강조하며, 기존 HTML-to-텍스트 추출 방식의 한계를 해결하고자 합니다.#Review#HTML Extraction#Web Corpus#Large Language Models#Data Curation#Structured Element Preservation#Sequence Labeling#Markdown Conversion#MainWebBench2025년 11월 24일댓글 수 로딩 중
[논문리뷰] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe멀티모달 추론(Multimodal Reasoning) 분야에서 투명하고 재현 가능한 데이터 큐레이션 및 훈련 전략 의 부재로 인한 확장성 연구의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Large Multimodal Models#Supervised Fine-tuning#Reinforcement Learning#Data Curation#Open-source#Multimodal Benchmarks2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Music Flamingo: Scaling Music Understanding in Audio Language Models이 논문은 기존 오디오-언어 모델(ALM)의 표면적인 인식 수준을 넘어 인간과 유사한 심층적인 음악 이해 및 추론 능력을 갖춘 모델을 개발하는 것을 목표로 합니다. 특히 고품질 음악 데이터 부족과 기존 모델의 제한적인 음악 이해 능력을 극복하고자 합니다.#Review#Audio Language Models#Music Understanding#Chain-of-Thought#Reinforcement Learning#Data Curation#Multimodal AI#Music Information Retrieval2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora본 연구는 고품질의 구조화된 아랍어 다중모드 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다. 특히, 웹 문서의 구조적 무결성 과 텍스트-이미지 인터리빙(interleaving) 을 보존하면서 대규모 아랍어 다중모드 코퍼스를 구축하기 위한 파이프라인인 Wasm 을 제시합니다.#Review#Arabic Language#Multimodal Corpus#Data Curation#Web Scraping#Large Language Models#Document Structure#Markdown#Perplexity Filtering2025년 11월 11일댓글 수 로딩 중
[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.#Review#Reinforcement Learning with Verifiable Reward#Competitive Programming#Code Generation#Data Curation#Curriculum Learning#Supervised Fine-tuning#Entropy Expansion2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR대규모 언어 모델(LLMs)이 단계별 추론 과정에서 지나치게 장황해져 추론 비용이 증가하는 문제를 해결하는 것이 목표입니다.#Review#LLMs#RLVR#Length Regularization#Mathematical Reasoning#Data Curation#Model Efficiency#Emergent Brevity2025년 11월 9일댓글 수 로딩 중
[논문리뷰] PHUMA: Physically-Grounded Humanoid Locomotion Dataset본 논문은 기존 휴머노이드 모션 데이터셋의 규모, 다양성 및 물리적 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Humanoid Locomotion#Dataset#Motion Imitation#Physics-based Control#Motion Retargeting#Data Curation#Reinforcement Learning#Inverse Kinematics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer본 논문은 알 수 없는 혼합된 열화가 적용된 실제 저품질(LQ) 이미지에 대해 의미론적 일관성과 지각적 충실도를 유지하면서 범용 이미지 복원(UIR)을 수행하는 것을 목표로 합니다.#Review#Universal Image Restoration#Diffusion Transformer#Caption-Free#Semantic Alignment#Image Quality Assessment#Data Curation#Real-World Degradations#Deep Learning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning본 연구는 기존 SFT(Supervised Fine-Tuning) 기반 이미지 캡셔닝 모델의 한계(고비용 데이터, 제한된 일반화 및 다양성)를 극복하고자 합니다.#Review#Image Captioning#Reinforcement Learning#Verifiable Rewards#LVLMs#VQA#Data Curation#Caption Quality2025년 9월 29일댓글 수 로딩 중
[논문리뷰] MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources본 논문은 대규모 multimodal 추론 모델의 발전을 저해하는 두 가지 주요 한계를 해결하고자 합니다.#Review#Multimodal Reasoning#Reinforcement Learning#Variance-Aware Sampling#Gradient Vanishing#Data Curation#Chain-of-Thought#GRPO2025년 9월 26일댓글 수 로딩 중
[논문리뷰] LIMI: Less is More for Agency현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.#Review#AI Agency#Data Curation#Less Is More#Agentic Intelligence#Foundation Models#Evaluation Benchmark#Efficiency Principle#Large Language Models2025년 9월 23일댓글 수 로딩 중
[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model본 연구는 고성능 멀티모달 보상 모델(MRM) 구축을 위한 체계적인 지침('레시피')을 제공하는 것을 목표로 합니다.#Review#Multimodal Reward Model#MLLM Alignment#RLHF#Reward Head Architecture#Data Curation#Ensemble Methods#BaseReward2025년 9월 22일댓글 수 로딩 중
[논문리뷰] SAIL-VL2 Technical Report본 논문은 포괄적인 멀티모달 이해 및 추론을 위한 개방형 비전-언어 파운데이션 모델인 SAIL-VL2 를 소개합니다. 특히 2B 및 8B 파라미터 스케일에서 다양한 이미지 및 비디오 벤치마크에 걸쳐 최첨단 성능을 달성하며, 효율적이고 확장 가능한 오픈소스 멀티모달 커뮤니티의 기반을 마련하는 것을 목표로 합니다.#Review#Vision-Language Model#Multimodal Understanding#Mixture-of-Experts#Progressive Training#Data Curation#Supervised Fine-tuning#Reinforcement Learning#SAIL-ViT2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval본 연구는 텍스트 기반 인물 검색(Text-based Person Retrieval)에서 CLIP 의 성능 저하를 야기하는 두 가지 주요 문제점을 해결하는 것을 목표로 합니다.#Review#Text-based Person Retrieval#CLIP#MLLM#Data Curation#Dual-Masking#Gradient-Attention#WebPerson Dataset2025년 9월 12일댓글 수 로딩 중
[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric KnowledgeLarge Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.#Review#LLM Factuality#Parametric Knowledge#Benchmark#Question Answering#Data Curation#Evaluation Metrics#Hallucination Mitigation#Large Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis기존 오디오 기반 Talking Head 합성 모델들이 인종, 언어, 연령대 등 다양한 인간 특성에 대한 일반화 능력이 부족하여 발생하는 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Audio-Driven Talking Head Synthesis#Large-Scale Dataset#Data Diversity#Data Curation#Evaluation Benchmark#Generalization Gap#Algorithmic Fairness2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Wan-S2V: Audio-Driven Cinematic Video Generation본 연구는 기존 오디오 기반 캐릭터 애니메이션 모델이 복잡한 영화 및 TV 프로덕션 시나리오(미묘한 상호작용, 현실적인 신체 움직임, 다이내믹한 카메라 워크)에서 한계를 보이는 문제를 해결합니다.#Review#Audio-Driven Video Generation#Cinematic Video#Diffusion Models#Transformer Architecture#Long Video Consistency#Human Animation#Multimodal Control#Data Curation2025년 8월 27일댓글 수 로딩 중
[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.#Review#Video Generation#Foundation Model#Diffusion Model#Transformer#Text-to-Video#Image-to-Video#Super-Resolution#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Intern-S1: A Scientific Multimodal Foundation Model본 논문은 과학 분야에서 오픈 소스 파운데이션 모델과 클로즈드 소스 모델 간의 성능 격차를 줄이고자 합니다.#Review#Multimodal Foundation Model#Scientific AI#Reinforcement Learning#Mixture-of-Experts (MoE)#Dynamic Tokenizer#Data Curation#Low-Resource Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models본 논문은 기존 일반 목적 Process Reward Models (PRMs)이 금융과 같은 도메인 특화 태스크에서 요구되는 정밀성, 사실성, 논리적 일관성을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Large Language Models#Process Reward Models#Financial Reasoning#Domain Specialization#RLHF#Best-of-N Selection#Data Curation2025년 8월 22일댓글 수 로딩 중
[논문리뷰] TexVerse: A Universe of 3D Objects with High-Resolution Textures본 연구의 핵심 목표는 고해상도 텍스처와 PBR(Physically Based Rendering) 재료를 특징으로 하는 대규모 3D 객체 데이터셋의 부족 문제를 해결하는 것입니다.#Review#3D Dataset#High-Resolution Textures#Physically Based Rendering (PBR)#3D Animation#Data Curation#GPT-5 Annotations#Sketchfab2025년 8월 18일댓글 수 로딩 중
[논문리뷰] InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 확장 가능 하고 샘플 효율적인 후속 학습 프레임워크인 InfiAlign 을 제안합니다. 특히, 데이터 및 계산 비용이 많이 드는 기존 방법론의 한계를 극복하고, 적은 양의 고품질 데이터로도 LLM 정렬을 효과적으로 수행하는 것을 목표로 합니다.#Review#LLM Alignment#Reasoning#Data Curation#Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#Sample Efficiency#Scalability#Multi-dimensional Filtering2025년 8월 8일댓글 수 로딩 중
[논문리뷰] MiDashengLM: Efficient Audio Understanding with General Audio Captions본 논문은 기존 대규모 오디오 언어 모델(LALM)이 직면한 폐쇄형 데이터 의존성, 일반화 및 접근성 한계, 그리고 자동 음성 인식(ASR) 기반 사전 훈련의 비효율성을 해결하고자 합니다.#Review#Audio-Language Model#General Audio Captions#Audio Understanding#Speech Recognition#Efficient Inference#Public Datasets#Multimodality#Data Curation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Gaperon: A Peppered English-French Generative Language Model Suite논문은 대규모 언어 모델 훈련의 투명성과 재현성을 높이기 위해 프랑스어-영어 이중 언어 생성형 언어 모델 스위트 GAPERON 을 공개합니다.#Review#Bilingual LLMs#Data Curation#Benchmark Contamination#Data Poisoning#Open Science#Reproducibility#Generative Models#French-English2025년 10월 30일댓글 수 로딩 중
[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.#Review#German Commons#Large Language Models#Training Data#Openly Licensed Text#Data Curation#German NLP#Corpus Construction#Quality Filtering2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs본 논문은 데이터 품질 격차로 인해 독점 모델에 뒤처지는 Fully Open MLLM 의 한계를 해결하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Data Curation#Supervised Fine-tuning#Chain-of-Thought#Open-source AI#Data Quality#MLLM Training2025년 10월 16일댓글 수 로딩 중
[논문리뷰] HoneyBee: Data Recipes for Vision-Language Reasoners본 연구는 고성능 시각-언어(VL) 추론 훈련 데이터셋 구축의 원리를 규명하고, 다양한 데이터 큐레이션 접근 방식이 VL 추론 능력에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.#Review#Vision-Language Models#Data Curation#Chain-of-Thought#VL Reasoning#Dataset Scaling#Supervised Finetuning#HONEYBEE#Test-Time Scaling2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought본 논문은 중간 자원 언어(mid-resource language)에서 언어별 추론의 격차를 해소하고, 번역으로 인한 품질 저하 및 일상 표현에 대한 취약성을 극복하는 것을 목표로 합니다. 특히 한국어를 사례 연구로 하여, 다국어 추론 모델의 성능을 향상시키기 위한 효과적인 방법론을 제시하고자 합니다.#Review#Multilingual Reasoning#Chain-of-Thought (CoT)#Language-Mixed CoT#Instruction Tuning#Korean LLMs#Data Curation#Supervised Fine-tuning (SFT)2025년 10월 9일댓글 수 로딩 중
[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline현재 기계 학습 엔지니어링(MLE) 벤치마크 는 수동 큐레이션에 의존하여 확장성이 낮고 적용 가능성이 제한적입니다. 본 연구는 이러한 문제를 해결하기 위해 LLM(Large Language Model) 에이전트 를 위한 고품질의 확장 가능한 MLE 태스크를 자동으로 생성하는 프레임워크를 개발하는 것을 목표로 합니다.#Review#MLE (Machine Learning Engineering)#Automated Task Generation#Multi-Agent System#LLM Agents#Benchmark#Data Curation#Hybrid Verification#Kaggle2025년 10월 9일댓글 수 로딩 중
[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#Process Reward Models#Tabular Reasoning#Test-Time Scaling#Tool Integration#Reinforcement Learning#Supervised Fine-tuning#Large Language Models#Data Curation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature본 논문은 과학 문헌에서 화학 조성-물성 구조 데이터와 합성 정보를 추출하기 위한 자동화되고 사용자 친화적인 멀티 에이전트 기반 프레임워크 를 개발하는 것을 목표로 합니다.#Review#Multi-agent Systems#Large Language Models (LLMs)#Information Extraction#Scientific Literature#Materials Science#Data Curation#Piezoelectric Materials#RAG (Retrieval-Augmented Generation)2025년 10월 24일댓글 수 로딩 중
[논문리뷰] FineVision: Open Data Is All You Need파편화되고 일관성 없으며 오염된 공개 데이터셋으로 인해 저해되는 Vision-Language Model (VLM) 연구의 한계를 극복하는 것이 목표입니다.#Review#Multimodal Datasets#VLM#Data Curation#Data Hygiene#De-duplication#Human-in-the-loop#GUI Automation#Test-set Decontamination2025년 10월 21일댓글 수 로딩 중
[논문리뷰] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM본 연구는 인간처럼 여러 모달리티에 걸쳐 세상을 인지하고 추론할 수 있는 강력한 오픈소스 옴니모달 LLM(Omni-Modal LLM) 인 OmniVinci 를 구축하는 것을 목표로 합니다.#Review#Omni-Modal LLM#Multimodal Understanding#Vision-Audio Alignment#Temporal Reasoning#Data Curation#Foundation Models#Contrastive Learning#Rotary Time Embedding2025년 10월 20일댓글 수 로딩 중
[논문리뷰] DA^2: Depth Anything in Any Direction파노라마 깊이 추정 분야에서 데이터 부족 , 제로샷 일반화 성능 저하 , 그리고 구형 왜곡 처리의 비효율성 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 이를 통해 정확하고, 제로샷 일반화가 가능하며, 완전히 엔드-투-엔드 방식의 파노라마 깊이 추정 모델을 제시하고자 합니다.#Review#Panoramic Depth Estimation#Zero-shot Generalization#Data Curation#SphereViT#Spherical Geometry#360-degree Imaging#Vision Transformer2025년 10월 1일댓글 수 로딩 중