[논문리뷰] Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders본 논문은 LLM post-training에서 데이터 엔지니어링이 모델 성능 향상의 핵심임에도 불구하고, 기존 방식들은 주로 외부 피드백(인간 선호도, 보상 모델, rollout 결과 등)에 의존하여 비용이 높고 효율성이 제한적이라는 문제에서 출발한다.#Review#Sparse Autoencoder#LLM Post-training#Reinforcement Learning#Data Engineering#Mechanistic Interpretability#Curriculum Learning#Data Selection2026년 5월 27일댓글 수 로딩 중
[ray] [Ray Data] Wide Schema에서 10배 성능 향상을 이끌어낸 한 줄의 설정: Parquet pre_buffer의 마법Ray Data V2에서 wide schema Parquet 파일을 읽을 때 발생하는 I/O 병목 현상을 pre_buffer 설정을 통해 해결하고 성능을 10배 개선한 사례를 분석합니다.#Ray#PyArrow#Parquet#Performance Optimization#Data Engineering2026년 5월 19일댓글 수 로딩 중
[feast] Feast Online Serving 최적화: 3단계 데이터 변환을 단일 패스로 통합하기Feast의 온라인 피처 서빙 경로에서 불필요한 반복과 메모리 할당을 제거하여 성능을 개선한 사례를 분석합니다.#Feast#Python#Performance#Optimization#Data Engineering2026년 3월 31일댓글 수 로딩 중
[논문리뷰] On Data Engineering for Scaling LLM Terminal Capabilities본 논문은 최신 터미널 에이전트의 훈련 데이터 전략에 대한 정보 부족을 해결하고자 합니다. LLM의 터미널 역량 확장을 위한 데이터 엔지니어링 실천법을 체계적으로 연구하고, 효율적이고 확장 가능한 데이터 생성 프레임워크를 통해 효과적인 터미널 에이전트를 훈련하는 것을 목표로 합니다.#Review#LLM#Terminal Agents#Data Engineering#Synthetic Data Generation#Supervised Fine-tuning (SFT)#Terminal-Bench#Nemotron-Terminal#Dataset Adapters2026년 2월 24일댓글 수 로딩 중
[논문리뷰] ArXiv-to-Model: A Practical Study of Scientific LM Training본 연구는 raw arXiv LaTeX 소스 를 활용하여 도메인 특화 과학 언어 모델(Scientific LM)을 훈련하는 실제적이고 투명한 과정을 문서화하는 것을 목표로 합니다.#Review#Scientific Language Models#LLM Training#ArXiv#LaTeX Processing#Tokenization#Resource Constraints#Pretraining#Data Engineering2026년 2월 19일댓글 수 로딩 중
[논문리뷰] POINTS-GUI-G: GUI-Grounding Journey본 논문은 최소한의 GUI grounding 능력을 가진 POINTS-1.5 와 같은 기반 모델에서 출발하여, GUI grounding을 위한 완전한 기술 파이프라인을 구축하고 자동화하는 것을 목표로 합니다.#Review#GUI Grounding#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering#UI Automation#Perception-intensive AI2026년 2월 8일댓글 수 로딩 중
[논문리뷰] DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle본 논문은 기존 벤치마크가 놓치고 있는 실제 기업 데이터 인텔리전스 워크플로우의 복잡성 을 반영하여, 데이터 에이전트의 포괄적인 성능을 평가 하는 DAComp 벤치마크를 제시합니다.#Review#Data Agents#Benchmarking#Data Engineering#Data Analysis#LLM-as-Judge#Full Data Intelligence Lifecycle#Repository-Level#Open-Ended Tasks2025년 12월 4일댓글 수 로딩 중
[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and Planning이 논문은 Mobile/PC 환경에서 복잡한 작업을 자동화하는 GUI 에이전트 의 핵심 역량을 강화하는 오픈소스 파운데이션 모델, Ultron 을 제시합니다.#Review#GUI Agent#Foundational Model#Multimodal LLM#Perception#Planning#Reinforcement Learning#Data Engineering#Chinese App Scenarios2025년 9월 1일댓글 수 로딩 중