Интенсив GPT Week. Лекция 3: "Подготовка данных для обучения претрейна"

4 696
11.3
Опубликовано 16 мая 2024, 17:19
Спикер: Леша Зотов, руководитель группы качества данных YandexGPT

Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
arxiv.org/abs/2203.15556 Training Compute-Optimal Large Language Models (Hoffman et al., 2022)
arxiv.org/abs/2305.16264 Scaling Data-Constrained Language Models (Muennighoff et al., 2023)
arxiv.org/abs/2306.01116 The RefinedWeb Dataset for Falcon LLM
arxiv.org/abs/2308.13418 Nougat: Neural Optical Understanding for Academic Documents
arxiv.org/abs/2112.11446 Scaling Language Models: Methods, Analysis & Insights from Training Gopher
arxiv.org/abs/2310.06786 OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text
cse.iitkgp.ac.in/~animeshm/alg... Объяснение Minhash + LSH алгоритма
arxiv.org/abs/2308.12284 D4: Improving LLM Pretraining via Document De-Duplication and Diversification
arxiv.org/abs/2306.11644 Textbooks Are All You Need
arxiv.org/abs/2310.10638 In-Context Pretraining: Language Modeling Beyond Document Boundaries
arxiv.org/abs/2305.10429 DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
жизньигрыфильмывесельеавтотехномузыкаспортедаденьгистройкаохотаогородзнанияздоровьекреативдетское