Академия Яндекса115 тыс
Опубликовано 16 мая 2024, 17:19
Спикер: Леша Зотов, руководитель группы качества данных YandexGPT
Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
arxiv.org/abs/2203.15556 Training Compute-Optimal Large Language Models (Hoffman et al., 2022)
arxiv.org/abs/2305.16264 Scaling Data-Constrained Language Models (Muennighoff et al., 2023)
arxiv.org/abs/2306.01116 The RefinedWeb Dataset for Falcon LLM
arxiv.org/abs/2308.13418 Nougat: Neural Optical Understanding for Academic Documents
arxiv.org/abs/2112.11446 Scaling Language Models: Methods, Analysis & Insights from Training Gopher
arxiv.org/abs/2310.06786 OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text
cse.iitkgp.ac.in/~animeshm/alg... Объяснение Minhash + LSH алгоритма
arxiv.org/abs/2308.12284 D4: Improving LLM Pretraining via Document De-Duplication and Diversification
arxiv.org/abs/2306.11644 Textbooks Are All You Need
arxiv.org/abs/2310.10638 In-Context Pretraining: Language Modeling Beyond Document Boundaries
arxiv.org/abs/2305.10429 DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
arxiv.org/abs/2203.15556 Training Compute-Optimal Large Language Models (Hoffman et al., 2022)
arxiv.org/abs/2305.16264 Scaling Data-Constrained Language Models (Muennighoff et al., 2023)
arxiv.org/abs/2306.01116 The RefinedWeb Dataset for Falcon LLM
arxiv.org/abs/2308.13418 Nougat: Neural Optical Understanding for Academic Documents
arxiv.org/abs/2112.11446 Scaling Language Models: Methods, Analysis & Insights from Training Gopher
arxiv.org/abs/2310.06786 OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text
cse.iitkgp.ac.in/~animeshm/alg... Объяснение Minhash + LSH алгоритма
arxiv.org/abs/2308.12284 D4: Improving LLM Pretraining via Document De-Duplication and Diversification
arxiv.org/abs/2306.11644 Textbooks Are All You Need
arxiv.org/abs/2310.10638 In-Context Pretraining: Language Modeling Beyond Document Boundaries
arxiv.org/abs/2305.10429 DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining
Свежие видео
Случайные видео
Религиозная жизнь и расцвет церкви в Советской России 1919-1922 гг. – Георгий Хмуркин | История СССР