Интенсив GPT Week. Лекция 3: "Подготовка данных для обучения претрейна"

4 794

11.5

Академия Яндекса115 тыс

Следующее

231 день – 3 8271:54:41

Интенсив GPT Week. Семинар 2: "Подготовка данных для обучения претрейна"

Популярные

71 день – 35156:57

Робот-доставщик Яндекса | Демодуляция 2024

01.11.23 – 2 1580:27

Айти только для программистов?

Опубликовано 16 мая 2024, 17:19

Спикер: Леша Зотов, руководитель группы качества данных YandexGPT

Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
arxiv.org/abs/2203.15556 Training Compute-Optimal Large Language Models (Hoffman et al., 2022)
arxiv.org/abs/2305.16264 Scaling Data-Constrained Language Models (Muennighoff et al., 2023)
arxiv.org/abs/2306.01116 The RefinedWeb Dataset for Falcon LLM
arxiv.org/abs/2308.13418 Nougat: Neural Optical Understanding for Academic Documents
arxiv.org/abs/2112.11446 Scaling Language Models: Methods, Analysis & Insights from Training Gopher
arxiv.org/abs/2310.06786 OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text
cse.iitkgp.ac.in/~animeshm/alg... Объяснение Minhash + LSH алгоритма
arxiv.org/abs/2308.12284 D4: Improving LLM Pretraining via Document De-Duplication and Diversification
arxiv.org/abs/2306.11644 Textbooks Are All You Need
arxiv.org/abs/2310.10638 In-Context Pretraining: Language Modeling Beyond Document Boundaries
arxiv.org/abs/2305.10429 DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

Свежие видео

7 дней – 27 69522:35

История Пророков #21: Ибрахим и Чудо воскрешения птиц | Шейх Набиль аль-Авады

8 дней – 1 8598:43

Тот, кто приносит подарки зимой

10 дней – 6643:35

Татьяна Зозуля и Дарья Петрик - Профессиональный художник-декоратор | Сделано женщиной

10 дней – 1 5442:08:05

Здравствуй, Новый год! Прямой эфир открытого лектория ИИП

10 дней – 1 3241:10:56

Лекция "Грузия как перекресток птичьих путей" в рамках презентации календаря Никиты Тиунова

11 дней – 1 5711:38:58

АСТРОНЕДЕЛЯ: Астрономические явления с 23 по 29 декабря 2024

Случайные видео

19 дней – 1 6741:50:17

🔴 ВСЕ РАДИ ПРОСМОТРОВ НА YOUTUBE. Коноден устроит шоу в прямом эфире

16.12.23 – 1 14757:22

Певица, актриса театра и кино Ирина Епифанова в программе "Хорошо, что вы пришли"

23.11.23 – 6 7492:16

КЛЮЧЕВОЕ ДЫХАНИЕ. 1 минута для благоденствия в работе сидя, стоя, беге, или лежа. Хасай Алиев.

17.10.23 – 199 9491:00

Кокосовый Краб и Кнут Скорпион

22.01.22 – 6 1470:58

Что делать, если ничего не хочется?Психолог Наталия Кучеренко #short

26.08.21 – 1 78917:04

Adverbs. Наречия (Субтитры). Видеоурок по английскому языку 5-6 класс

4 дня – 5691:29

😡МАНИПУЛЯЦИЯ СОВЕСТЬЮ #мирадио #новости #Коран @fondzakat

5 дней – 32 48720:51

Царь Ирод. Самый чудовищный правитель в истории. Расследование - кем он был? История с Artifex

7 дней – 7 3610:37

Финал 2024: Иностранцы решают русские корпоративные конкурсы!

9 дней – 1 1912:19:16

Андрей Якимов: "Адаптация и интеграция: смысл, концепции и подходы"

9 дней – 88 8670:17

Разница между this, that, these, those

11 дней – 33 07620:03

23 декабря, Понедельник. Евангелие дня 2024 короткое! Рождественский пост

11 дней – 1 7643:44

РАДОСТЬ СЕРДЕЦ БЛАГОЧЕСТИВЫХ: Хадис #44 - Поддержание хороших отношений с женой

1 день – 1 5709:53

Можно ли в Рождественский пост посещать с детьми новогодние представления?

4 дня – 3 87520:06

29 декабря, Воскресенье. Евангелие дня 2024 короткое! Рождественский пост

жизнь игры фильмы веселье авто техно музыка спорт еда деньги стройка охота огород знания здоровье креатив детское

Последние видео обучение О рейтинге Добавить канал English