Интенсив GPT Week. Лекция 4: "Alignment"

3 827

7.3

Академия Яндекса115 тыс

Следующее

228 дней – 4 7931:33:21

Интенсив GPT Week. Лекция 3: "Подготовка данных для обучения претрейна"

Популярные

48 дней – 10 9044:15:02

YaC/e 2024 | Студенческая лаборатория

228 дней – 6 52254:46

Интенсив GPT Week. Лекция 2.1.: "Про претрейн LLM"

Опубликовано 16 мая 2024, 17:19

Спикер: Паша Темирчев, разработчик группы поиска смысла

Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
1) A General Language Assistant as a Laboratory for Alignment, arxiv.org/abs/2112.00861
Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.
2) Reinforcement Learning Textbook, Ivanov S., arxiv.org/abs/2201.09746
Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем)
3) Proximal Policy Optimization, arxiv.org/abs/1707.06347
РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment
В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.
4) Direct Preference Optimization arxiv.org/pdf/2305.18290.pdf
Метод alignment'а, с которым мы познакомимся на семинаре

Свежие видео

5 дней – 116 37924:14

Треш на корпоративе Skyeng | Иностранцы в шоке от русских новогодних конкурсов 😱🎉

5 дней – 76453:15

Языковой вопрос на пути обретения мира и согласия между людьми, странами, народами

7 дней – 26 12020:30

История Пророков #20: Как Ибрахим и Исмаил построили Каабу | Шейх Набиль аль-Авады

8 дней – 1 5671:38:58

АСТРОНЕДЕЛЯ: Астрономические явления с 23 по 29 декабря 2024

9 дней – 5 5147:22

Закон бумеранга, карма неизбежна

9 дней – 7090:34

Жизненные уроки: Почему важно проживать каждый этап? #Подкаст #УрокиЖизни #Уроки #Shorts

Случайные видео

151 день – 1 4513:08

Мой Ангел-Велосипедист не продается. О судьбе Ютуба, записи вебинара с Аленом с полезными приемами

301 день – 7 7442:05:26

Евгений Коблик: "Природная среда и её обитатели"

313 дней – 38930:53

Как сформировать знания учеников о кредитах, чтобы избежать ошибок в будущем?

06.11.23 – 79 3111:05:53

Максим Токарев. "November Rain". Часть 2. "Главные герои"

12.08.22 – 3 0651:38

Франкенштейн счастья

05.10.12 – 82823:00

Когда офисы далеко друг от друга Серия 30

5 часов – 907:32

Саморазвитие. Празднование. Алексей Орлов

2 дня – 22211:21

Вечер авторской песни: МПГУ – «поющая семья»

2 дня – 11 12113:00

Как Строят Аэс Аккую?

2 дня – 20 71020:06

29 декабря, Воскресенье. Евангелие дня 2024 короткое! Рождественский пост

9 дней – 244 18947:44

Барон Унгерн: белогвардейский Бог Войны // Redroom

11 дней – 3 5931:07:28

А вы знаете этого сподвижника? | САМЫЙ НЕИЗВЕСТНЫЙ - Аль-Аббас ибн Абдуль-Мутталиб | Мохамад Хамед

12 дней – 5271:00

Совместная работа в космосе - советы космонавта🪐

1 день – 1 93910:34

14 самых нужных английских слов, чтобы описать конец 2024 года

жизнь игры фильмы веселье авто техно музыка спорт еда деньги стройка охота огород знания здоровье креатив детское

Последние видео обучение О рейтинге Добавить канал English