Интенсив GPT Week. Семинар 3: "Alignment"

2 451

7.9

Академия Яндекса116 тыс

Следующее

223 дня – 3 14545:36

Интенсив GPT Week. Лекция 5: "Ускорение инференса LLM"

Популярные

08.09.22 – 1 87652:40

Как сделать генеративную музыку — Николай Глазырин

29.09.21 – 3 1061:13:33

Тренировки по алгоритмам 2.0. Разбор домашнего задания по лекциям 7 и 8, дивизион A

Опубликовано 16 мая 2024, 17:19

Спикер: Паша Темирчев, разработчик группы поиска смысла

Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
1) A General Language Assistant as a Laboratory for Alignment, arxiv.org/abs/2112.00861
Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.
2) Reinforcement Learning Textbook, Ivanov S., arxiv.org/abs/2201.09746
Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем)
3) Proximal Policy Optimization, arxiv.org/abs/1707.06347
РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment
В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.
4) Direct Preference Optimization arxiv.org/pdf/2305.18290.pdf
Метод alignment'а, с которым мы познакомимся на семинаре

Свежие видео

2 дня – 3 4460:25

Лайфхак по произношению от Вени

4 дня – 2 5750:43

СКРОМНЫЙ ГЕРОЙ #мирадио #новости #дагестан #герой

5 дней – 2 94236:13

Государство всеобщего благосостояния | Лекция из курса «История независимой Мексики»

6 дней – 20 88821:36

Бракосочетание в Коране | Нуман Али Хан

9 дней – 1 132 0882:47

Финеас Гейдж был первым человеком, которому диагностировали обширное повреждение лобного отдела...

9 дней – 6 3220:57

Демонтаж в мечети | видео от @HalalWorldWay #мирадио #новости #islam @MOSCOWHALAL

Случайные видео

190 дней – 2 49210:56

[Перенос на завтра] Запуск спутника SES ASTRA 1P ракетой Falcon 9

14.03.23 – 6 2343:57

Когда вам плохо, как качать эндорфин и переключать доминанту. Хасай Алиев. Метод Ключ.

12.03.23 – 4 7455:07

Мы можем ошибаться, а Господь нет!

19.11.22 – 14 7390:32

От чего помогает уринотерапия?

27.09.21 – 1121:01

Упражнение №485 §32. Ось симметрии фигуры - ГДЗ по математике 6 класс (Бунимович)

24.03.15 – 10 97214:09

Взаимодействие власти и фольклора — Александра Архипова

15 часов – 20840:11

Как мы учились управлять миллионами учетных записей и их секретами / Дмитрий Чехлыстов (Сбер)

1 день – 3 7496:53:19

Онлайн-конференция Совета Согласия "План преображения Руси"

1 день – 11 1194:18

Как подключиться к силе Источника

2 дня – 4 3380:35

Счастье - не цель, а продукт осмысленной жизни I Нуман Али Хан

7 дней – 1151:01:56

Выученная беспомощность и её роль в обучении детей

7 дней – 3 43712:53

Раньше было лучше или восприятие прошлого в Китае – Сергей Дмитриев | История Китая | Китаеведение

8 дней – 14 0313:33

Отвернитесь, от того, что вас огорчает

19 часов – 98913:50

Памятники первобытного искусства России – Елена Леванова | Лекции по археологии | Научпоп

жизнь игры фильмы веселье авто техно музыка спорт еда деньги стройка охота огород знания здоровье креатив детское

Последние видео обучение О рейтинге Добавить канал English