Академия Яндекса116 тыс
Опубликовано 16 мая 2024, 17:19
Спикер: Паша Темирчев, разработчик группы поиска смысла
Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
1) A General Language Assistant as a Laboratory for Alignment, arxiv.org/abs/2112.00861
Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.
2) Reinforcement Learning Textbook, Ivanov S., arxiv.org/abs/2201.09746
Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем)
3) Proximal Policy Optimization, arxiv.org/abs/1707.06347
РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment
В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.
4) Direct Preference Optimization arxiv.org/pdf/2305.18290.pdf
Метод alignment'а, с которым мы познакомимся на семинаре
Статьи, на которые есть отсылки в лекции или которые использовались при подготовке материала:
1) A General Language Assistant as a Laboratory for Alignment, arxiv.org/abs/2112.00861
Статья от Anthropic, в которой вводится терминология Harmless, Helpful, Honest агента, и в целом описан процесс обучения модели предпочтений.
2) Reinforcement Learning Textbook, Ivanov S., arxiv.org/abs/2201.09746
Конспект лекций по обучению с подкреплением от Сергея Иванова на русском языке (рекомендуем)
3) Proximal Policy Optimization, arxiv.org/abs/1707.06347
РРО - алгоритм, который обычно используется в дообучении LMок на задачу Alignment
В лекции мы его проскочили вскользь, разобрав его базу - градиент по политике.
4) Direct Preference Optimization arxiv.org/pdf/2305.18290.pdf
Метод alignment'а, с которым мы познакомимся на семинаре