Интенсив GPT Week. Лекция 2.1.: "Про претрейн LLM"

6 410
10.6
Опубликовано 16 мая 2024, 17:18
Спикер: Миша Хрущёв, руководитель группы претрейна YandexGPT

Вспомогательные ссылки:
1) Трансформеры и Attention: arxiv.org/abs/1706.03762
2) GPT-3: arxiv.org/abs/2005.14165
3) Поиск оптимального времени обучения для моделей: arxiv.org/abs/2203.15556
4) Llama: arxiv.org/abs/2302.13971 и arxiv.org/abs/2307.09288
5) Adan: arxiv.org/abs/2208.06677
6) FSDP: pytorch.org/tutorials/intermed... .
7) DeepSpeed - фреймворк для распределенного обучения. Мы от него отошли, но там куча полезных статей: deepspeed.ai
8) RoPE: arxiv-vanity.com/papers/2104.0...
жизньигрыфильмывесельеавтотехномузыкаспортедаденьгистройкаохотаогородзнанияздоровьекреативдетское