Академия Яндекса115 тыс
Опубликовано 16 мая 2024, 17:18
Спикер: Миша Хрущёв, руководитель группы претрейна YandexGPT
Вспомогательные ссылки:
1) Трансформеры и Attention: arxiv.org/abs/1706.03762
2) GPT-3: arxiv.org/abs/2005.14165
3) Поиск оптимального времени обучения для моделей: arxiv.org/abs/2203.15556
4) Llama: arxiv.org/abs/2302.13971 и arxiv.org/abs/2307.09288
5) Adan: arxiv.org/abs/2208.06677
6) FSDP: pytorch.org/tutorials/intermed... .
7) DeepSpeed - фреймворк для распределенного обучения. Мы от него отошли, но там куча полезных статей: deepspeed.ai
8) RoPE: arxiv-vanity.com/papers/2104.0...
Вспомогательные ссылки:
1) Трансформеры и Attention: arxiv.org/abs/1706.03762
2) GPT-3: arxiv.org/abs/2005.14165
3) Поиск оптимального времени обучения для моделей: arxiv.org/abs/2203.15556
4) Llama: arxiv.org/abs/2302.13971 и arxiv.org/abs/2307.09288
5) Adan: arxiv.org/abs/2208.06677
6) FSDP: pytorch.org/tutorials/intermed... .
7) DeepSpeed - фреймворк для распределенного обучения. Мы от него отошли, но там куча полезных статей: deepspeed.ai
8) RoPE: arxiv-vanity.com/papers/2104.0...
Свежие видео
Случайные видео