Интенсив GPT Week. Лекция 5: "Ускорение инференса LLM"

2 657
11.5
Опубликовано 16 мая 2024, 17:19
Спикер: Рома Горб, разработчик группы претрейна YandexGPT

Вспомогательные ссылки:
Канал в телеге: t.me/gromka_public

Про GPU и ускорение pretrain-a: habr.com/en/companies/yandex/a...

Курс Practical RL в ШАД-е: github.com/yandexdataschool/Pr...

Статья MiniLLM: arxiv.org/abs/2002.10957
Статья LLM.int8(): arxiv.org/abs/2208.07339
Статья SmoothQuant: arxiv.org/abs/2211.10438
Статья GPT-Q (OPT-Q): arxiv.org/abs/2210.17323

Сравнение фреймворков: sersavvov.com/blog/7-framework...
Continuous Batching: anyscale.com/blog/continuous-b...
PEFT и API sharing: habr.com/en/companies/yandex/a...
Speculative Decoding: arxiv.org/abs/2302.01318
жизньигрыфильмывесельеавтотехномузыкаспортедаденьгистройкаохотаогородзнанияздоровьекреативдетское