Как мы варим данные Gigachat Pretrain / Иван Басков

177
Онтико85.3 тыс
Опубликовано 25 декабря 2024, 13:39
Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем HighLoad++ 2024

2 и 3 декабря 2024.
Москва, Кампус СКОЛКОВО

Презентация и тезисы:
highload.ru/moscow/2024/abstra...

Мы обсудим, что такое претрейн-данные и как выглядит карта кластеров веб-данных, охватывающая русскоязычные и англоязычные сегменты сети. Поговорим про отбор данных: удаление дубликатов на больших объемах, классификацию по обучающей ценности, и эксперименты, которые помогают оценить их качество. Также рассмотрим вызовы кластеризации эмбеддингов с миллиардами объектов.
...
--------
Нашли ошибку в видео? Пишите нам на support@ontico.ru
жизньигрыфильмывесельеавтотехномузыкаспортедаденьгистройкаохотаогородзнанияздоровьекреативдетское