Как мы качаем 60 миллионов страниц в день из Веба / Александр Сибиряков (Scrapinghub)

3 732
13.4
Онтико84.4 тыс
Опубликовано 15 мая 2019, 9:41
Приглашаем на конференцию HighLoad++ 2024, которая пройдет 2 и 3 декабря в Москве!
Программа, подробности и билеты по ссылке: clck.ru/3DD4yb
--------
HighLoad++ Moscow 2018

Тезисы и презентация:
highload.ru/moscow/2018/abstra...

В этом докладе я расскажу о том, как мы построили контент-систему для поисковой машины одного из наших клиентов. Их задачей было обойти 14М доменов, скачать с каждого не более 100 разных страниц в течение месяца и осуществить пере-обход в следующих месяцах. Система должна быть вежливой по отношению к веб-сайтам, не перегружать чрезмерным RPS и уважать robots.txt. При этом расходы на железо и обслуживание системы должны быть минимальными, а производительность высокой: минимум 600 страниц в секунду.
….

Нашли ошибку в видео? Пишите нам на support@ontico.ru
жизньигрыфильмывесельеавтотехномузыкаспортедаденьгистройкаохотаогородзнанияздоровьекреативдетское