Frontera распределенный робот для обхода веба в больших объемах / Александр Сибиряков (Scrapinghub)
1 020
16.2
Онтико85 тыс
Следующее
Опубликовано 7 апреля 2017, 18:40
Приглашаем на конференцию HighLoad++ 2024, которая пройдет 2 и 3 декабря в Москве!
Программа, подробности и билеты по ссылке: clck.ru/3DD4yb
--------
HighLoad++ 2015
Презентация и тезисы:
highload.ru/2015/abstracts/194...
В этом докладе я собираюсь поделиться нашим опытом обхода испанского интернета. Мы поставили перед собой задачу обойти около 600 тысяч веб-сайтов в зоне .es с целью сбора статистики об узлах и их размерах. Я расскажу об архитектуре робота, хранилища, проблемах, с которыми мы столкнулись при обходе, и их решении.
...
Программа, подробности и билеты по ссылке: clck.ru/3DD4yb
--------
HighLoad++ 2015
Презентация и тезисы:
highload.ru/2015/abstracts/194...
В этом докладе я собираюсь поделиться нашим опытом обхода испанского интернета. Мы поставили перед собой задачу обойти около 600 тысяч веб-сайтов в зоне .es с целью сбора статистики об узлах и их размерах. Я расскажу об архитектуре робота, хранилища, проблемах, с которыми мы столкнулись при обходе, и их решении.
...