Эффективные алгоритмы поиска подобных объектов для терабайтов данных / Евгений Журин (Segmento)
526
15.9
Онтико84.9 тыс
Опубликовано 7 апреля 2017, 19:30
Приглашаем на конференцию HighLoad++ 2024, которая пройдет 2 и 3 декабря в Москве!
Программа, подробности и билеты по ссылке: clck.ru/3DD4yb
--------
HighLoad++ 2015
Презентация и тезисы:
highload.ru/2015/abstracts/186...
Segmento DMP хранит сотни миллионов анонимных профилей пользователей интернета. Часть из задач отдела Data Science связана с их кластеризацией и поиском нечетких дубликатов. Для успешного решения этих задач необходимо вычислить метрики сходства между профилями. Brute force подход на таких объемах данных уже не сработает, поэтому мы выбрали другой путь.
...
Программа, подробности и билеты по ссылке: clck.ru/3DD4yb
--------
HighLoad++ 2015
Презентация и тезисы:
highload.ru/2015/abstracts/186...
Segmento DMP хранит сотни миллионов анонимных профилей пользователей интернета. Часть из задач отдела Data Science связана с их кластеризацией и поиском нечетких дубликатов. Для успешного решения этих задач необходимо вычислить метрики сходства между профилями. Brute force подход на таких объемах данных уже не сработает, поэтому мы выбрали другой путь.
...
Свежие видео
Случайные видео