@Mail.Ru Group Конференция «Форум Технологий» 2013

Доклад

Поиск нечетких дубликатов в масштабах Рунета

Алексей Романенко

Ведущий программист, Mail.Ru Group

Одной из важных задач любой поисковой системы является выявление нечетких дубликатов в индексе. В докладе будут рассмотрены методы для поиска таких документов в коллекции, состоящей из миллиардов документов. Также будет рассказано, как задача нахождения дубликатов была реализована в рамках проекта Поиск@Mail.Ru

from

Get Adobe Flash player