Мэтт Каттс объяснил «на пальцах», как работает Google

Известного нам Мэтта Каттса попросил рассказать о технологии работы поиска Google один из пользователей. Мэтт, не отделавшись шуткой, кратко изложил суть процесса.

В основу работы хорошего поисковика он положил три фундаментальных вещи: глубокое и всестороннее сканирование сети, индексирование страниц, ранжирование и возвращение релевантных результатов.

Он обратил внимание на краулинг, сказав, что это гораздо сложнее, нежели представляют пользователи. Поисковик быстрее сканирует сайты с высоким page rank, имеющие авторитетные ссылки. Практически краулинг увязан с page rank. Процесс занимает около 30-и дней. Затем начинается индексация и обработка данных. Учитывая обновляемость ресурсов, робот возвращается на сайты, стоящие в выдаче высоко, чаще.

Процесс индексации основан на следующем принципе: Вы ищите, например, Katy Perry. Поисковик отбирает документы, в которых есть Katy, затем — Perry. После анализа этих страниц, отбрасываются те, которые не содержат Katy Perry.

Дальше, отобранные страницы, надо ранжировать. Эта технология учитывает page rank и еще примерно 200 факторов. Например, частота, с которой встречается на странице слово Perry или следование слов Katy и Perry в заданной последовательности. Балансируя между всеми факторами, Google обрабатывает сотни миллионов запросов ежедневно.

Вы так же можете ознакомиться с другими статьями на эту же тему: