Один из пользователей попросил Мэтта Каттса, руководителя группы Google Webspam, рассказать, как работает поиск Google. «Это почти то же самое, что расскажите мне все о Google», – пошутил Мэтт, но попытался в общих словах обрисовать процесс.
Если вы хотите стать лучшей поисковой системой в мире, нужно уметь делать хорошо три вещи: сканировать всесторонне и глубоко интернет, индексировать страницы, ранжировать и возвращать наиболее релевантные результаты, говорит Мэтт.
Краулинг гораздо более сложный процесс, чем его себе представляют пользователи. Чем выше у страницы page rank, чем чаще на нее ссылаются авторитетные источники, тем больше вероятности, что поисковик быстрее просканирует сайт. Фактически, краулинг можно представить в строго определенном порядке с учетом page rank. На все про все уходит где-то порядка 30 дней. Еще две недели уходят на индексацию и обработку данных. Причем для постоянного обновления результатов поисковый робот заходит на сайты с высоким PR снова и снова, чтобы посмотреть, не появилось ли что-то новое или важное.
Затем начинается индексация документов. Предположим, вам нужно найти Katy Perry. Google оценивает, в каких документах встречается Katy, в каких появляется слово Perry. Допустим Katy есть в документах 1, 2, 89, 555, 789, Perry – в документах 2, 8, 73, 555, 1000. После обнаружения этих документов Google смотрит на порядок слов и как эти слова встречаются в документе. Если на странице есть Katy, но нет Perry, она отбрасывается поисковиком. Документ номер 2 имеет Katy и Perry, поэтому Google его оставляет.
Отобрав необходимые документы поисковик решает, как их ранжировать дальше. Для этого существует page rank и более 200 факторов ранжирования. Например, есть сайт, где слово Perry встречается только однажды, и где-то на странице еще есть слово Katy. И есть документ, где слова Katy и Perry идут друг за другом. Google пытается найти баланс: обнаружить качественный документ с высокой репутацией и одновременно выдать сайт, который отвечает на запрос пользователя. И так сотни миллионов раз в день, когда пользователь заходит на сайт Google, он вбивает запрос и получает самые релевантные по нашему мнению результаты меньше, чем за полсекунды.
Для тех, кто хочет узнать больше о работе Google, page rank, Мэтт Каттс посоветовал познакомиться с различными статьями и научными работами.
Комментарии