Существует распространенное убеждение, что каждое новое поколение программ совершенней предыдущего. Иная крайняя точка зрения состоит в том, что «все новое - это хорошо забытое старое». Думаю, что применительно к поисковым сайтам истина лежит где-то посередине.
Поисковый сайт это веб-сайт, предоставляющий возможность поиска информации в Интернете. Большинство поисковых сайтов ищут информацию на сайтах Всемирной паутины, но существуют также системы, способные искать файлы на ftp-серверах, товары в интернет-магазинах, а также информацию в группах новостей. В последнее время появился новый тип поисковых движков, основанных на технологии RSS, а также среди XML-данных разного типа.
Поисковый сайт состоит из трех основных частей:
Spider (он же Crawler, он же Bot, он же Robot) - программа, которая посещает веб-страницы, считывает (индексирует) полностью или частично их содержимое и далее следует по ссылкам, найденным на данной странице. Spider возвращается через определенные периоды времени (например, каждый месяц) и индекисрует страницу снова. Все, что находит и считывает Spider, попадает в индексы поискового сайта. Индексы системы представляют собой гигантское вместилище информации, где хранятся копии текстовой составляющей всех посещенных и проиндексированных Spider’ом страниц. Программа, которая в соответствии с запросом пользователя перебирает индексы поисковика в поисках информации, интересующей пользователя, и выдает ему на гора в порядке убывания релевантности найденые документы. Каждый поисковый сайт имеет своего собственного спайдера, со своими собственными "повадками". Каждая поисковик индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже отличны. Поэтому, произведя запрос по определенным ключевым словам или выражениям, мы будем иметь разные результаты для каждого из поискового сайта.
Комментариев нет:
Отправить комментарий