Работа поисковой машины


Задача поисковой машины заключается в том, чтобы составлять, систематизировать и хранить предметный указатель Интернет системы. А также находить в ней заданные ключевые фразы или слова. Для этого программа поисковой машины составляет так называемый индекс.
Поисковая машина — это специально созданная программа, которая составляет, систематизирует и сохраняет предметный указатель Интернета. К тому же он находит в нем заданные ключевые слова. Для этого программа составляет так называемый индекс.
Процесс составления индекса и поиска информации по нему состоит из нескольких этапов.

Сбор адресов страниц в сети
Составление индекса по страницам начинается с того, что необходимо определить, какие страницы являются подходящими и нужными. В связи с этим сначала составляется список страниц (иначе говоря, набор адресов нужных страниц), по которому и будет составлен индекс.
В интернете существует бесконечное количество сайтов и страниц, которые беспорядочно разбросаны по сети. Поэтому поисковой машине надо с чего-то начинать. Традиционно специалисты, разрабатывающие поисковую машину, сначала заполняют ее каким-то произвольным списком адресов страниц сайта, который взяли, например, из какого-нибудь каталога. После этого поисковый робот (составная часть поисковой машины) начинает обрабатывать полученный список. Он собирает все гипертекстовые ссылки с каждой из тех страниц, которые в него загрузили, на другие страницы. А потом поисковый робот добавляет все найденные на разных ссылках адреса к своему первичному списку.
Следовательно, первоначальный список адресов сайтов и страниц очень быстро увеличивается и разрастается за счет ссылок на другие сайты. На сегодняшний день поисковые машины обрабатывают и индексируют миллиарды Интернет страниц.
Необходимо отметить тот факт, что есть такие малоизвестные и совершенно не посещаемые сайты и странички, на которые практически никто не ссылается. И шанс автоматически попасть в ранжирование поисковых систем у подобных сайтов крайне маленький. Проблема заключается в том, что когда разработчики поисковой машины добавляют первоначальный список адресов, малоизвестный сайт туда точно не войдет. А по ссылкам поисковый робот тоже не сможет добраться до этих страничек из-за совсем маленького количества ссылок на них. Конечно, когда-нибудь поисковый робот доберется и до таких страничек, но это случится очень нескоро, и, скорее всего, случайным образом.
Если не предпринимать специальных усилий, то та страница, на которую нет вообще ни одной ссылки, никогда не попадет в индексирование поисковой системы.

Выкачивание страниц
Поисковику необходимо получить текст, для того чтобы обработать текст страницы и составить из него индекс.
Для этого поисковая машина запросить у сайта конкретную страницу – это так называемое выкачивание текста. Выкачиванием текста занимается специальный составляющий элемент поисковой машины – поисковый робот (называемый среди специалистов поисковым «пауком»). Его задача состоит в том, чтобы обойти заданный список страниц, выкачать невероятное количество необработанного текстового материала, сохранить его на своих дисках, а потом уже передать индексному роботу на индексирование.