Как работает поисковикСовременные поисковые системы, такие как Google или Яндекс, имеют сходную внутреннюю структуру, в которой можно выделить следующие составные части…

«Паук» — специальная программа, которая, обращаясь по http-адресам, загружает web-страницы, так же, как это делают браузеры пользователей. Однако робот-паук не отображает загруженную информацию, а производит анализ её исходного кода.

«Краулер» — данный компонент анализирует все гиперссылки в html-документе, загруженной «пауком». Далее он идёт по найденным ссылкам и производит поиск новых, пока ещё неизвестных системе документов

«Индексатор» — осуществляет структурный анализ найденных и загруженных на сервер страниц. Анализу подвергаются различные компоненты страницы, стилевые особенности текстовой информацией, html-теги, наличие в тексте списков, абзацев, заголовков и других элементов форматирования. На основании произведённого анализа страницы, индексатор выдаёт набор параметров, которые определённым способом характеризуют данную страницу. Эти параметры называются «индексами».

«База данных» — это хранилище индексов найденных страниц. Поисковые сервера не хранят все скачанные «пауком» страницы. После анализа информации, в базе сохраняются исключительно индексы, т.е. числовые характеристики, отражающие особенность данной страницы. В базе данных также хранится адрес каждой страницы.

«Система предоставления результатов» — анализирует поисковый запрос пользователя. На основании полученных данных, производится обращение к индексной базе и из неё выбираются индексы страниц, соответствующих поисковому запросу. Далее список выбранных страниц сортируется по убыванию степени соответствия и передаётся пользователю. Степень соответствия той или иной страницы запросу пользователя называется релевантностью. Она рассчитывается по специальному алгоритму, учитывающему много различных факторов. У каждой поисковой машины своя методика подсчёта релевантности. Эти методики постоянно совершенствуются с целью предоставления пользователю именно того, что он ищет, и его ограждения от поискового спама.

«Web-интерфейс» — обязательный компонент каждой поисковой машины. Он обеспечивает контакт пользователя с сервером поиска. С помощью этого интерфейса пользователь передаёт системе поисковый запрос и принимает от неё список результатов.

Буду очень признателен если добавите эту страницу в свою социалку: