Поисковая система (ПС, система поиска) – аппаратно-программный комплекс, наделенный веб-интерфейсом и предоставляющий пользователям возможность совершать поиск данных в интернет-сети по запросам.

Классификация поисковых систем

Учитывая место локализации, поисковые системы делят на:

  • глобальные, осуществляющие поиск в глобальной сети (интернете);
  • локальные, выполняющие поиск по локальным сетям или отдельным ресурсам.

Глобальные системы поиска дополнительно имеют собственную классификацию:

  • Универсальные - наиболее часто встречающиеся системы, поиск в которых организован вне зависимости от вида контента. Пользователь может запрашивать текстовую информацию, графический, видео или аудио контент. Непосредственно поиск охватывает все ресурсы интернета без ограничений. Известными универсальными системами поиска являются Google, Bing, Yahoo! и русскоязычные Яндекс, Рамблер, Нигма, Mail.ru.
  • Тематические – этот вид поисковых систем работает с ограниченным контентом и выполняет поиск информации в интернете только среди определенных ресурсов, например в соответствии с религиозными или профессиональными предпочтениями. Так, поисковик Koogle ориентирован на ортодоксальных иудеев, он работает исключительно с разрешенным для этой религии контентом.
  • Специализированные – это поисковые системы для работы с определенной информацией, например поиск по онлайн-магазинам, FTP-серверам и прочие.

Состав поисковых систем

Говоря о составе ПС целесообразно рассматривать универсальные глобальные системы поиска, поскольку, по сути, состав всех поисковых систем примерно идентичен. К тому же, тематические и специализированные системы не имеют такого широкого распространения, как универсальные.

Поисковый интерфейс

Интерфейс ПС представлен как веб-страница со строкой для ввода запроса пользователя. После обработки запроса на эту же страницу выводится перечень релевантных ресурсов, именуемый поисковой выдачей.

 

Аппаратно - программные средства

Данная составляющая часть размещается на ресурсах владельцев поисковых систем. Именно аппаратно-программные средства выполняют анализ запроса, поиск соответствующей информации и построение страницы выдачи. При этом из всего комплекса выделяют:

  • индекс или базу данных ресурсов, содержащую информацию о нахождении и контенте страниц;
  • алгоритмы поиска.

Индекс

Подробная информация: Индекс

В индексе (базе данных) содержатся систематизированные данные обо всех обработанных (проиндексированных) ресурсах – адреса страниц, ссылки, содержание контента и прочая техническая информация. Для хранения индекса используется множество компьютеров, соединенных в огромную поисковую сеть.

Алгоритмы поиска

Подробная информация: Поисковый алгоритм

Алгоритмы поиска занимаются не только обработкой запроса, их основные функции:

  • индексирование страниц и ресурсов;
  • ранжирование ресурсов и отдельных страниц;
  • создание списка выдачи.

 

Особенности работы поисковых систем

Индексация

Дополнительная информация: Индексация

Процесс сканирования сети поисковыми алгоритмами непрерывен. Они постоянно выполняют переходы по ссылкам, анализируют новые ресурсы или страницы, добавляют их с собственную базу и присваивают им определенные коэффициенты для расчета ранжирования. При этом для нормального прохождения индексации ресурсы должны соответствовать правилам:

  • обладать уникальным и качественным контентом (правильно структурированным, грамотным, информативным);
  • содержать качественные ссылки в допустимом объеме;
  • иметь определенную пользовательскую активность;
  • не содержать антизаконного контента (порно, варез, призывы к терроризму и прочее),
  • не содержать вредоносного ПО;
  • использовать разрешенные ПС способы продвижения ресурсов.

Поисковый апдейт

Дополнительная информация: Апдейт

Постоянный процесс обработки ресурсов не означает их мгновенное добавление в индекс. Изменение состояния индексной базы происходи при определенных условиях, например по времени, либо при прохождении поисковым роботом определенного количества ресурсов. Момент непосредственного реформирования индекса получил название апдейта ПС. 

При этом не только переформировывается содержание индекса, но и определяются новые показателей, участвующих в ранжировании, например тИЦ страницы или ресурса у ПС Яндекс или PR у Google.

Процесс ранжирования и формирования списка выдачи

Дополнительная информация: Поисковая выдача, Ранжирование

Ранжирование ресурсов необходимо для составления списка самых информативных для пользователя ресурсов, релевантных его поисковому запросу. 

В сети расположено огромное количество ресурсов, которые будут в какой-то степени соответствовать запросу пользователя. Однако расположить их все на одной странице невозможно. Именно поэтому ПС разработали систему ранжирования, присваивая ресурсам определенные числовые значения различных характеристик (у Google их более 200), в зависимости от которых и строится список выдачи. Верхние строчки отводятся под самые качественные ресурсы, далее следуют все остальные по мере убывания их рейтинга. 

Выдача представляется в виде списка ресурсов с сниппетами – кратким содержанием, включающим также поисковый запрос.

Санкции ПС

Поисковые роботы, анализирующие состояние и контент ресурса, могут установить его несоответствие требованиям ПС. В этом случае ресурсу грозят различные санкции: наложение фильтра, пессимизация и в худшем случае - бан.

Попасть под санкции можно за применение «черных» приемов оптимизации, наличие запрещенных или неуникальных материалов, размещение вредоносного ПО или вареза, за прочие неугодные закону и ПС нарушения.

Направления дальнейшего развития ПС

Естественно, основным направлением развития ПС является усовершенствование алгоритмов поиска. Становится все сложнее анализировать огромное количество ресурсов, поэтому ведущие разработки идут в направлении поиска по семантическим группам. Данные группы не имеют заведомо установленных характеристик, а комплектуются по принципу попарного подобия.

Следующее направление – усовершенствование релевантности выдачи. ПС видят свою задачу в предоставлении предельно качественного, интересного и информативного контента на основании запросов пользователя. Именно эту цель преследуют и все модификации поисковых алгоритмов.

Новые разработки касаются и актуальности выдачи, а так же ее максимальному охвату в ней всех видов контента - мультимедийного, видео, аудио, графики. Многие ПС постоянно активизируют новые виды алгоритмов поиска, например новостные алгоритмы, которые предоставляют информацию уже через несколько мнут после ее появления на новостном ресурсе.

И последнее значительное направления развития ПС - скорость работы. Над усовершенствованием этого параметра трудятся множество специалистов, постоянно разрабатывая новые способы анализа информации. Наиболее популярные системы поиска выдают запрос уже за четверть секунды и стремятся добиться еще более скоростного результата.

См. дополнительно: