У поисковых систем есть короткий набор операций, которые позволяют им предоставлять пользователю релевантные результаты согласно его запросу.
1. Сканирование веб страниц
Поисковики запускают автоматизированные программы называемые “роботами” или “пауками”. Они используют структуру гиперлинков чтобы находить страницы и документы которые составляют сеть Интернет. По некоторым подсчетам существует приблизительно 20 миллиардов страниц. Поисковые системы прошлись по 8-10 миллиардов.
2. Индексация документов
Как только страница была посещена роботом ее содержание может быть “проиндексировано” - сохранено в гигантской базе данных документов, которая составляет “индекс” поисковика. Индекс требует к себе четкого управления чтобы найти и отсортировать миллиарды документов в долю секунды.
2. Обработка запросов
Как только поступает запрос на информацию, поисковик извлекает из своего индекса все документы, удовлетворяющие запросу и сравнивает их на соответствие запросу пользователя. Например, поисковый запрос car and driver magazine показывает 8.25 миллионов результатов, а тот же запрос в кавычках - только 166 тысяч. В первом случае применяется так называемая методика “Findall”. Google выдает все документы соответствующие условию “car”, “driver” и “magazine” (слово “and” игнорируется как не уточняющее результаты запроса). Второй запрос выдает только фразы в точности соответсвующие ”car and driver magazine”. Другие, расширенные операторы могут существенно изменить результат запроса пользователя.
4. Ранжирование результатов
Итак, поисковик определил какие результаты соответсвуют запросу. Алгоритм поисковика делает вычисления над каждым результатом для определения наиболее соответствующего запросу результата. Затем сортирует результаты по убыванию от наиболее соответствующего к менее для того, чтобы пользователь мог сделать свой выбор.
Несмотря на то, что операторы поисковиков не очень сложные, такие системы как Google, Yahoo!, AskJeeves, MSN одни из самых сложных, сильнонагруженных компьютерных систем, управляющих миллионами вычислений каждую секунду и удовлетворяющих большие группы пользователей.
Тормоза и стены
Определенный тип навигации может затруднять или полностью затормозить поисковую систему при передвижении по вашему сайту. Так как поисковые пауки при передвижении по вебу для нахождения новых документов полагаются на архитектуру гиперлинков. Сложные ссылки и глубокая структура сайта с малым количеством уникального контента может служить “тормозом” для поисковика. Данные, которые не может прочитать поисковый спайдер квалифицируются как “стены”.
Возможные ”тормоза” для поисковых спайдеров:
– Ссылки с двумя и более динамическими параметрами. Например, http://www.url.com/page.php?id=4&CK=34rr&User=%Tom% (пауку будет сложно выполнить переход по такой ссылке. Она чаще всего приводит к ошибке для роботов. В данном случае ссылка предназначена для пользователя Tom)
– Страницы с более чем 100 уникальных ссылок на другие страницы на сайте (пауки могут не охватить каждую)
– Страницы глубиной более 3-х кликов/ссылок от стартовой страницы сайта (если не существует много других внешних ссылок указывающих на сайт, пауки чаще всего игнорируют глубоко лежащие страницы)
– Страницы, требующие “Session ID” или Cookie для навигации (пауки могут не обработать эти параметры так, как делает это броузер пользователя)
Возможные “стены” для поисковых спайдеров:
– Страницы доступные только при помощи выбора формы и кнопки подтверждения
– Страницы, требующие нажатия выпадающего меню (атрибут HTML) для доступа к ним
– Документы доступные только при использовании формы поиска
– Преднамеренно заблокированные документы (с помощью файла robots.txt или meta тагов)
– Страницы требующие авторизации
– Страницы с редиректом (поисковые системы называют это клоакингом или bait-and-switch и блокирует сайты, которые используют такой траффик)
Чтобы убедиться, что содержимое сайта полностью доступно поисковому пауку нужно использовать прямые ссылки. Помните - если страница не доступна со стартовой страницы сайта (где большинство пауков начинают сканировать сайт) она вероятно не будет проиндексирована. В этом случае очень полезно использовании карты сайта (о карте сайта далее в этом руководстве).
Показатели релевантности и популярности
Современные поисковики базируются на науке поиска информации. Эта наука существует с середины двадцатого столетия, когда поисковые системы действовали в библиотеках, научных и правительственных лабораториях. На ранних стадиях разработки поисковых систем специалисты в этой области определили два основных критерия функционирования поиска:
Релевантность - определяет какие из найденных документов наиболее удовлетворяют запросу пользователя. Релевантность документа увеличивается если условия или фраза запроса пользователя встречается несколько раз в названии работы и в заголовках, подзаголовках.
Популярность - схожая величина, определяемая цитируемостью (одна работа ссылается на другую. По такому же принципу как это часто встречается в деловых и научных трудах) данного документа, который соответствует запросу пользователя. Популярность этого документа увеличивается с каждым упоминанием этого документа в других документах, которые ссылаются на него.
Эти два показателя заимствованны веб поиском спустя 40 лет и проявили себя в виде аналитики документов и ссылок.
В аналитике документов поисковые системы ищут, опираясь на поисовый запрос, важные места в документе - тайтл, мета таги, таги заголовков и содержимое тела документа. Они также пытаются автоматически определить качество документа (об этом позже в Руководстве).
В контексте аналитики ссылок поисковики не только определяют ссылки на сайт или страницу сайта, но и что указывают те, кто ссылаются об сайте/странице. Они также довольно хорошо понимают взаимосвязи сайтов (по данныим истории ссылок, регистрационным данным сайта и другим источникам) и контекстным данным о сайте, на котором расположена страница (кто ссылается на этот сайт, что они упоминают об сайте и прочее).
Аналитики документов и ссылок комбинируются, а также накладываются на сотни других индивидуальных измерителей и пропускаются через алгоритм поисковика (набор инструкций, говорящих ему значимость каждого фактора). Алгоритм определяет баллы для документов и (в идеале) выстраивает список в убывающем порядке важности (ранжирование).
Информация которой доверяют поисковики
При индексации структуры вэб ссылок и содержимого страниц, поисковики выделяют две отличительные черты о данной странице либо сайте. Это атрибуты страницы/сайта и описание этой страницы/сайта на других страницах. Поскольку вэб сильно коммерциолизирован и много желающих забраться повыше в выдаче, поисковики научились тому, что они не всегда могут полагаться на то, что сайты честны относительно своей важности. Поэтому, времена когда высоких мест в выдаче добивались страницы с набитыми кейвордами мета тагами и страницами (до 1998г.) прошли. Им на смену пришли показатели доверия по ссылкам и содержимому.
В теории если сотни сайтов ссылаются на ваш, стало быть ваш сайт популярен и поэтому имеет вес. Если эти ссылки идут с важных (и поэтому заслуживающих доверия) вэбсайтов, их сила на порядок увеличивается. Ссылки с таких сайтов как NYTimes.com, Yale.edu, Whitehouse.gov и других несут в себе доверие поисковиков. Впоследствии это даст толчок вверх позиции вашего сайта. С другой стороны если ссылки низкого качества, добытые перекрестным обменом или с линкопомоек (линкферм), то доверие к вашему сайту снижается.
Самая известная система ранжирования сайтов базируется на данных по ссылкам. Это упрощенная формула разработанная основателями Google - PageRank. PageRank основан на математической формуле которую так формулируют на сайте Google:
PageRank использует демократическую природу вэба используя его громадную массу ссылок как индикатор веса отдельной страницы. По существу Google трактует ссылку с страницы А на страницу Б как голос страницы А за страницу Б. Но Google учитывает не просто количество голосов, а также анализирует страницы с которых голосовали. Голоса с “важных” страниц весят больше и помогают делать другие страницы более “важными”.
Google использует значение “прокси” PageRank’а, которое алгоритмически переводится в актуальное значение PageRank документа. Он варьируется от 1 до 10.
Проще говоря PageRank это грубая система определения величины значимости данной ссылки, которая базируется на ссылках что указывают на этот сайт/страницу. Поскольку PageRank берет начало в ранних 90-х, сейчас более тонкие и изощренные системы анализа ссылок занимают его место. Поэтому сейчас величина PageRank имеет не такое значение. Страницы с PR-8 могут занимать места на 20-30 позиций ниже чем страницы с PR-3 или PR4. К тому же значения PageRank обновляются раз в 3-6 месяцев и это делает его еще менее полезным. Вместо фокусировки на нем нужно сосредоточится на ссылках.
Ниже маленький список самых важных для поисковиков факторов при оценке значимости ссылки:
Текст анкора (anchor анг.) ссылки - анкор это часть текста либо символов, которые задействованы под гиперссылку на другой документ или место в вэб. Например, в фразе домены информация о доменных именах анкором является слово домены. Поисковики используют это слово для определение тематики ссылки на документ. Такая ссылка скажет поисковику о том, что когда пользователи ищут слово “домены” сайт www.seoukraine.com считает сайт blogflux.net релевантным запросу “домены”. Если сотни страниц укажут, что данная страница соответствует заданному поисковому запросу, то такая страница имеет высокие шансы хорошего ранжирования. Даже если поисковый запрос НИ РАЗУ не встречается на ней.
Глобальная популярность сайта - более популярные сайты, на которые идут много сильных ссылок, производят более сильные ссылки. Поэтому ссылка с сайта SEOukraine может быть весомым голосом за сайт, но ссылка с cnn.com куда более весома. Это одна из сфер где PageRank может быть использован для определения глобальной популярности сайта.
Популярность сайта в релевантной среде - в примере выше сила ссылки базировалась усредненно в вэбе вцелом. Но так как поисковики используют более сложные механизмы для анализа ссылки, то они учитывают наличие ссылок с авторитетных в данное тематике сайтов, сайтов со схожей тематикой (которые часто линкуются между собой). Ссылки с сайтов со схожей тематикой имеют бОльший вес чем ссылки с не тематических сайтов.
Текст вокруг ссылки - поисковики придаю тексту вокруг ссылки большее значение чем остальному тексту. Поэтому ссылка внутри параграфа может иметь бОльший вес чем ссылка сбоку или внизу сайта.
Тематика ссылающейся страницы - тематические взаимоотношения между данной страницей и сайтом/страницей с которой ссылаются на неё также один из факторов при определении веса ссылки. Поэтому более ценной будет ссылка со страницы которая соответствует теме вашего сайта.
Это только несколько из множества факторов, которые учитывают поисковики для определения веса ссылок.
Анатомия гиперссылки
Стандартная гиперссылка в коде HTML выглядит так:
<a href=”http://www.seoukraine.com”>Раскрутка сайта</a>
Раскрутка сайта
В этом примере показано, что текст “Раскрутка сайта” (называемый анкором ссылки) должен ссылаться на страницу http://www.seoukraine.com. Поисковик должен будет интерпретировать этот код как сообщение что страница на которой размещен этот код считает страницу http://www.seoukraine.com релевантной тексту на ней. В особенности тексту “Раскрутка сайта“.
В более сложном случае код ссылки может содержать дополнительные параметры:
<a href=”http://www.seoukraine.com” title=”Информация о поисковиках” rel=”nofollow”>Раскрутка сайта</a>
Раскрутка сайта
В этом примере новые элементы такие, как тайтл ссылки и атрибут rel могут указывать поисковику как он должен просматривать ссылку. Несмотря на то, что ссылка кажется не изменилась внешне. Атрибут title может служить в качестве дополнительной информации которая говорит поисковику что http://www.seoukraine.com релевантен также фразе “Информация о поисковиках”.
Тэг “Nofollow” изобретен специально для поисковиков. Будучи добавленным к ссылке он говорит поисковой системе что эта ссылка не должна учитываться как “голос” за ту страницу, на которую она ссылается. На сегодня 3 поисковика поддерживают этот тэг (Yahoo!, MSN, & Google). AskJeeves имеет свою особенную систему ранжирования и не поддерживает “Nofollow”.
В качестве ссылки может также выступать картинка:
<a href=”http://www.seoukraine.com/images/stories/pavel.jpg”><img src=”seo.jpg” alt=seo ukraine”></a>

В этом примере картинка с именем pavel.jpg залинкована со страницей http://www.seoukraine.com/. Атрибут alt служит для пользователей которые не грузят в своем броузере картинки и для голосовых броузеров для слепых. Поисковики могут использовать информацию с такой ссылки-картинки включая имя картинки и атрибут alt для определения о чем та страница, куда ведет ссылка.
В вэб используются и другие типы ссылок. Многие из них не влияют на ранжирование потому, что используют редирект, Javascript и другие технологии. Ссылка отлчная от классического формата <a href=”URL”>text</a>, будь то текст или картинка, обычно не имеет ссылочного веса для поисковиков (даже если в отдельных случаях они будут пытаться пройти по этим ссылкам).
Ключевые слова и запросы
Поисковики используют запросы пользователей, прогоняют их через свои алгоритмы, сортируют и возвращают пользователю. Но, вместо того, чтобы просто распознать и возвратить запрос в строгом соответствии, поисковики используют семантику (науку о языке) чтобы выстроить интеллектуальное соответствие. Например, выдача по запросу денежные ссуды может не содержать строго соответствия. Но может содержать выдачу по запросу кредиторы.
Поисковики собирают информацию по частоте использования выражений, а также сочетанию слов и фраз. Если определенное выражение или фраза часто встречаются вместе на страницах или сайтах, то поисковая система может построить теорию об их взаимоотношениях. Собирание семантические данные с огромной базы которой является Интернет дает поисковикам самые точные данные об онтологии слова и связи между словами. Эти огромные зания об языке и его использовании дают возможность определять какие страницы сайта тематически релевантны, какова тема страницы или сайта, каким образом структура ссылок вэба разделяется на тематические группы и многое другое.
Знания поисковиков об языке растут и это значит что выдача становится все более адекватной запросам.
Отделение зёрен от плевел
В классическом случае поиска информации, когда не затрагиваются коммерческие интересы, использование простых методов может дать результаты высокого качества. В Интернет все наоборот. Коммерческие интересы в выдаче это постоянный источник проблем для современных поисковиков. При совершенствовании контроля качества и улучшении показателей релевантности, находятся сотни людей, занимающихся манипулированием этих показателей с целью контроля результатов выдачи. Прежде всего их цель вывод в топ своих сайтов, страниц.
Худший вариант такого рода манипуляций - “поисковый спам”. Это низкосортные страницы и сайты с переброской (редиректом) на другие страницы, списки ссылок, ворованный контент и т.д. Эти страницы не релевантны и поисковые системы сфокусированы на удалении их из индекса. Природа таких страниц похожа на доход от почтового спама - несколько заходов, клики по ссылке (которые указал спамер в своем письме) и количество писем будет решающим фактором дохода.
Это Руководство не о том, как манипулировать выдачей поисковиков, а о том как создать вебсайт который естественным путем завоюет доверие поисковых систем и пользователей. Благодаря своему качеству, релевантности и легкости использования.
Оплаченные места и дополнительные источники в выдаче
Выдача поисковиков содержит не только список документов релевантных запросу пользователя, но и другой контент. Он включает в себя оплаченные объявления и дополнительные источники. Например, Google предоставляет объявления хорошо известной программы AdWords (прибыль от которой на сегодня составляет 99% прибыли Google). Также существует дополнительное содержание такое, как поиск по продуктам (Froogle), картинкам.
На картинке внизу показаны результаты поиска в Google. Зона 1 - оплаченная выдача AdWords. Для того, чтобы занять такие позиции объявление должно иметь высокое соотношение просмотров/кликов. Зона 2 - результаты дополнительного поиска. Зона 3 - “естественные” результаты поиска. 4 - объявления AdWords, выстроенные в зависимости от соотношения просмотров/кликов и величины оплаты за клик.

Сайты в “естественных” результатах поиска получают львиную долю внимания пользователя (около 60-70%). В зависимости от положения, релевантности вторичного контента и т.д. Практика покупки результатов поиска называется SEM (Search Engine Marketing). Попадание в зону 2 требует уникальных, продвинутых методов таргетинга поисковых систем в таких областях, как поиск по продуктам, картинкам и т.д. Все эти методы - ценная часть кампаний онлайнового маркетинга, но они останутся вне внимания этого Руководства. Наша цель сфокусирована на “естественных ” результатах поиска.