Внешние факторы ранжирования

3 Внешние факторы ранжирования
3.1 Для чего используется учет внешних ссылок на сайт
Как можно видеть из предыдущего раздела, почти все факторы, влияющие на ранжирование, находятся под контролем автора страницы. Таким образом, для поисковой системы становится невозможным отличить действительно качественный документ, от страницы созданной специально под заданную поисковую фразу или даже страницы, сгенерированной роботом и вообще не несущей полезной информации.
Поэтому одним из ключевых факторов при ранжировании страниц является анализ внешних ссылок на каждую оцениваемую страницу. Это единственный фактор, который неподконтролен автору сайта.
Логично предположить, что чем больше внешних ссылок имеется на сайт, тем больший интерес этот сайт представляет для посетителей. Если владельцы других сайтов в сети поставили ссылку на оцениваемый ресурс, значит, они считают этот ресурс достаточно качественным. Следуя этому критерию, поисковая система также может решить, какой вес придать тому или иному документу.
Таким образом, существует два основных фактора, по которым страницы, имеющиеся в базе поисковика, будут отсортированы при выдаче. Это релевантность (то есть, насколько рассматриваемая страница связана с темой запроса – факторы, описанные в предыдущем разделе) и число и качество внешних ссылок. Последний фактор также получил названия ссылочная цитируемость, ссылочная популярность или индекс цитирования.
3.2 Важность ссылок (индекс цитируемости)
Легко увидеть, что простой подсчет числа внешних ссылок не дает нам достаточной информации для оценки сайта. Очевидно, что ссылка с сайта www.microsoft.com должна значить гораздо больше, чем ссылка с домашней страницы www.hostingcompany.com/~myhomepage.html, поэтому сравнивать популярность сайтов лишь по числу внешних ссылок нельзя – необходимо учитывать также и важность ссылок.
Для оценки числа и качества внешних ссылок на сайт поисковые системы вводят понятие индекса цитирования.
Индекс цитирования или ИЦ – это общее обозначение численных показателей, оценивающих популярность того или иного ресурса, то есть некоторое абсолютное значение важности страницы. Каждая поисковая система использует свои алгоритмы для подсчета собственного индекса цитирования, как правило, эти значения нигде не публикуются
Помимо обыкновенного индекса цитирования, который представляет собой абсолютный показатель (то есть некоторое конкретное число), вводится термин взвешенный индекс цитирования, который является относительным значением, то есть показывает популярность данной страницы относительно популярности остальных страниц в Интернет. Термин „взвешенный индекс цитирования“ (ВИЦ) обычно употребляют в отношении поисковой системы Яндекс.
Подробное описание индексов цитирования и алгоритмов их подсчета будет представлено в следующих разделах.
3.3. Ссылочный текст
Огромное значение при ранжировании результатов поиска придается тексту внешних ссылок на сайт.
Текст ссылки (или по другому якорный или ссылочный текст) – это текст, стоящий между тегами «A» и «/A», то есть тот текст, по которому можно “кликнуть” указателем мыши в браузере для перехода на новую страницу.
Если текст ссылки содержит нужные ключевые слова, то поисковая система воспринимает это как дополнительную и очень важную рекомендацию, подтверждение того, что сайт действительно содержит ценную информацию, соответствующую теме поискового запроса.
3.4 Релевантность ссылающихся страниц
Кроме ссылочного текста учитывается также общее информационное содержимое ссылающейся страницы.
Пример. Предположим, мы продвигаем ресурс по продаже автомобилей. В этом случае, ссылка с сайта по ремонту автомобилей будет значить гораздо больше, чем аналогичная ссылка с сайта по садоводству. Первая ссылка идет с тематически схожего ресурса, поэтому будет в большей степени оценена поисковой системой.
3.5 Google PageRank – теоретические основы
Первыми, кто запатентовал систему учета внешних ссылок стала компания Google. Алгоритм получил название PageRank. В этой главе мы расскажем об этом алгоритме и о том, как он может влиять на ранжирование результатов поиска.
PageRank рассчитывается для каждой веб-страницы отдельно, и определяется PageRank’ом (цитируемостью) ссылающихся на нее страниц. Своего рода замкнутый круг.
Главная задача заключается в том, чтобы найти критерий, выражающий важность страницы. В случае с PageRank таким критерием была выбрана теоретическая посещаемость страницы.
Рассмотрим модель путешествия пользователя по сети путем перехода по ссылкам. Предполагается, что пользователь начинает просмотр сайтов с некоторой случайно выбранной страницы. Затем по ссылкам он переходит на другие ресурсы. При этом есть вероятность того, что посетитель покинет сайт и вновь начнет просмотр документов со случайной страницы (в алгоритме PageRank вероятность такого действия принята 0.15 на каждом шаге). Соответственно, с вероятностью 0.85 он продолжит путешествие, перейдя по одной из доступных на текущей странице ссылок (все ссылки при этом равноправны). Продолжая путешествие до бесконечности, он побывает на популярных страницах много раз, а на малоизвестных – меньше.
Таким образом, PageRank веб-страницы определяется как вероятность нахождения пользователя на данной веб-странице; при этом сумма вероятностей по всем веб-страницам сети равна единице, так как пользователь обязательно находится на какой-либо странице.
Поскольку оперировать вероятностями не всегда удобно, то после ряда преобразований с PageRank можно работать в виде конкретных чисел (как, например, мы привыкли видеть его в Google ToolBar, где каждая страница имеет PageRank от 0 до 10).
Согласно описанной выше модели получаем, что:
– каждая страница в сети (даже если на нее нет внешних ссылок) изначально имеет ненулевой PageRank (хотя и очень маленький);
– каждая страница, имеющая исходящие ссылки, передает часть своего PageRank страницам, на которые ссылается. При этом переданный PageRank обратно пропорционален числу ссылок на странице – чем больше ссылок, тем меньший PageRank передается по каждой;
– PageRank передается не полностью, на каждом шаге происходит затухание (та самая вероятность 15%, когда пользователь начинает просмотр с новой, случайно выбранной, страницы).
Рассмотрим теперь, каким образом PageRank может влиять на ранжирование результатов поиска (говорим «может», так как в чистом виде PageRank уже давно не участвует в алгоритме Google, как это было раньше, но об этом ниже). С влиянием PageRank все обстоит очень просто – после того как поисковая система нашла ряд релевантных документов (используя текстовые критерии), отсортировать их можно согласно PageRank – так как логично будет предположить, что документ, имеющий большее число качественных внешних ссылок, содержит наиболее ценную информацию.
Таким образом, алгоритм PageRank „вытесняет“ наверх в поиске те документы, которые и без поисковика наиболее популярны.
3.6 Google PageRank – практическое использование
В настоящее время PageRank не используется непосредственно в алгоритме Google. Это и понятно – ведь PageRank характеризует лишь количество и качество внешних ссылок на сайт, но совершенно не учитывает ссылочный текст и информационное содержимое ссылающихся страниц – а именно этим факторам придется максимальное значение при ранжировании. Предполагается, что для ранжирования Google использует так называемый тематический PageRank (то есть учитывающий только ссылки с тематически связанных страниц), однако детали этого алгоритма известны лишь разработчикам Google.
Узнать значение PageRank для любой веб-страницы можно с помощью Google ToolBar, который показывает значение PageRank в диапазоне от 0 до 10. Следует учитывать, что Google ToolBar показывает не точное значение PageRank, а лишь диапазон PageRank, в который попадает сайт, причем номер диапазона (от 0 до 10) определяется по логарифмической шкале.
Поясним на примере: каждая страница имеет точное значение PageRank, известное только Google. Для определения нужного диапазона и вывода информации на ToolBar используется логарифмическая шкала (пример показан в таблице)
Реальное значение PR Значение ToolBar
1-10 1
10-100 2
100-1000 3
1000-10.000 4
и т.д.
Все цифры условны, однако наглядно демонстрируют, что диапазоны PageRank, показываемые в Google ToolBar, не равнозначны друг другу. Например, поднять PageRank c 1 до 2 легко, а с 6 до 7 гораздо сложнее.
На практике PageRank используется в основном в двух целях:
1. Быстрая оценка уровня раскрученности сайта. PageRank не дает точной информации о ссылающихся страницах, но позволяет быстро и просто «прикинуть» уровень развития сайта. Для англоязычных сайтов можно придерживаться следующей градации: PR 4-5 – наиболее типичный PR для большинства сайтов средней раскрученности. PR 6 – очень хорошо раскрученный сайт. PR 7 – величина, практически недостижимая для обычного вебмастера, но иногда встречается. PR 8, 9, 10 – встречаются только у сайтов крупных компаний (Microsoft, Google и т.п.). Знание PageRank можно использовать при обмене ссылками, для того чтобы оценить качество предложенной к обмену страницы и в других подобных ситуациях.
2. Оценка уровня конкуренции по поисковому запросу. Хотя PageRank и не используется непосредственно в алгоритмах ранжирования, тем не менее позволяет косвенно оценить конкурентность заданного запроса. Например, если в выдаче поисковой системы стоят сайты с PageRank 6-7, то сайт с PageRank 4 имеет очень мало шансов подняться в топ.
Еще одно важное замечание – значения PageRank, показываемые в Google ToolBar пересчитываются достаточно редко (раз в несколько месяцев), поэтому ToolBar показывает в некотором роде устаревшую информацию. То есть сама поисковая система Google учитывает изменения во внешних ссылках гораздо быстрее, чем эти изменения отображаются в Google ToolBar.

Няма коментари

Comments are closed.


«
»