Алгоритмы расчёта PageRank

Народная ссылка: Алгоритмы расчёта PageRank
В связи с успехом Google на рынке предоставления услуг поиска и в особенности с экспансией данного поисковика в Рунет, среди вебмастеров наблюдается повышение интереса к алгоритмам расчёта PageRank. В данной статье рассматриваются некоторые аспекты вычисления PageRank.

Применение PageRank в поисковиках

Традиционные способы нахождения релевантных страниц, в случае односложных запросов не дают удовлетворительных результатов, т.к. по популярным темам (например "рефераты", "работа") всегда найдётся большое число страниц с одинаковой релевантностью. Для того, чтобы как-то упорядочить такие страницы, поисковики пускаются на разные хитрости. Например выдают первыми те страницы, которые имеют большую посещаемость (Rambler) или которые присутствуют в каталоге (Yandex, Aport). В Google для этих целей применяется PageRank, что даёт потрясающие результаты, и за короткое время Google стал занимать лидирующие позиции не только по объёму базы, но и по качеству поиска. Из наших поисковиков первым PageRank стал использовать Aport, за ним Yandex. В Rambler эта технология не применяется, но на данном этапе такая возможность рассматривается, и, не исключено, что PageRank будет использоваться и в этой поисковой системе.

На ряду с упорядочиванием результатов поиска по PageRank, есть и другое применение для этой технологии. Дело в том, что число страниц в Интернете на столько велико, что поисковики уже не могут себе позволить индексировать всё подряд. А поскольку PageRank служит критерием ценности страницы, то логично проводить индексацию страниц в порядке убывания PageRank. В Google пошли даже дальше: теперь простой отправки формы для регистрации не достаточно, - для того, чтобы сайт был проиндексирован необходимо наличие хотя бы одной внешней ссылки.

Введение в PageRank

PageRank - статическая величина, предназначенная для оценки качества страниц не зависимо от каких либо запросов, т.е. с помощью PageRank вычисляется "глобальная ценность" каждой страницы. Авторы PageRank Сергей Брин и Ларри Пейдж, разработавшие технологию дополнительного ранжирования результатов выдачи поисковиков, в последствии стали основателями компании Google.

За основу PageRank был выбран академический подход оценки важности публикации автора по числу её упоминаний в библиографических ссылках других авторов. Для адаптации к применению в Интернет в алгоритм были внесены следующие изменения: вес каждой ссылки учитывается индивидуально и нормируется по числу ссылок на ссылающейся странице. Кроме того, PageRank может быть интерпретирован в терминах случайного блуждания

Вычисление PageRank

Представьте себе идеального веб-серфера перемещающегося по всемирной паутине. Пусть сёрфер посещает страницу p, случайное блуждание при этом находится в состоянии p. На каждом шаге, веб-сёрфер либо перепрыгивает на другую страницу в сети, выбранную псевдо-случайным образом, либо он следует по ссылке на текущей странице, при этом не возвращаясь и не посещая одну и ту же страницу дважды. Вероятность случайного прыжка обозначим как d тогда вероятность перехода по ссылке будет 1-d. Таким образом, вероятность нахождения пользователя на странице p можно вычислить по следующей формуле:


где R(p) - PageRank страницы, С(p) - число ссылок на странице, к - число ссылающихся на p страниц, d- коэффициент затухания (damping factor). Обычно 0.1


где N - число всех страниц, для которых производится расчёт PageRank, то R(p) можно рассматривать как распределение вероятности по всем страницам.

Для вычисления PageRank составляется матрица M размером NxN, где каждому элементу mij матрицы присваивается значение R0(p)=1/C(p) в том случае, если с i -й страницы имеется ссылка на j-ую, все оставшиеся элементы матрицы заполняются нулями. Таким образом, вычисление PageRank сводится к отысканию собственного вектора матрицы M что достигается умножением матрицы M на вектор Rj на каждом шагу итерации. Введение коэффициента затухания гарантирует, что процесс сходится.

Повышаем значимость сайта

Осознав победное шествие PageRank, нельзя не задуматься об его увеличении для своей странички. Интуитивно понятно, что чем авторитетнее ресурс, на котором размещена ссылка тем больше она увеличивает PageRank страницы, на которую ссылается. И наоборот, чем больше ссылок на странице, тем меньше будет её вклад в повышение PageRank вашей страницы - ещё одно доказательство бесполезности участия в FFA (Free For All - сайты, содержащие набор ссылок со свободным добавлением). Менее очевидна оптимальная топология взаимоссылающихся страниц. Например, страницы организованные в "кольцо" (когда каждая страница ссылается на соседа слева и справа, последняя ссылается на первую, а первая на последнюю) будут иметь один и тот же PageRank не зависимо от числа страниц в кольце (если не проводить масштабирование по сумме, то PageRank у всех будет равен 1). То же справедливо для «звёзд» или случая, когда все ссылаются на всех, и, вероятно, это утверждение справедливо вообще для всех симметричных топологий. Гораздо более перспективны с точки зрения увеличения PageRank асимметричные топологии. Утверждение о бесполезности создания «пустых» (но ссылающихся друг на друга) сайтов у бесплатных хостеров не столь очевидно. Например, можно организовать обмен ссылками на 5 сайтах таким образом, что у одного из них PageRank будет в 15 раз больше, чем минимальный не нулевой PageRank. В этом несложно убедится, написав небольшую программку. О том, как это сделать, читайте в статье Efficient Computation of PageRank.

Некоторые распространённые заблуждения связанные с PageRank
Проанализировав сообщения в рунетовских форумах, посвященных позиционированию в поисковых системах, можно выделить целый ряд утверждений о PageRank, как минимум спорных, а зачастую просто неверных. Кратко рассмотрим эти утверждения:

Если на какой-то сайт есть много ссылок с FFA, гостевых книг или на сайтов другой тематики, то PageRank будет занижен.

Не стоит путать понятия «индекс цитирования» и PageRank. При расчёте PageRank анализ содержимого ни сайта ни текста ссылки не производится, учитываются только общее число ссылок и их веса, поэтому никаких штрафных санкций при наличии ссылок с «неправильных» страниц не применяется.

Если добиться высокого PageRank для какой-то страницы, то эта страница будет на первом месте в результатах поиска.

Не верно, по той причине, что PageRank является не основным критерием для ранжирования страниц, а вспомогательным. В противном случае, на первых страницах по очень многим запросам располагались бы только рейтинги и топы. Только при прочих равных условиях страница с более высоким PageRank будет располагаться выше в результатах поиска.

Если зарегистрировать сайт во всех популярных каталогах, то PageRank будет очень высоким

Не стоит обольщаться - PageRank вычисляется не для сайта целиком, а для отдельно взятой страницы. Поэтому ссылка из глубокой поддириктории, скажем в Yahoo, может быть менее ценна чем страница Васи Пупкина. Так что, тут можно взять не качеством ссылок, а их количеством. Надо только обращать внимание на то, чтобы ссылки из каталога шли напрямую на ваш сайт, а не через cgi-скрипт, иначе они просто не будут учитываться. Кроме того, правила многих каталогах требуют размещения корневой страницы, а не того документа, PageRank которого вы собираетесь повышать. Поэтому гораздо эффективнее можно повысить PageRank конкретной страницы ссылкой с корневой страницы своего собственного сайта.

PageRank уменьшается при проставлении внешних ссылок

Весьма спорное утверждение, как говорилось выше PageRank понижается в случае симметричного объединения ссылающихся страниц, вероятность получить которое при проставлении внешней ссылки ничтожно мала. Если такую фобию в себе не перебороть, то можно дать совет завести специальную страницу для обмена ссылками. Кстати, стоит заметить, что при расчёте PageRank никто не обещал разделять ссылки на внешние и внутренние.







Комментировать





  • » Покупаем мелкие монеты за 5 тысяч рублей
  • » Партнерская программа ADSTOCK
  • » Аутсайдеры ссылочного рынка - гении или психи?
  • » Новый конкурс «FOREX CLUB Блоггер». Выиграй Apple iPad
  • » Сервисы социальных закладок
  • » Анонс биржи вечных ссылок Site Weight Gainer
  • » Wizard Banners - уникальная система медийной рекламы
  • » Партнерская программа интернет-магазина Клуб Красоты
  • » Раскрутка сайта и его редизайн
  • » Система контекстной рекламы TopAdvert : туризм и книги
  • » Биржа покупки, продажи ссылок и статей "Set Links"
  • » ВНИМАНИЕ! Акция «TunnelFOREX» продлится до 11 июня!
  • » Коротко о создании сайтов
  • » Биржа трафика SmiMarket
  • » Федеральный закон от 27.06.2011 N 161-ФЗ "О национальной платежной системе"
  • » Сервис заработка на любых ссылках Ya Lc
  • » Телефонный платежный сервис "Телепат"
  • » Pay Сlick - рекламная тизерная сеть
  • » Directadmin: Смена хостера и IP адреса
  • » Система контекстной рекламы Rich Сlick
  • » Конфигурационный файл сервера Apache - httpd.conf
  • » Directadmin: после установки
  • » Партнерская программа All Partners
  • » Сервис регистрации сайтов в 4295 Интернет-каталогах
  • » Партнёрская программа по продаже цифровой техники
  • » Программный комплекс Seo Pult для продвижения сайтов
  • » Качественный контент от биржи ContentMonster - залог процветания вашего сайта
  • » Биржа статей от Sape
  • » RBK Money - электронная платежная система
  • » Партнёрская программа по конвертации кинотрафика Load Partners
  • » Сравнительный обзор ссылочных бирж
  • » Устраняем 'Найден по ссылке'
  • » SEO-аудит сайта queen-time.ru
  • » Снятие и подтверждение ссылок
  • » Выплаты и бонусы
  • » АП PageRank 27.06.2011
  • » Готовые сценарии и статистика работы
  • » SeoPult на международной выставке Internet Avenue 2013
  • » PR 360: МЕЖДУНАРОДНЫЙ ФОРУМ ЛИДЕРОВ PR, КСО И СПОНСОРСТВА — 25-27 апреля
  • » Уведомления по SMS
  • » «ПРЕСС-СЛУЖБА-2014: новые технологии PR-работы» — конференция для PR-профессионалов
  • » Этика блоггера: миф или реальность?
  • » Международная конференция SEO Conference 2013 состоится в Казани
  • » Сегодня, 11 апреля, в 14:00 пройдёт вебинар Татьяны Глазачевой «Особенности платежей в электронной торговле»
  • » Конференция PROOFSEO
  • » Ап тИЦ
  • » Внедряем новые мощности.
  • » Восьмое чудо… Windows!
  • » Подключены новые страны для пополнения с помощью банковских карт
  • » Советы от саперов. Пролог
  • » Представляем Веб-сейф
  • » 4 способа использования хэштегов Facebook в маркетинговых целях
  • » Sape представляет SEO-волшебника : Wizard.Sape
  • » Консультации для вебмастеров. Выпуск 1
  • » Как перестать переплачивать за продвижение в интернете?
  • » Важная информация по API
  • » Декабрьские обновления
  • » Апдейт тИЦ'a
  • » IX ежегодная конференция "Поисковая оптимизация и продвижение сайтов в Интернете"
  • » С праздником 9 Мая!


Категории


Последние записи

Полезные заметки

Популярные записи