Скриншот сайта Mos.ruРешил немного обновить блог и добавить в него новую рубрику «делать мне больше нечего!» «seo-аудиты», где буду брать разные сайты и анализировать их с точки зрения SEO (возможны по просьбе и ваши сайты).

Сайты буду брать какие-нибудь интересные, необычные. Зачем мне это? Просто интересно Зачем вам это? Почитать что-нибудь 🙂

Хотел бы сразу предупредить, что не надеюсь на полное освещение всех проблем сайта, не преследую никаких целей, никто мне за это не платит, к сожалению.

Краткая справка по сайту

Сайт: Правительство Москвы
Урл: http://www.mos.ru/
ТИЦ: 15 000
PR: 7

ЯК: Да
Dmoz: Да
Входящие ссылки на сайт (majesticseo): 8 613
Входящие ссылки на сайт (linkpad): 9 428

Цель сайта: оперативное, точное и целостное информирование горожан о деятельности исполнительной власти города. Политика портала определяется в соответствии с действующим законодательством.

Анализ индексации сайта mos.ru

В индексе Яндекса: 21 000
В индексе Google: 6 770 000 (270 800 в основной выдаче поисковика, 96% в соплях)

1. В индексе Google и Яндекс обнаружены страницы печати (как русской, так и английской версии сайта):

  • http://www.mos.ru/press-center/press_releases/printable.php?print=1&id_4=20320
  • http://www.mos.ru/authority/mayor/telegrams/printable.php?print=1&id_4=28618
  • http://www.mos.ru/en/press-center/press_releases/printable.php?print=1&id_4=28812
  • http://www.mos.ru/en/press-center/transcripts/printable.php?print=1&id_4=17686
  • и др.

Хотя в robots.txt стоит запись вида (Disallow: */printable.php*), но это не мешает роботам индексировать печатные версии страниц и засорять индекс. В данном случае лучшим решением будет тег <meta namerobots» contentnoindex,follow«> в хэде всех печатных версий.

Что странно, на всех страницах печатных версий контент закрыт в тег <noindex>, что все же не помешало этим страницам быть проиндексированным ПС, и не удивительно, ведь этот тег не закрывает страницу от индексации, а всего лишь говорит Яндексу (и только Яндексу), что не надо индексировать только контент страниц, обрамленный тегом <noindex>. Подробнее тут.

2. Страницы с результатами поиска (как русской, так и английской версии сайта) также обнаружены в индексе Яндекса и Google:

  • http://www.mos.ru/en/search/
  • http://www.mos.ru/en/search/index.php?source_id_9=1&q_9=ecology&from_4=2
  • http://www.mos.ru/search/?source_id_9=3&doc_num_9=&q_9=&doc_date_from_9=& doc_date_to_9=&document_type_id_9=10&sortby_9=date&source_id_9=3
  • и др.

Данные страницы нужно закрывать от индексации. Но в отличии от страниц-печатных версий, в robots.txt даже нет упоминания о страницах-результатах поиска. Так же как и мета-тега <meta namerobots» contentnoindex,follow«>, что решило бы проблему.

3. Страницы пагинации на сайтах закрыты мета-тегом <meta namerobots» contentnoindex,follow«>, в индексе не обнаружены.

4. У всех разделов обнаружены дубли вида:

  • http://www.mos.ru/-  http://www.mos.ru/index.php
  • http://www.mos.ru/about/ — http://www.mos.ru/about/index.php
  • http://www.mos.ru/en/authority/mayor — http://www.mos.ru/en/authority/mayor/index.php
  • и др.

Причем английская версия плодит эти дубли, т.к. направляет на страницы с index.php на конце.

5. Раздел «Документы» открывает сайт уже в протоколе https, и закрыт от индексации все тем же мета-тегом.

6. Сайт частично дублируется через поддомен http://special.mos.ru/- версия для слабовидящих. В идеале ее нужно закрывать от индексации.

Зачем SEO сайту правительства Москвы?

Немного отвлечемся от темы. Можно сказать, что для сайта правительства не суть важно, есть ли в индексе мусорные страницы, проиндексирован ли он полностью и вообще, мол, можно не заниматься его продвижением.

От части это так. Нет смысла заниматься продвижением сайта в классическом понимании этого слова. Но если вспомнить про цель сайта, которая упоминается на самом сайте mos.ru: «оперативное, точное и целостное информирование горожан о деятельности исполнительной власти города», то можно сделать вывод, что для реализации этой цели нужна полная и чистая индексация сайта для того, чтобы посетители могли получить доступ к нужной информации.

А робот что делает? Приходит на сайт и индексирует страницы печатной версии, страницы поиска и т.д. Потом у него заканчивается лимит на индексирование сайта, и он уходит. А на сайте остаются полезные (для конечного посетителя) странички, на которые робот так и не попал.

Что же делать для улучшения индексации?

  • использовать четкую и понятную структуру сайту,
  • правильно закрывать от индексации ненужные страницы,
  • иметь правильную перелинковку,
  • сделать карту сайта в формате xml и html.

Идем дальше.

Внутренний анализ сайта

1. Robots.txt у сайта присутствует, но оформлен не совсем верно. Директиву «Sitemap: http://www.mos.ru/sitemap.xml» нужно вставлять в конце, после всех остальных директив.

Нужно добавить строчку Disallow: */search*

2. Файл sitemap.xml оформлен не совсем верно. Для каждого урла нужно указать дополнительные параметры. Вот что говорит сам Яндекс:

Мы рекомендуем использовать формат XML, так как он позволяет предоставлять дополнительную информацию о страницах сайта. Для каждого URL можно указать:

  • дату последнего обновления страницы (элемент lastmod);
  • частоту изменения страницы (элемент changefreq);
  • относительную значимость страницы (элемент priority).

3. Код страницы.

Рассмотрим код страницы http://www.mos.ru/authority/activity/. Тег <h1>.

Это неправильная структура. Внутри тега <h1> не должно быть никаких div’ов и ссылок тоже.

Теги <h2> на странице

  • <h2 classt-type6«></h2>
  • <h2 classt-type5 m-gray m-width-218«><i>Выберите период:</i></h2>

Пустуые теги <h2>, а также нерелевантные заголовки в сайдбаре вынесены в <h2>

—————————————-

На этом я, пожалуй, закончу разбор сайта. Проблемы есть, надо их решать, делать полный аудит сайта, разбирать проблемы. Хотя… а надо ли оно владельцам?))

Рубрика:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *