darkside1
Технический аудит сайта — важная часть SEO продвижения. Техническое состояние можно игнорировать до поры до времени, но на самом деле, технические ошибки и проблемы лучше устранить как можно раньше и не копить «технический долг». Обычно все технические работы мы делаем перед началом основных работ по продвижению сайта, когда это возможно.

Выводы заранее

Это просто чек лист, если вы новичок — у Вас будет больше вопросов после прочтения, чем ответов. Найдете полезные ссылки. Немного методики.

Здесь три концепции и 30 пунктов в чек листе. Иногда пунктов больше или меньше, это зависит от типа сайта, его размера и т.д.

Концепция 1 — управление индексированием

Индексирование должно быть под контролем веб мастера. Чем больше сайт, тем больше внимания надо уделять управлению индексированием. Важный в этом контексте процесс — сканирование (краулинг). Важные страницы сайта должны постоянно сканироваться поисковой системой и естественно, они должны быть в индексе поисковой системы.

По сути к этому сводится 80% работ по технической оптимизации сайта. Мы делаем это для корректного сканирования и индексирования, чтобы в итоге в индекс попали нужные страницы сайта, а ненужные не попали.

Концепция 2 — поведенческие факторы

Технических работ в рамках этой концепции меньше, однако, поведенческие факторы важный фактор ранжирования документов. Из технического здесь верстка, адаптив, перелинковка, удобные формы, навигация.

Конципция 3 — On Serp

Как сайт выглядит на поиске, это оптимизация title, description, внедрение микроразметки, внутренняя оптимизация сайта, правильное распределение
внутреннего веса (для появления быстрых ссылок).

Sitemap.xml

Карта сайта — это инструмент управления сканированием и индексированием сайта. Он помогает поисковым роботам обнаружить новые страницы на сайте, а также просканировать старые (или не сканировать). 

Технически реализовать карту сайта не сложно, в популярных CMS есть для этого плагины. Однако с настройкой sitemap нужно быть осторожным. Если в карту сайта попадет мусор (изображения, PDF файлы, технические страницы, несуществующие страницы) — они могут быть проиндексированы. Большинство таких страниц недостаточно качественные — они не будут участвовать в результатах поиска, но поисковая машина будет о них знать, сканировать, некоторые индексировать.

Подробно о карте сайта, настройках, проверке и т.д. читайте в отдельном посте

Sitemap.xml Image

Карта сайта для изображений — пожалуй единственный инструмент индексирования графического контента, доступный веб мастерам. Сейчас пространство имен sitemap-image поддерживает и Яндекс (раньше только гугл).

Документация по этому инструменту: Яндекс, Гугл.

Sitemap.xml Video

Карту сайта для видео контента использует только Google, который и создал для протокола соответствующее пространство имен, у Яндекса иные инструменты работы с видео. Актуально для сайтов, на которых большое количество видео материалов размещено на локальном сервере. Если видео из YouTube, то карта сайта для видео никак не поможет в индексации. Документация здесь.

Robots.txt

Файл robots.txt — это основной инструмент по управлению сканированием сайта. Поисковые машины Google и Яндекс перед обходом сайта запрашивают этот файл, и если в нем запрещено сканирование той или иной страницы — они их сканировать не будут, соответственно, такие страницы не попадут в индекс (правда, это не всегда так). Директивы файла не носят обязательного для робота характера. Проверить robots.txt можно сервисом яндекса для вебмастеров, Google тоже имеет такой инструмент.

При этом, если страница заркыта от сканмирования в файле robots.txt, но на нее есть внутренние или внешние ссылки с проиндексированных страниц — такая страница может быть проиндексирована несмотря на блокировку в robots.txt.

SSL сертификат, использование https/2 версии протокола

SSL (Secure Sockets Layer) — протокол, защищающий информацию, которую пользователь передает web серверу и наоборот. Технологию SSL используют при передачи данных по протоколу HTTPS. Это защищенный протокол передачи данных, в отличие от HTTP. Яндекс прямо указывает на то, что наличие SSL сертификата влияет на ранжирование сайта. Google в своем блоге сообщил о том, что наличие SSL станет фактором ранжирования еще в апреле 2014 года.

При этом, наличие сертификата более важно для сайтов, на которых принимаются платежи от клиентов и передается иная важная пользовательская информация

HTTP2 — вторая версия протокола http. Если коротко — использование этого протокола ускоряет загрузку страниц. Практически все хостинги используют http2 (но стоит проверить).

По нашим наблюдениям протокол сайта не является определяющим факьтором ранжирования.

Порядок с 301 редиректом

Базовые 301 редиректы — это основные параметры настройки основного зеркала сайта.

  1. Редиректы с http на https.
  2. С www на домен без www.

Если оставить сайт доступным по двум протоколам и доступным с www и без www, то для поисковиков будут доступны 4 версии сайта:
http//www.site.ru
https//www.site.ru
http//site.ru
https//site.ru

Для поисковых машин это разные сайты с одинаковым контентом. По сути, если не верно настроить редиректы могут получится супер дубли сайта, на разделение которых впоследствии уйдет много времени.

Неверно настроенные редиректы — это грубая техническая ошибка. Что пишет об этом Яндекс

Верные коды ответа сервера для несуществующих страниц

Одна из распространенных ошибок заключается в замене сообщения об ошибке 404 (страница не найдена) для несуществующих страниц на страницу-заглушку, которая возвращается с кодом ответа 200 (ОК). В этом случае поисковая система считает, что страница с некорректным адресом существует, и не удаляет ее из своей базы. Это приводит к более медленному индексированию полезных страниц на сайте. Кроме того, совсем неплохо, когда страница 404 отрисована в общем стиле сайта, содержит навигацию или иным способом помогает пользователю найти на сайте то, что он ищет. Проверить код ответа сервера можно в сервисе Яндекса.

Для массовой проверки мы использум другие инструменты, обычно это ScreamingFrog.

Отсутствуют битые ссылки

Битые ссылки — это ссылки на несуществующие страницы (с 404 или 410 кодом ответа сервера)

Иногда можно встретить ошибки с кодом ответа 500 (ошибка на стороне сервера), ссылок на такие страницы также не должено быть.

Отсутствуют дубли

Дубли есть технические, а есть фактические. Технические как правило формирует CMS.

Дубли страниц сайта проблема не явная. Для некоторых сайтов это может быть и вовсе не проблема. Однако, правило хорошего тона — дублей на сайте быть не должно. О дублях стоит написать подробнее отдельно.

Самый простой способ выявить технические дубли — использовать соответствующий функционал в панелях для веб масстеров.

Еще мы используем ScreamingFrog.

Минимум редиректов на сайте

Редирект — это перенаправление севрером пользователя с запрошенной страницы на какую-нибудь другую. Чаще всего веб мастера используют 301 редирект (постоянное перенаправление), реже 302 редирект. О других типах редиректов SEO специалисты в лучшем случае догадываются (Они по факту не нужны).

Суть в том, что все страницы на сайте должны отдавать 200 код, внутренние ссылки также должны быть 200, а не 301, или 302. Есть разные мнения на этот счет. Мне кажется внутренние ссылки не должны возвращать ничего кроме 200 хотя бы потому что это «технический порядок». Кроме того, есть мнение что при 301 редиректе теряется PageRank, а также, возможно, редирект воспринимается как дополнительный уровень вложенности.

ЧПУ URL и разделители «-«

ЧПУ, или человеко-понятные URL — это адреса страниц, описанные на латинице

Пример ЧПУ: www.site.ru/catalog/

Не ЧПУ www.site.ru/id=12

У ЧПУ есть масса плюсов:

  1. Их понимает человек, соответственно с ними проще работать как вебмастеру так и пользователю при необходимости.
  2. В ЧПУ можно прописать вхождение ключевого слова, что неплохо.
  3. Благодаря ЧПУ поисковик легче разберется со структурой сайта.

О влиянии ЧПУ на SEO представители поисковых систем высказывались не так часто.

Что пишет об этом Google

Это не очень важный фактор для SEO

Правильный поток документа

Понятие «поток документа» в какой-либо документации отсутствует (кроме технической,с вязанной с версткой). По сути, качество потока документа мы определяем так:

  1. Есть ли на сайте секционирование html5
  2. Соблюдена ли иерархия заголовков.
  3. Логично ли располагается контент (не визуально, для пользователей, а как его видит поисковый робот).

Проверить секционирование можно здесь. Но мы обычно пользуемся расширениями браузера. Об этом в статье об инструментах технического аудита.

Влияние html5 и вообще качества потока на SEO практически не изучалось. В целом все сеошники сходятся на том, что поток документа в том или ином виде, в контексте иных факторов ранжирования на выдачу влияет. Мы попытались изучить этот вопрос, результаты здесь.

Циклические ссылки отсутствуют

На циклические ссылки краулер тратит бюджет. На циклических ссылках терякется PageRank. Циклические ссылки бесят пользователей. Циклическая ссылка — это просто техническая ошибка, нет ни одного повода использвать цилические ссылки, кроме якорных ссылок внутри большой страницы.

Качество семантической разметки из HTML5

Хорошая разметка помогает поисковику понять страктуру документа. В html5 мы можем явно указать на любую навигацию, header и footer, сквозыне блоки, основной контент и т.д. О разметке мы писали в статье о влиянии HTML5 и микроразметки на SEO.

Хорошая разметка, продуманная в контексте текстовой оптимизации, позволяет создать более гармоничные семантические связи между текстовыми зонами.

Валидность верстки

Раньше мы считали «чистый HTML код» за жирный плюс. Однако, верстка, по большому счету не влияет ни на что. Единственное что мы проверяем в валидаторе — это ошибки верстки, которые могут привести к ошибкам сканирования и индексирования — не закрытые теги, кавычки и проч. Видели когда-нибудь на SERP в зоне где должен быть description куски html? Наверняка это ошибка верстки.

Кроме того, верстка, да и весь код вообще, должен соответствовать современным стандартам, а это значит в том числе, что на сайте отсутствует flash, устаревшие теги из ранних спецификаций, используются современные версии серверного ПО.

Формы в порядке

Формы — это важная часть сайта и на это как минимум 2 причины:

  1. Это важная текстовая зона, в которой можно и нужно использовать важные слова (ключевые, или LSI)
  2. Формы по прежнему неплохо собирают данные пользователей

Лучше на сайте иметь HTML5 формы, они лучше в плане Usability и в плане текстовой оптимизации.

Мета теги и важные текстовые зоны в порядке

Речь о title, description и h1. Что мы проверяем:

Tilte, h1, description не дублируются

Title и h1 — очень важные текстовые зоны для внутренней оптимизации и распределения ключевых слов по странице. Не стоит их дублировать. Всегда можно и нужно делать шаблоны с разнообращной семантикой в мета и h1. Description в этом контекссте не так важен. Он вообще не важен для ранжирования, мы его используем, когда работаем над On-SERP оптимизацией страниц.

Отсутствуют страницы с пустыми title, h1, descriprion

В данном случае, речь идет о продвигаемых страницах, которые должны давать органический трафик. Естественно, этого не будет, если на этой странице будет пустой title. Проверить title на пустоту, как и дургие мета теги и h1 можно в ScreamingFrog, или NetPeakSpider. И еще десяток софтов это может.

Ну и самое важное — эти теги вообще должны быть на странице.

Страницы пагинации индексируются

Пагинация должна быть в индексе, но страницы пагинации мы рекомендуем пессимизировать (уменьшать количество важных текстовых зон), чтобы они не конкурировали с основном страницей. Иногда мы используем canonnical, он не мешает сканированию страницы (впрочем, как и индексированию).

Last Modified

Я знаю два LastMod в контексте SEO — ответ сервера на запрос с информацией Last Modified (датой последнего изменения контента) и то же самое в sitemap.xml

Этот показатель важен скорее для больших сайтов, от 10 000 страниц, когда нужно считать краулинговый бюджет.

Микроразметка

Микроразметка не фактор ранжирования, однако, для SEO вещь важная. В первую очередь для On-Serp SEO.

Адаптивность

Количество мобильных пользователей растет и продолжит это делать. Кроме того, с марта 2021 года Google будет индексировать сайт MobileFirst. В этом смысле надо не только иметь хорошую адаптивную версию сайта, но и следить за тем, чтобы индексировался весь важный контент.

Скорость загрузки

Пожалуй все сходятся во мнении, что скорость загрузки страницы важна. Рекомендаций по оптимизации много, сегодня это можно делать парой кликов без глубокого знания кода. Вмкесте с тем, один из лучших специалистов в области SEO на нашел зависимости позиции в ТОП 10 от скорости загрузки (контент на Английском, но очень интересно).

Это исследование проводилось в ТОП 10, там скорее всего уже быстрые сайты и этот фактор, верроятно важен, но не для ранжирования. Скорость срабатывает в комплексе поведенческих факторов.

Кросс-браузерность

Верстка, особенно ручная, может выглядеть по разному в разных браузерах. Опять же, поведенческие факторы. Пользователь увидел кривую верстку — покинул страницу.

Надежный хостинг

С этим проблем сейчас нет вообще, по крайней мере для небольших сайтов. Коммерческие хостинги дают хорошие сервера, этих ресурсов обычно хватает. Что вообще важно при выборе хостинга:

  • Когда вы берете Shared хостинг — посмотрите с кем вы делите сервер. И имейте в виду, хорошие соседи могут поменяться с плохими. Кроме того, на одном сервере могут быть конкуренты, этого лучше избегать.
  • Хорошая техническая поддержка хостинга.
  • SSL, желательно бесплатный, а не как у некоторых.
  • Современное ПО. К примеру версия php 7 работает в два раза быстрее 5 версии. Увеличение скорости загрузки буквально в два клика.
  • Каждодневные бэкапы с приличным сроком хранения. Возможность самому делать бэкапы и скачивать их.

Оптимизация изображений

Не всегда и не все изображения можно оптмизировать. Но лучше все же этим заниматься, текстовое описание — дополнительные текстовые зоны для внедрения ключевых слов. А еще иногда важно получать трафик с картинок и без этого никуда.

Установлены Яндекс.Метрика и GoogleSearchConsole

Так можно передать больше поведенческих факоторов. К тому же инструментарий и гугла и яндекса разный, данные лучше получать из обоих сервисов.

Смешанный контент http / https

Когда сайт работает без SSL — все внутренние ссылки строятся с протоколом http://, когда появляется SSL, сайт становится доступным по двум протоколам. Эта проблема решается 301 редиректом, однако могут оставаться внутренние абсолютные ссылки и протоколом http, и несмотря на то, что они редиректят их все равно надо поменять на https, иначе браузер может помечать сайт как небезопасный.

Иногда этих ссылок несколько (пусть даже десятков) и заменить все вручную не составляет труда, но когда их сотни — тысячи — надо использовать SQL запросы.

Хлебные крошки

Очень простая, но важная часть внутренней, On-Serp оптимизации. И для поведенческих факторов тоже важно. Принято совмещать с микроразметкой, чтобы красиво выглядеть на SERP.

Исходящие ссылки как сигнал релевантности

Раньше я не ставил ссылки вообще. Но на самом деле нет ничего плохого в том, чтобы ссылаться на источник информации, более подробную информацию и т.д. Главное, чтобы эти ссылки были полезны и релевантны.

Хорошая архитектура сайта

Продвигаемые страницы должны быть максимум на 2 уровне вложенности. Если сайт большой нужно создавать тематические кластеры. Ну и принципы разкмнйо перелинковки не стоит забывать.

Индексация страниц в Яндексе и Гугле

С помощью операторов поисковых запросов получаем количество страниц в индексе Яндекса и гугла и сравниваем их с количеством в карте сайта.

Не всегда это может свидетельствовать о чем-то конкретном, потому что и sitemap может быть кривой, результаты поиска по операторам могут быть неточными. Тем не менее, я делаю это всегда, это быстро и в основном дает понимание о проблемах с индексированием.

О методах этой работы напишу обязательно.

Отсутствуют страницы с тонким контентом

Еще их называют страницы — зомби. Вариантов тут что делать много в зависимости от разного. Суть в том, что если страница есть в индексе, то она должна быть релевантна и ранжироваться. Часто все сводится к оптимизации текстовых зон.

2 комментария

Оставите комментарий?