1. Sitemap.xml
Карта сайта — это инструмент управления сканированием и индексированием сайта. Он помогает поисковым роботам обнаружить новые страницы на сайте, а также просканировать старые (или не сканировать).
Технически реализовать карту сайта не сложно, в популярных CMS есть для этого плагины. Однако с настройкой sitemap нужно быть осторожным. Если в карту сайта попадет мусор (изображения, PDF файлы, технические страницы, несуществующие страницы), они могут быть проиндексированы.
Большинство таких страниц недостаточно качественные — они не будут участвовать в результатах поиска, но поисковая машина будет о них знать, сканировать, некоторые индексировать.
Подробно о карте сайта, настройках, проверке и т.д. читайте в отдельном посте.
- Sitemap.xml Image. Карта сайта для изображений — пожалуй единственный инструмент индексирования графического контента, доступный веб мастерам. Сейчас пространство имен sitemap-image поддерживает и Яндекс (раньше только гугл). Документация по этому инструменту: Яндекс, Гугл.
- Sitemap.xml Video. Карту сайта для видео контента использует только Google, который и создал для протокола соответствующее пространство имен, у Яндекса иные инструменты работы с видео. Актуально для сайтов, на которых большое количество видео материалов размещено на локальном сервере. Если видео из YouTube, то карта сайта для видео никак не поможет в индексации. Документация здесь.
2. Robots.txt
Файл robots.txt — это основной инструмент по управлению сканированием сайта. Поисковые машины Google и Яндекс перед обходом сайта запрашивают этот файл, и если в нем запрещено сканирование той или иной страницы — они их сканировать не будут, соответственно, такие страницы не попадут в индекс (правда, это не всегда так). Директивы файла не носят обязательного для робота характера. Проверить robots.txt можно сервисом яндекса для вебмастеров, Google тоже имеет такой инструмент.
При этом, если страница заркыта от сканмирования в файле robots.txt, но на нее есть внутренние или внешние ссылки с проиндексированных страниц — такая страница может быть проиндексирована несмотря на блокировку в robots.txt.
3. SSL-сертификат, использование https/2 версии протокола
SSL (Secure Sockets Layer) — протокол, защищающий информацию, которую пользователь передает web серверу и наоборот. Технологию SSL используют при передачи данных по протоколу HTTPS. Это защищенный протокол передачи данных, в отличие от HTTP. Яндекс прямо указывает на то, что наличие SSL сертификата влияет на ранжирование сайта. Google в своем блоге сообщил о том, что наличие SSL станет фактором ранжирования еще в апреле 2014 года.
При этом наличие сертификата более важно для сайтов, на которых принимаются платежи от клиентов и передается иная важная пользовательская информация.
HTTP2 — вторая версия протокола http. Если коротко, использование этого протокола ускоряет загрузку страниц. Практически все хостинги используют http2 (но стоит проверить).
По нашим наблюдениям протокол сайта не является определяющим фактором ранжирования.
4. Порядок с 301 редиректом
Базовые 301 редиректы — это основные параметры настройки основного зеркала сайта.
- Редиректы с http на https
- Редиректы с www на домен без www
Если оставить сайт доступным по двум протоколам и доступным с www и без www, то для поисковиков будут доступны 4 версии сайта:
- http//www.site.ru
- https//www.site.ru
- http//site.ru
- https//site.ru
Для поисковых машин это разные сайты с одинаковым контентом. По сути, если неверно настроить редиректы, могут получится супер дубли сайта, на разделение которых впоследствии уйдет много времени. Неверно настроенные редиректы — это грубая техническая ошибка. Что пишет об этом Яндекс.
5. Верные коды ответа сервера для несуществующих страниц
Одна из распространенных ошибок заключается в замене сообщения об ошибке 404 (страница не найдена) для несуществующих страниц на страницу-заглушку, которая возвращается с кодом ответа 200 (ОК). В этом случае поисковая система считает, что страница с некорректным адресом существует, и не удаляет ее из своей базы.
Это приводит к более медленному индексированию полезных страниц на сайте. Кроме того, совсем неплохо, когда страница 404 отрисована в общем стиле сайта, содержит навигацию или иным способом помогает пользователю найти на сайте то, что он ищет. Проверить код ответа сервера можно в сервисе Яндекса.
Для массовой проверки мы используем другие инструменты, обычно это ScreamingFrog.
6. Отсутствуют битые ссылки
Битые ссылки — это ссылки на несуществующие страницы (с 404 или 410 кодом ответа сервера). Иногда можно встретить ошибки с кодом ответа 500 (ошибка на стороне сервера), ссылок на такие страницы также не должено быть.
7. Отсутствуют дубли
Дубли есть технические, а есть фактические. Технические, как правило, формирует CMS.
Дубли страниц сайта — проблема не явная. Для некоторых сайтов это может быть и вовсе не проблема. Однако правило хорошего тона — дублей на сайте быть не должно. О дублях стоит написать подробнее отдельно.
Самый простой способ выявить технические дубли — использовать соответствующий функционал в панелях для веб-мастеров. Кроме этого, мы используем ScreamingFrog.
8. Минимум редиректов на сайте
Редирект — это перенаправление севрером пользователя с запрошенной страницы на какую-нибудь другую. Чаще всего веб-мастера используют 301 редирект (постоянное перенаправление), реже 302 редирект. О других типах редиректов SEO-специалисты в лучшем случае догадываются (они по факту не нужны).
Суть в том, что все страницы на сайте должны отдавать 200 код, внутренние ссылки также должны быть 200, а не 301, или 302. Есть разные мнения на этот счет. Мне кажется, внутренние ссылки не должны возвращать ничего, кроме 200 хотя бы потому, что это «технический порядок». Кроме того, есть мнение, что при 301 редиректе теряется PageRank, а также, возможно, редирект воспринимается как дополнительный уровень вложенности.
9. ЧПУ URL и разделители «-«
ЧПУ, или человеко-понятные URL, — это адреса страниц, описанные на латинице.
- Пример ЧПУ: www.site.ru/catalog/
- Не ЧПУ www.site.ru/id=12
У ЧПУ есть масса плюсов:
- Их понимает человек, соответственно, с ними проще работать как веб-мастеру, так и пользователю при необходимости.
- В ЧПУ можно прописать вхождение ключевого слова, что неплохо.
- Благодаря ЧПУ поисковик легче разберется со структурой сайта.
О влиянии ЧПУ на SEO представители поисковых систем высказывались не так часто. Что пишет об этом Google. Это не очень важный фактор для SEO
10. Правильный поток документа
Понятие «поток документа» в какой-либо документации отсутствует (кроме технической, связанной с версткой). По сути, качество потока документа мы определяем так:
- Есть ли на сайте секционирование html5.
- Соблюдена ли иерархия заголовков.
- Логично ли располагается контент (не визуально, для пользователей, а как его видит поисковый робот).
Проверить секционирование можно здесь. Но мы обычно пользуемся расширениями браузера. Подробно об этом в статье об инструментах технического аудита.
Влияние html5 и вообще качества потока на SEO практически не изучалось. В целом все сеошники сходятся на том, что поток документа в том или ином виде, в контексте иных факторов ранжирования на выдачу влияет. Мы попытались изучить этот вопрос, результаты здесь.
11. Циклические ссылки отсутствуют
На циклические ссылки краулер тратит бюджет. На циклических ссылках теряется PageRank. Циклические ссылки бесят пользователей. Циклическая ссылка — это просто техническая ошибка, нет ни одного повода использовать циклические ссылки, кроме якорных ссылок внутри большой страницы.
12. Качество семантической разметки из HTML5
Хорошая разметка помогает поисковику понять структуру документа. В html5 мы можем явно указать на любую навигацию, header и footer, сквозные блоки, основной контент и т.д. О разметке мы писали в статье о влиянии HTML5 и микроразметки на SEO. Хорошая разметка, продуманная в контексте текстовой оптимизации, позволяет создать более гармоничные семантические связи между текстовыми зонами.
13. Валидность верстки
Раньше мы считали «чистый HTML код» за жирный плюс. Однако верстка по большому счету не влияет ни на что. Единственное, что мы проверяем в валидаторе, это ошибки верстки, которые могут привести к ошибкам сканирования и индексирования (не закрытые теги, кавычки и пр.). Видели когда-нибудь на SERP в зоне, где должен быть description, куски html? Наверняка это ошибка верстки.
Кроме того, верстка да и весь код вообще должны соответствовать современным стандартам, а это значит, что на сайте в том числе отсутствуют flash, устаревшие теги из ранних спецификаций, используются современные версии серверного ПО.
14. Формы в порядке
Формы — это важная часть сайта и на это как минимум 2 причины:
- Это важная текстовая зона, в которой можно и нужно использовать важные слова (ключевые, или LSI).
- Формы по-прежнему неплохо собирают данные пользователей.
Лучше на сайте иметь HTML5 формы, они лучше в плане Usability и в плане текстовой оптимизации.
15. Мета теги и важные текстовые зоны в порядке
Речь о title, description и h1. Что мы проверяем:
- Tilte, h1, description не дублируются. Title и h1 — очень важные текстовые зоны для внутренней оптимизации и распределения ключевых слов по странице. Не стоит их дублировать. Всегда можно и нужно делать шаблоны с разнообразной семантикой в мета и h1. Description в этом контексте не так важен. Он вообще не важен для ранжирования, мы его используем, когда работаем над On-SERP оптимизацией страниц.
- Отсутствуют страницы с пустыми title, h1, description. В данном случае, речь идет о продвигаемых страницах, которые должны давать органический трафик. Естественно, этого не будет, если на этой странице будет пустой title. Проверить title на пустоту, как и дургие мета теги и h1 можно в ScreamingFrog, или NetPeakSpider. И еще десяток софтов это может.
Ну и самое важное — эти теги вообще должны быть на странице.
16. Страницы пагинации индексируются
Пагинация должна быть в индексе, но страницы пагинации мы рекомендуем пессимизировать (уменьшать количество важных текстовых зон), чтобы они не конкурировали с основном страницей. Иногда мы используем canonnical, он не мешает сканированию страницы (впрочем, как и индексированию).
17. Last Modified
Я знаю два LastMod в контексте SEO — ответ сервера на запрос с информацией Last Modified (датой последнего изменения контента) и то же самое в sitemap.xml.
Этот показатель важен скорее для больших сайтов (от 10 000 страниц), когда нужно считать краулинговый бюджет.
18. Микроразметка
Микроразметка — не фактор ранжирования, однако для SEO вещь важная. В первую очередь для On-Serp SEO.
19. Адаптивность
Количество мобильных пользователей растет и продолжит это делать. Кроме того, с марта 2021 года Google будет индексировать сайт MobileFirst. В этом смысле надо не только иметь хорошую адаптивную версию сайта, но и следить за тем, чтобы индексировался весь важный контент.
20. Скорость загрузки
Пожалуй, все сходятся во мнении, что скорость загрузки страницы важна. Рекомендаций по оптимизации много, сегодня это можно делать парой кликов без глубокого знания кода.
Вместе с тем, один из лучших специалистов в области SEO на нашел зависимости позиции в ТОП 10 от скорости загрузки (контент на Английском, но очень интересно).
Это исследование проводилось в ТОП 10, там скорее всего уже быстрые сайты и этот фактор, верроятно важен, но не для ранжирования.
Скорость срабатывает в комплексе поведенческих факторов.
21. Кросс-браузерность
Верстка, особенно ручная, может выглядеть по разному в разных браузерах. Опять же — поведенческие факторы. Пользователь увидел кривую верстку — покинул страницу.
22. Надежный хостинг
С этим проблем сейчас нет вообще, по крайней мере для небольших сайтов. Коммерческие хостинги дают хорошие сервера, этих ресурсов обычно хватает.
Что вообще важно при выборе хостинга:
- Когда вы берете Shared хостинг, посмотрите, с кем вы делите сервер. И имейте в виду, хорошие соседи могут поменяться с плохими. Кроме того, на одном сервере могут быть конкуренты, этого лучше избегать.
- Хорошая техническая поддержка хостинга.
- SSL, желательно бесплатный, а не как у некоторых.
- Современное ПО. К примеру версия php 7 работает в два раза быстрее 5 версии. Увеличение скорости загрузки буквально в два клика.
- Каждодневные бэкапы с приличным сроком хранения. Возможность самому делать бэкапы и скачивать их.
23. Оптимизация изображений
Не всегда и не все изображения можно оптимизировать. Но лучше все же этим заниматься, текстовое описание — дополнительные текстовые зоны для внедрения ключевых слов. А еще иногда важно получать трафик с картинок и без этого никуда.
24. Установлены Яндекс.Метрика и GoogleSearchConsole
Так можно передать больше поведенческих факторов. К тому же инструментарии гугла и яндекса различаются, данные лучше получать из обоих сервисов.
25. Смешанный контент http / https
Когда сайт работает без SSL, все внутренние ссылки строятся с протоколом http://, когда появляется SSL, сайт становится доступным по двум протоколам. Эта проблема решается 301 редиректом, однако могут оставаться внутренние абсолютные ссылки и протоколом http, и несмотря на то, что они редиректят их все равно надо поменять на https, иначе браузер может помечать сайт как небезопасный.
Иногда этих ссылок несколько (пусть даже десятков) и заменить все вручную не составляет труда, но когда их сотни-тысячи, надо использовать SQL запросы.
26. Хлебные крошки
Очень простая, но важная часть внутренней, On-Serp оптимизации. И для поведенческих факторов тоже важно. Принято совмещать с микроразметкой, чтобы красиво выглядеть на SERP.
27. Исходящие ссылки как сигнал релевантности
Раньше я не ставил ссылки вообще. Но на самом деле нет ничего плохого в том, чтобы ссылаться на источник информации, более подробную информацию и т.д. Главное, чтобы эти ссылки были полезны и релевантны.
28. Хорошая архитектура сайта
Продвигаемые страницы должны быть максимум на 2 уровне вложенности. Если сайт большой, нужно создавать тематические кластеры. Ну и принципы разумной перелинковки не стоит забывать.
29. Индексация страниц в Яндексе и Гугле
С помощью операторов поисковых запросов получаем количество страниц в индексе Яндекса и Гугла и сравниваем их с количеством в карте сайта.
Не всегда это может свидетельствовать о чем-то конкретном, потому что и sitemap может быть кривой, и результаты поиска по операторам могут быть неточными. Тем не менее я делаю это всегда, это быстро и в основном дает понимание о проблемах с индексированием. О методах этой работы напишу обязательно.
30. Отсутствуют страницы с тонким контентом
Еще их называют страницы-зомби. Вариантов тут что делать много в зависимости от разного. Суть в том, что если страница есть в индексе, то она должна быть релевантна и ранжироваться. Часто все сводится к оптимизации текстовых зон.