Выберите Ваш город

Санкт-ПетербургМоскваБелгород Другой город
Svettsova.com
Санкт-ПетербургМоскваБелгород

Создание семантического ядра: парсинг, чистка, группировка

Перед тем как начать сбор семантического ядра нужно определиться со смысловыми группами для него. Когда сайт есть и всё на нем уже есть и нет возможности изменить, группы выписываются по разделам имеющегося сайта — каталог, карточки с товарами, услуги, подуслуги и т.д. Если сайт находится на этапе проектирования, структура создается на основе логики и потребностей потребителя.

Например, у нас магазин одежды, какие группы мы можем выделить?

  • Мужская одежда
  • Женская одежда
  • Детская одежда

Далее, составляем список словоформ и синонимов, например для фразы «мужская одежда» это – одежда для мужчин, «одежда для мужиков»; для фразы «детская одежда» это – «одежда для детей», «одежда для новорожденных», «одежда для подростков», «одежда для девочек, «одежда для мальчиков» и так далее. Для фразы «женская одежда» — это «одежда для женщин», «одежда для девушек», «одежда для дам» и т.д. Прошу обратить внимание что в наш шаблон при создании плана, структуры ядра не нужны водить дополнительные слова к основной фразе, например: стильная женская одежда, верхняя мужская одежда, или крутая одежда для подростков. Слова: «верхняя» «крутая» и «стильная» подсоединятся к нашему шаблону (в данном случае шаблонами являются: «женская одежда», «мужская одежда» и «одежда для подростков») при парсинге. О парсинге данных позже.

Конечно, для этой тематики можно было начать структуру с другого бока. А именно, задать главными разделами виды товара:

  • Верхняя одежда
  • Брюки
  • Костюмы
  • Обувь
  • Нижнее белье
  • И так далее
  • А уточнение пола как бы входит в данные группы, и тогда в парсинг мы не добавляем слова: «мужчина», «женщина», «девочка», «мальчик», потому что в этом случае это будут дополнительные слова.

    Но мы вернемся к первой группе.

    У слова «одежда» синонимов как таковых нет. В данном случае это слово выступает как обобщенное понятие одежды в целом, т.е. в него входят: куртка, юбка, плащ, но эти слова, эти данные уходят дальше по структуре, углубляясь ниже, и это будет уже второй этап. Важно уяснить, что вначале нам нужно найти самые обобщенные группы.

    Приведу другой пример, компания занимается юридическими услугами широкого спектра, это и банкротство юридических лиц, и банкротство физических лиц, брачные споры, сопровождение сделок, юристы по недвижимости, по наследству и так далее. Какая основная группа будет у этого сайта? Отвечаю: юридические услуги, юрист, адвокат, юридическая помощь, юридическое сопровождение и так далее. Стараемся найти всевозможные подсказки, всевозможные синонимы, меняем части речи – из прилагательного в существительное (юридические – юрист). После проработки общей группы, переходим к составлению более конкретных групп, в данной случае это конкретные услуги: юрист по банкротству, юрист по семейным делам и так далее. Здесь также ищем синонимы для каждой услуги.

    Юрист по банкросттву физ лиц – это и

    Банкротство физических лиц

    Банкротство гражданина

    Юрист по банкротству физиков

    И так далее

    Ваш план с шаблонами фраз может быть очень большим, чем качественнее вы его прорабатываете, тем больше план и тем больше ключевых слов на выходе. Конечным семантическим ядром можно пользоваться при создании рекламной компании в Яндекс.Директе, в Google Ads, при SEO-продвижении. Это и был ответ на вопрос: зачем нужно семантическое ядро 🙂

    Итак, мы создали план для парсинга. Теперь нам нужно спарсить всевозможные хвостики для всех шаблонов. Например, у нас шаблон: куртка женская, что спарсится:

    • Куртка женская купить
    • Куртка женская синяя
    • Куртка женская зимняя

    И так далее, для этого шаблона могут быть сотни, иногда тысячи фраз. Если у нас нет осенних курток и не предвидится, то перед парсином нужно определиться с минус словами для того, что не парсить лишнего, ведь потом нужно работать с вычиткой, класстеризаций. В данном случае минус-словами могут быть: осень, осенний, возможно – демисезонный, весенний, весна, плащ, ветровка.

    Я собираю ключевые слова в программе КейКоллектор. Она платная, но цена вполне доступная. Если вам не хочется тратить денег или вы не собираетесь работать часто с семантическим ядром (у вас только один проект и больше проектов не предвидится), то можете попробовать бесплатный аналог с обрезанным функционалом и с похожим интерфейсом – Словоеб. Из названия программы мы можем явно увидеть всю радость работы с семантическим ядром 🙂

    Как работать с KeyCollector

    Так выглядит программа при запуске:

    Интерфейс программы КейКоллектор

    Для того чтобы запустить парсинг вам нужно зарегистрировать 2 -3 почты в Яндексе, свою действующую почту лучше не использовать, так как её могут заблокировать. При парсинге морфологической и точной частот начинает часто появляться капча, буквально каждую минуту, и отойти от программы нельзя, так как если вы не вводите данные — программа останавливается. Вы можете дать команду программе выключать из очереди закапчеванный аккаунт на определенное время. Поэтому лучше использовать минимум 2 аккаунта, а лучше 3. Также вы можете подключить прокси-серверы как платные, так и бесплатные от того же КейКоллектора. Но последние использовать не рекомендуется, так как они работают нестабильно — могут быть закапчиваны, например, и тольку от них в этом случае будет мало.

    Прокси выглядят примерно так:

    • IP – 94.190.87.22;
    • порт – 1489;
    • логин – lala12;
    • пароль – jhgh666aGGh

    Когда вы получите прокси, вам нужно будет их добавить в КейКоллектор. Оформление похоже на настройку акканта для парсина, только добавляется пара переменных и символ собаки @:

    94.190.87.22:1489@lala12:jhgh666aGGh

    Первичная настройка аккаунта

    Как я писала выше, вам необходимо зарегистрировать 2-3 почты на Яндексе. После того как вы это сделаете вам нужно внести эти данные в настройки программы. Для этого кликаем на значок шестеренки в левом верхнем углу:

    Настройка программы


    Далее, кликаем на вкладку Яндекс.Direct. У меня уже вбиты 2 почты, которые я замазюкала в графическом редакторе 🙂 Допустим у вас почта tata@yandex.ru , а пароль: Kjh77, данные вносятся в таком виде: tata: Kjh77. Чтобы внести данные вам нужно нажать на кнопку «Добавить списком».

    Настройка почты для КейКоллектора

    Парсинг данных

    Шаг 1: добавление стоп-слов

    Если у вас есть стоп-слова их лучше добавить перед парсингом сюда:

    Добавление минус-слов

    Кликаем. Появляется окошко:

    Стоп-слова

    Выбираем группу для стоп-слов, кликаем на зеленый круг. В появившемся окне добавляем стоп слова и жмем логичное ОК.

    Если стоп-слов (иначе их можно назвать «минус-слова») у вас нет и ваша сфера непопулярна или же у вас отсутствуют слова в шаблонах фраз, которые используются в нескольких тематиках (имеют двойное значение), то можно начать без стоп-слов, просто пропустите этот шаг. Но есть тематики в которых слова имеют разное значение и на выходе вы можете получить не полную семантику с огромным количеством «мусорных» фраз. Неполную потому что КейКоллектор имеет лимит для парсинга — 40 страниц, и далее он не пойдет. Пример такого шаблона: «ручки оптом», хотя само количество фраз маленькое, тут есть интересные момент — ручки могут быть шариковые, а могут быть и дверные. Поэтому если вы продаете ручки от дверей, добавьте в стоп-лист слова: шариковые, гелиевые, пишущие. Так вы сэкономите часы своего труда. Иногда двойное значение слов появляется в самом неожиданном месте: вы продаете воду для кулера, и вводите такой шаблон. Но после паринга видите, что огромное количество фраз содержат значение «кулер для воды». И вы уже вместо производителей воды превратились в производителей кулера. Здесь, конечно, дело не в минус-словах, а в последовательности, которую вам нужно будет закрепить. Но это уже не в данном шаге.

    Также стоит проработать стоп-слова когда ваши шаблоны могут иметь разные варианты продолжения. Например, вы продаете плитку для дома и выбрали такую простую фразу. Какое может быть продолжение? Как поведем себя данный шаблон:

    Как товар:

    Плитка для дома купить
    Плитка для дома недорого

    Как товар для внутреннего убранства:

    Керамическая плитка для дома
    Керамогранитная плитка для дома

    Как товар, но для внешней отделки

    Плитка для дома фасадная
    Плитка для дома тротуарная

    Как услуга:

    Плитка для дома уложить
    Плитка для дома демонтаж

    Как бренд

    Плитка для дома Kerama Marazzi
    Плитка для дома Cersanit

    Как бренды определенный геолокации

    Плитка для дома Российская
    Плитка для дома Испания

    И так далее

    Шаг 2: указание региона

    Если не хотите собрать ключевые слова, которые вводят земляне, пользующиеся Яндексом, то вводите интересующий регион. Например, продавая товары москвичам выбирайте Москву и область, хотя некоторые города и округа МО можете убрать из парсинга. Выбирается здесь:

    Настройка региона

    Далее, нажимаем сюда:

    выбор региона

    Шаг 3: добавление масок

    Теперь наш составленный план (маски) нужно загрузить в программу. Для этого создаем папки справа.

    Создание групп перед парсингом

    Теперь нажимаем на знак Wordstat:

    wordstat

    В появившемся окне выбираем «Распределить по группам» (см. скриншот ниже). Справа появятся раннее созданные группы. Нужно из правой части перенести их в левую. Для этого кликаем по каждой группе двойным щелчком. В левые окошки вносим ключевые шаблоны (маски). И не забываем про стоп-слова (если есть) — ставим галочку на «Интегрировать стоп-слова при составлении запросов к Яндекс.Wordstat», выбираем название группы.

    Ввод фраз и подключение стоп-слов

    Кликаем «Начать сбор» и ждем когда программа соберет фразы из Вордстата. Частотность соберется базовая, ещё я ее называю в данном контексте — первая колонка частотности. После того как будут спарсены фразы для первой колонки, нам нужно собрать частотности из двух других колонок: морфологическая или фиксирующая количество слов частота и точная частота.


    Лирическое отступление: Как увидеть морфологическую частоту в Яндекс.Вордстате?
    Ответ: взять ключевое слово в кавычки.
    А как увидеть точную?
    Ответ: Взять в кавычки ключевую фразу и перед каждый словом поставить по восклицательному знаку.


    Продолжим. Чтобы собрать дополнительные виды частотностей нужно кликнуть на эту кнопку:

    Парсинг частотностей из директа

    В появившемся окне обратите внимание на галочки: в первом чекбоксе галочки снимаем (мы уже собрали частотность для данного вида), в двух других — ставим.

    Сбор всех частотностей

    Нажимаем на «Получить данные» и ждем. После того как все виды частотностей для всех групп будут собраны, вам нужно удалить нулевики т.е. те фразы у которых точная частотность имеет значение — 0. Для массового удаления в КейКоллекторе есть удобная фича — фильтр. Кликаем сюда:

    Работа с фильтром

    В открывшемся окне ставим настройки как у меня на скриншоте:

    Фильтр

    В таблице с ключевыми словами отобразятся фразы, которые подошли под этот фильтр, а именно, ключи, у которых точная частотность нулевая. Теперь вам нужно их выделить и удалить. Далее, вернуться к фильтру и удалить выставленные значения.

    Шаг 4: вычитка ключевых слов

    Самое времязатратное при создании семантического ядра — это вычитка и группировка большого количества фраз.

    Поэтому лучше всего:

    1. Составлять минус-слова заранее перед парсингом
    2. Распределять парсинг в уже созданные группы и подгруппы.

    группы для ключевых слов

    Но даже после этого мы часто имеем очень много данных. Поэтому перед ручной вычиткой воспользуйтесь анализом групп в КейКоллекторе. Ключевые фразы можно разбить по отдельным словам, по составу фраз, по поисковой выдаче и по составу фраз и поисковой выдаче. Мы остановимся на первом типе.

    состав фраз

    Если вы продаете декоративный кирпич, но не под камень, то отметьте слово «камень», а затем удалите все фразы, имеющие это слово. Так, пройдясь по всему списку слов, вы можете удалить большое количество ненужного. После прочитайте все фразы (уже не слова) и удалите лишнее.

    Шаг 5: группировка

    Итак, вы вычитали все слова, оставили только нужно, составили подгруппы при необходимости дополнительно в процессе вычитки и… это еще не все. Далее вам нужно работать в Excel. Скачивайте группы, сохраняйте в отдельной папке.

    Например, вы скачали файл «Кирпич». Вам нужно распределить не только общие фразы по типу: купить кирпич, кирпич от производителя и кирпич Москва, но и другие параметры: цвет кирпича, место отделки кирпичом, материал из которого он изготовление, вид (лицевой, отделочный, рядовой, облицовочный и др), тип, формат (одинарный, двойной, фигурный и др), марка прочности и другое. Причем в этих группах могут быть и свои подгруппы, пример с группой: формат кирпича:

    Группировка фраз

    В идеале, одна маленькая группа равняется одной странице. Но не всегда такое возможно, особенно если это интернет-магазин и нет возможностей или смысла создавать такое большое количество страниц (подкаталогов).

    Надеюсь, у вас все получится и вы найдете верное применение собранной и сгруппированной семантики! Хорошей и плодотворной работы!

    Оставите комментарий?