Предлагаю вашему вниманию небольшой пост, по теме массового определения тематики сайтов.
417 показов 62 открытия
Всем привет! Думаю, все кто более-менее плотно занимается сеошкой знаком с инструментом just-magic.org от Алексея Чекушина. В сервисе есть модуль «Тематический классификатор», который позволяет на основе SERP Яндекс определять тематику поисковых запросов и URL (страниц, не сайтов). Также недавно аналогичный функционал появился в digimetr.com от Александра Борминцева (правда только для запросов, без URL).
Процесс работы подобных классификаторов детально описан Алексеем Чекушиным в блоге и справке сервиса JustMagic, пересказывать матчасть не буду.
Игорь Бакалов Занимаюсь SEO с 2010 года. Раньше вёл блог Bakalov.INFO и YouTube-канал, но потом забросил. Недавно завел Телеграмм-канал, подписывайтесь.
На днях у меня появилась идея протестировать, как можно использовать подобные сервисы для определения тематики сайтов. Но сперва, давайте определим кому, а главное зачем это может понадобиться. Как мне видится есть 3 задачи:
- Линкбилдинг. У вас есть список из нескольких тысяч доноров (из бирж ссылок, от частных продавцов и т.д.) и вы хотите выбрать только близких по тематике с вашим сайтом.
- Подбор дроп-доменов (моя основная сфера интересов в настоящее время). Еженедельно в RU зоне освобождается 20к+ доменов и среди них хочется найти те, что подходят вам по тематике (а также имеют хороший трафик и/или ссылочное).
- Подготовка профилей под ПФ. Сам я таким не занимаюсь, но на сколько понимаю процесс – спецы нагуливают профили на сайтах нужной тематики.
Для начала обозначу чем мне не нравится идея определения тематики сайта по URL главной страницы:
- На главной странице может быть недостаточно контента для корректного определения тематики.
- В отдельных случаях анализатор может не получить контент сайта, если используется антибот-защита.
- В случае работы с дроп-доменами, сайт уже не доступен, поэтому получить контент не получится.
Я предлагаю определять тематику сайта на основе сниппетов, по запросу вида [site:domain.ru]. Анализатор получает SERP по запросу, который состоит из 10 страниц сайта и на их основе определяет тематику.
Если с «обычными» ключами вы подаете запросы вида:
Ключевая фраза 1 Ключевая фраза 2 Ключевая фраза 3 …
То для определения тематики сайта, подаются запросы вида:
site:domain1.ru site:domain2.ru site:domain3.ru …
Нюанс. При подборе дроп-доменов я работаю с аукционами. Раньше не продленные домены достаточно быстро вылетали из индекса Яндекс, но последнее время ситуация поменялась и страницы могут спокойно висеть несколько недель не вылетая. Однако, если вы любитель поискать рег-фри домены, которые освободились Х месяцев/лет назад, то данный метод вам конечно не подойдет.
Итак, для теста я закинул пару десятков своих сайтов в DigiMetr, везде тематика определилась плюс-минус корректно. Можно было бы на этом остановиться, но проснулся азарт – стало интересно проверить качество классификации на более внушительных данных.
Дисклеймер: Выбор для анализа DigiMetr, а не JustMagic обусловлен лишь тем, что для работы в последнем необходимо было купить подписку, в то время как в первом оплата идет за фактически потраченные запросы.
Для дальнейшего анализа я взял старую базу сайтов из Яндекс.Каталога за 2014 год, всего 160 000 сайтов. Сделал выборку из базы:
-
Домен 2 уровня в зоне RU
- Выкинул где домен был одновременно в 2х и более рубриках (да-да)
- Выкинул поддомены и/или внутренние страницы (да, такое тоже было)
Осталось ~ 60 000 доменов.
***
При помощи A-Parser пробил WHOIS доменов, оставил только сайты с датой регистрации домена до конца 2013 года (чтобы снизить вероятность дропа домена и смены тематики).
Осталось ~37 000 доменов.
***
При помощи всё того же A-Parser пробил главные страниц и собрал теги , выкинул где данные не собрались, либо есть сообщение об ошибке, продаже домена и т.д.
Осталось ~23 000 доменов.
***
При помощи XMLProxy пробил выдачу на [site:domain.ru], выбрал только те домены, где есть 30+ страниц в поиске (мало страниц в поиске = плохо определится тематика, можно было выбрать 10+, но решил срезать косты на проверке).
Осталось ~19 000 доменов.
***
Закинул весь этот список доменов на проверку в https://digimetr.com/ru/topic-classify, получил результаты, начал смотреть.
Сайты в Яндекс.Каталог могли размещаться на разном уровне вложенности, как «в глубине»:
/Бизнес/Производство и поставки/Электроника и электротехника/Электротехника/Электростанции, генераторы, ИБП/
Так и на первом уровне:
/Универсальное/
Для начала я решил посмотреть на сколько точно DigiMetr определяет первый уровень тематики у сайтов. Разбил рубрики по слешам, выполнил сравнение. Получилось, что корректно определено для 14692 сайтов из 19233, т.е. 76%. Очень даже неплохо!
Дальше начал смотреть второй уровень. Пришлось сперва немного сократить количество проверяемых сайтов – убрал те, где в Яндекс.Каталоге у сайта не было второго уровня, а в DigiMetr был. Например, в ЯК сайт был в «/Учёба/Универсальное/», а DigiMetr положил его просто в «/Учёба/». И наоборот, если в ЯК был второй уровень, а у DigiMetr только первый. Срезалось не очень сильно, с 19233 до 19042 сайтов, т.е. минус 1% где-то. По второму уровню точность ожидаемо снизилась, тематика совпала у 12136, т.е. 63% – всё еще не плохо.
Также посмотрел третий уровень. Аналогично убрал сайты, где в ЯК или в DigiMetr этот уровень отсутствовал, осталось 17433 сайтов. По третьему уровню тематика совпала у 8532 сайтов, т.е. 48%.
Несколько примеров, где «не совпало», но «горячо»:
*** /Авто/Продажа автомобилей/Японские авто/ /Авто/Автолюбители/Японские марки/ *** /Учёба/Среднее образование/Универсальное/ /Учёба/Среднее образование/Школы/ *** /Спорт/Летние виды спорта/Стрельба/ /Общество/Власть/Силовые структуры/Оружие/ *** /Hi-Tech/Сети и связь/Устройство сетей/ /Hi-Tech/Компьютеры/Серверы/
Несколько примеров, где «не совпало», и «холодно»:
/Учёба/Курсы/Компьютерные курсы/ /Бизнес/Деловые услуги/Юридические услуги/Адвокаты, нотариусы/ *** /Бизнес/Финансы/Банкротство/ /Бизнес/Производство и поставки/Энергетика/ *** /Спорт/Водный спорт/Дайвинг/ /Hi-Tech/Интернет/Хостинги/Бесплатные хостинги/ *** /Дом/Квартира и дача/Ландшафтный дизайн/ /Дом/Семья/Психология отношений/
Также возможно, что у меня и у DigiMetr немного отличались базы Яндекс.Каталога, т.к. есть вот такие ошибки, которые скорее всего вызваны тем, что менялась сама структура ЯК:
/Спорт/Экстремальный спорт/Роллерспорт, скейтбординг/ /Спорт/Экстремальный спорт/Роллерспорт и скейтбординг/ *** /Спорт/Соревнования/Автоспорт/Ралли/ /Спорт/Автоспорт/Ралли/ *** /Авто/Запчасти, аксессуары/Интернет-магазины/Шины и диски/ /Авто/Запчасти, аксессуары/Шины и диски/ *** /Спорт/Соревнования/Водный спорт/Яхты/ /Спорт/Водный спорт/Яхты/ *** /Отдых/Туризм/Пляжи и аквапарки/ /Отдых/Где развлечься/Пляжи и аквапарки/
Также хочу заметить, что расхождения в определении тематики – это не всегда ошибка DigiMetr, т.к. есть отдельные примеры и с Яндекс.Каталогом, например:
*** domsvadba.ru <title>Свадебные аксессуары, товары от производителя опт – Магазин Дом Свадьба</title> Яндекс.Каталог: /Бизнес/Производство и поставки/Предметы потребления/Прочее/ DigiMetr: /Дом/Семья/Свадьба/Свадебные платья/ *** bior-opt.ru <title>Интимные товары оптом для секшопа. Секс товары для вас!</title> Яндекс.Каталог: /Бизнес/Производство и поставки/Предметы потребления/Прочее/ DigiMetr: /Развлечения/Эротика/Секс-шопы/ ***
Всю базу с результатами проверки в паблик выкладывать не планирую, вот тут ознакомительный фрагмент по 300 строк на каждой вкладке.
Если вам был нужен инструмент для определения тематики сайтов (поиск дроп-доменов, ссылочных доноров на биржах / аутриче, нагул профилей под ПФ на сайтах определенной тематики), рекомендую попробовать данный метод, как по мне – качество выходит очень достойное.
Какой из анализаторов использовать, JustMagic или DigiMetr – на ваше усмотрение, не думаю, что качество будет заметно отличаться (но возможно в будущем сравню на одинаковых данных).
На этом всё. Подписывайтесь на мой Телеграмм-канал. Также загляните на мой YouTube – его давно не обновлял, но в планах есть несколько идей, так что тоже подпишитесь, чтобы ничего не пропустить.
Monstro – сервис для продвижения сайтов и услуг
https://t.me/monstrotraf