Пару недель назад я случайно обнаружил фатальную ошибку в Яндекс.Вебмастере. Там говорилось, что мой сайт может угрожать безопасности пользователей или было обнаружено нарушение правил поисковой системы. Других ошибок не было: показатель качества даже немного увеличился.
Удивительно, что этот сайт был известным СМИ в регионе, и за восемь лет существования к нему не было вопросов со стороны Яндекса. Потому что на самом деле мы не занимаемся нарушениями правил поисковых систем. Но я сначала, конечно, думал, что проблема у нас — где-то спрятан баг или, того хуже, взломан. Однако все оказалось гораздо интереснее.
Проблема оказалась в новом алгоритме Яндекса, который теперь буквально запрещает писать новости. А у нас в регионе он уже запретил около трети независимых региональных СМИ. Также, что удивительно, атаке подверглись некоторые из самых качественных программ. Поэтому я думаю, что проблема здесь не столько в сайтах, сколько в самом алгоритме, создателях, которые придумали хорошую идею бороться за уникальность контента, но не протестировали ее до конца. Почему я пришел к такому выводу и что не так с алгоритмом, я расскажу здесь.
Фатальная ошибка появилась внезапно и без предупреждения
Несколько слов о себе. Меня зовут Вадим, и уже более десяти лет я работаю в региональных СМИ и где-то на стыке журналистики и IT. С одной стороны, я всегда любил писать тексты, с другой, мне не менее интересно настраивать и дорабатывать CMS и следить за алгоритмами рекомендаций и поисковых систем. И кстати, было заметно, что алгоритмы с каждым годом становились лучше, и мой ответ новичкам на вопрос «как написать так, чтобы мой текст любил поисковые системы» звучал все увереннее так: «Просто напишите хороший текст для людей, они получат его от тебя» хочет.» Что меня порадовало, но в случае с «Яндексом» так продолжалось лишь до недавнего времени.
Просто станьте лучше
Вот я и нашел в Вебмастере табличку о фатальной ошибке и проблемах с безопасностью. При нажатии на детали открываются более подробные сведения: «Мало полезного контента, обилие рекламы или спама». И тогда мне даже стало как-то обидно. Потому что над контентом работает целая редакция, и, например, через полдня я вижу свои тексты на всех пабликах города, а вечером друзья начинают мне их пересказывать. Это значит, что наши материалы нельзя назвать малополезными. Вся реклама на сайте — это аккуратный блок Яндекс.Директа под текстом, пресс-релизы в отдельном разделе и периодически один-два баннера — маленькие, непопапные и без видео.
Вдвойне обидно, что буквально за неделю до бана я чуть не обругал другого продавца, который искренне удивился, почему мы не хотим ставить всплывающее окно с видео, ведь оно “очень маленькое”, и не понял, что ” мы не хотим» означает издевательство над вашими читателями и то, как мы можем отказаться от денег. Наконец, у нас точно не было спама и мы не использовали покупку ссылок — люди уже активно ссылаются на нас.
Но что-то заставило Яндекс удалить сайт из поиска. Хотя это мягко говоря «ограничения», на самом деле сайт можно найти, только если специально его искать. При запросе большая часть текстов пропадала из результатов поиска, даже если вы вводили заголовок в поле поиска. Яндекс.Вебмастер не ответил на вопрос «почему это произошло»: по его данным, все было нормально. Индекс качества сайта даже увеличился; особых ошибок не было. Кроме одного – но смертельно опасного. С такими вступлениями я вообще перестал понимать смысл этого сервиса и его многочисленных функций.
Обратился в техподдержку за консультацией. В старые добрые времена умудрялись найти понимание и быстро ловить ошибки – как свои, так и самого Яндекса.
Например, однажды турбо-страницы того же сайта были забанены просто потому, что робот Яндекса неправильно определил местонахождение даты публикации. Мы указали в шапке сайта текущую дату, робот принял ее за дату публикации текста, сверил с датой в RSS для турбо-страниц и предсказуемо выругался — потому что не согласились. Служба поддержки заметила этот момент, мы убрали текущую дату из шапки, бот перестал путаться и всё вошло в норму.
Но теперь это стало сложнее. Ответ нужно было найти постепенно. Поддержка просто скопировала предложения из справки и посоветовала устранить причины бана, предоставив ссылку на страницу помощи, где были перечислены все возможные причины, включая мошенничество и ссылки на скачивание вирусов. Потом она меня заверила, что нужно просто писать качественные тексты и все будет хорошо. Она посоветовала мне посмотреть на сайт глазами пользователя (и здесь было обидно, ведь мы всегда так на него смотрели). И, наконец, с формулировкой «ваш сайт еще недостаточно высокого качества» она рекомендовала провести масштабные улучшения. Учитывая, что количество публикаций на нем за восемь лет работы приблизилось к 40 тысячам, это уже звучало как призыв просто уничтожить весь медиаархив и начать все сначала.
Я перешла в наступление и потребовала, чтобы мне не копировали содержание справки, а рассказали, что с нами на самом деле не так. На возражение, что поисковые системы не раскрывают свои алгоритмы, он ответил: Я не прошу алгоритмов, но если вы обвиняете нас в нарушении правил, скажите мне хотя бы некоторые. Мы говорим уже не о нашем месте в результатах поиска, а о том, что нас фактически перестали индексировать.
Нейросеть против рерайта
И мне назвали возможную причину. Это оказалось обновление поисковых алгоритмов, выпущенное в августе и предназначенное для борьбы с неоригинальным контентом. Правда, в техподдержке сразу оговорились: это возможная, но не единственная причина, и решение о бане было принято “по совокупности факторов” (это тоже оказалась копия текста из справки , и не конкретно о нас). А потом они снова пошли в отрицание. На просьбу проверить адекватность алгоритма быстро ответили, что все тщательно проверено и все работает как надо. Нам просто нужно лучше работать на стороне.
Но алгоритм уже интересен. Судя по описанию, это нейросеть, которая умеет понимать смысл текста и поэтому замечает, когда одно и то же сказано разными словами. Вот что об этом пишут в блоге вебмастера:
“Цитирование материала само по себе допустимо и не является нарушением. Другое дело, если цитирование или перефраз составляет основное содержание сайта – такой ресурс не представляет реальной ценности для пользователей”
При этом ниже приводится список того, что можно цитировать – законы, описания авторов, произведения искусства. То есть авторы алгоритма подумали об исключениях. Но список заканчивается расплывчатым «…и в других случаях, когда пользователи в результате получают дополнительную ценность”.
Итак, вот оно. Я хотел бы добавить сюда еще один момент. Вы можете написать о том, если вы являетесь СМИ. Особенно, если это новости.
Почему рерайт для СМИ — это норма
Все дело в особенностях работы СМИ, особенно в регионах. Событий происходит не так много, поэтому, если о чем-то напишет одно издание, напишут и другие. Далеко ходить не надо: можно посмотреть раздел новостей Хабра, там то же самое. Невозможно написать все новости первым, и в то же время нельзя избежать написания резонансной новости только потому, что вы не узнали о ней первым. У читателей возникнут вопросы. Но значит ли это, что пользователь не получает добавленной стоимости? Нет!
Разные СМИ подают материал по-разному, переводя с официального языка на человеческий язык и выискивая дополнительные подробности. Это конкуренция в хорошем смысле, которая заставляет совершенствоваться, а не расслабляться. А хорошо написанные новости приносят трафик, который привлекает просмотры крупных репортажей.
Когда-то, когда я был совсем молодым интернет-журналистом, я задумался открыть что-то вроде регионального интернет-журнала. Так что и без этой вашей новости одни большие и интересные тексты! Ожидания быстро столкнулись с реальностью: привлечь такую аудиторию сложно, ведь людям приходится каким-то образом оказаться на странице, чтобы узнать, что там и что почитать. Но если вы объедините лонгриды с новостями, и ваши новости, и ваши репортажи расходятся.
Но новость, согласно новому алгоритму Яндекса, — это полная переписка. Ведь если текст о мероприятии умещается в пару абзацев, смысл будет тот же, даже если вы сами видели происходящее и не смотрели на конкурентов. Это означает, считает алгоритм, что региональные СМИ по умолчанию являются бесполезным сайтом, которому еще нужно доказать свое место в результатах поиска.
Самое интересное здесь то, что на протяжении многих лет Яндекс, включая сервис Яндекс.Новости, наоборот, стимулировал рерайтинг. Попасть в топ новостей со своей уникальной темой было невозможно. Алгоритм считал (и во многом справедливо), что если об этом пишете только вы, то это не такая уж новость. Вот если это написали (или переписали) ваши коллеги – то да, добро пожаловать в топ по трафику. Чем больше рерайтов, тем выше позиция новости в топе, ведь если о ней пишут все, значит, событие значимое.
Пример новости сверху, которую разные городские СМИ узнали из разных источников, но смысл остался тот же
Но это было давно, Новости уже у другого владельца, а у Яндекса новый алгоритм. Который просканировал все, что накопилось за эти годы, ужаснулся количеству рерайтинга (по определению это больше новости, чем репортаж) и отправил сайт в бан. Это даже кажется логичным, но.
Напомню: сайт не предполагает рерайтинг. На сайте также много уникального контента, включая новости, которые мы нашли первыми. Этот контент до сих пор украден без ссылок на различные паблики во «ВКонтакте» и местных Telegram-каналах. Только вот если я ввожу в поиск цитаты из авторских текстов, то Google, как и прежде, выдает мне реальный первоисточник – наши СМИ и Яндекс – только публичные страницы. Который просто скопировал мой текст вместе с изображением, добавил к ним и теперь находится первым в результатах поиска. Забанить ВКонтакте нельзя.
Мой собственный текст, предмет, который я нашел на улице и сфотографировал сам. Гугл находит первоисточник…
А Яндекс — это паблик ВКонтакте, который скопировал мой текст и поставил на мои фотографии свои водяные знаки, даже не указав авторство. В результатах поиска вообще нет страницы-первоисточника
Пошли вон из выдачи
Как я уже писал вначале, в нашем регионе из результатов поиска Яндекса исчезло около трети СМИ. Я до сих пор не понимаю принципа, почему они не понравились алгоритму. У них уникальный контент; Одним из первых под удар нейросети попало издание, известное в регионе своими великими писателями. У него были проблемы еще раньше, чем у нас. Из тенденций заметил только то, что в результатах поиска остались все государственные телекомпании (возможно, здесь сыграло роль видео) и все новые публикации (те, что не старше пяти лет). Последние, я думаю, просто еще не успели их достаточно переписать.
Что же нам теперь делать? Ищем кнопку. Редактируем всякие мелочи, которые могут не понравиться поисковой системе, например, закрытые и открытые от индексации разделы. Мы уже отказали нескольким рекламодателям в уменьшении доли рекламных текстов на сайте (хоть они и не беспокоят пользователей, но другой рекламы, от которой мы можем отказаться, у нас нет, если только Яндекс не клянется в этом напрямую). И мы надеемся, что Яндекс исправит свои алгоритмы или хотя бы объяснит, что с ним не так и что нам нужно делать в этой ситуации.
P.S.
Уже когда этот текст был в черновике, Яндекс написал в техподдержку по результатам более детальной проверки алгоритма. Оно начало осуществляться после того, как я привел в пример копии собственного текста на чужих пабликах, которые в отличие от оригинала были в результатах поиска. Я спросил, этого ли хотят разработчики от алгоритма, который будет конкурировать за уникальный контент.
Ответ пришел через несколько дней, где мне еще раз подтвердили, что алгоритм должен работать именно так. Но появилась и новая информация, не дающая повода для оптимизма представителям СМИ:
“Хотелось бы отметить, что алгоритм внедряется постепенно, чтобы веб-мастера могли обратить внимание на потенциальную проблему и решить ее, улучшив качество своего сайта. Но со временем все сайты с такими нарушениями будут ограничены в ранжировании, если их владельцы не слушайте наши рекомендации»
То есть, если публикацию еще не удалили из результатов поиска, возможно, это не его заслуга, просто нейросеть еще не прокатилась по его улице. Однако спастись легко: нужно лишь прислушаться к рекомендациям, чтобы поправиться. Подозреваю, что сама техподдержка могла не знать, что нейросети сайт не понравился. Она указала, что страница плохая и вопрос закрыт. Алгоритм умный, нет причин ему не доверять. Будущее наступило. Смиритесь.
Кстати, если меня читают сотрудники Яндекса: я готов вместе помочь решить проблему. Я был бы рад потратить время на то, чтобы понять, как отличить хороший региональный контент от плохого. Тем не менее, у меня есть большой опыт в этом вопросе. Ведь в целом алгоритм очень интересный, и проблема копирования кем-либо авторского контента действительно существует. Но, честно говоря, в нынешнем виде он нуждается в доработке.
Monstro — сервис для продвижения сайтов и сервисов https://t.me/monstrotraf