Сотни краулеров Google не задокументированы

Гэри Ийеш и Мартин Сплит из Google выпустили подкаст о Googlebot, в котором объяснили, что это не одна самостоятельная сущность, а сотни краулеров по разным продуктам и сервисам, большинство из которых не публикуются в открытой документации.

Что такое Googlebot
У инфраструктуры краулинга есть своё название
Сотни краулеров, о которых SEO-специалисты не знают
Разница между краулерами и фетчерами

Что такое Googlebot

Гэри уточнил, что название «Googlebot» — это историческое название, возникшее в ранние дни, когда у Google был всего один краулер. Сейчас это не так: Google управляет множеством краулеров для разных продуктов, но название «Googlebot» осталось, хотя по сути это больше не одна единая вещь.

Далее он пояснил, что Googlebot — это не сама инфраструктура краулинга или единая система. На самом деле, Googlebot — это клиент, взаимодействующий с более крупной внутренней системой краулинга, инфраструктурой.

Мартин Сплит спросил:

«Как мне представить Googlebot? Как примерно выглядит наша инфраструктура краулинга?»

Гэри ответил:

«Я имею в виду, название «Googlebot» — это ошибочное имя. Это то, что раньше, в начале 2000-х, было нормально, потому что тогда у нас, вероятно, был один краулер — потому что у нас был один продукт. Но вскоре появился другой продукт, я думаю, это был AdWords. И потом у нас начали появляться новые краулеры, появлялись новые продукты, и снова — новые краулеры, и так далее.

Но название «Googlebot», каким образом оно прижилось, — это, по сути, неправильное обозначение. Вообще, когда мы говорим о нашей инфраструктуре краулинга в целом, мы обычно называли её «Googlebot», но это было очень далеко от истины, потому что Googlebot — это всего лишь один элемент, который взаимодействует с нашей инфраструктурой краулинга».

У инфраструктуры краулинга есть своё название

Далее Гэри объяснил, что у инфраструктуры краулинга внутри Google есть внутреннее название, но он отказался сказать, какое именно.

Он продолжил:

«Googlebot — это не наша инфраструктура краулинга. У нашей инфраструктуры краулинга нет внешнего названия. У неё есть внутреннее название. Неважно, какое оно. Назовем его Джек (Jack). И я не знаю, как правильно это назвать, — это программа как услуга, если хотите. SaaS. Верно? И у Джека есть API-эндпойнты, так сказать. Тогда вы можете вызвать эти API, чтобы сделать запрос на получение данных из интернета.

Когда вы вызываете эти API, вам также нужно указать некоторые параметры, например, сколько времени вы готовы ждать ответа, какой User-Agent вы хотите отправить, токен robots.txt, который вы должны соблюдать, и все такие параметры.

И мы обычно задаём параметры по умолчанию для большинства этих вещей, не для всех, но для большинства, чтобы вам не приходилось указывать их все — это упрощает вызовы, я полагаю, потому что не нужно прописывать всё полностью. Но в целом это просто вызов API в облако или на случайный дата-центр. И они выполнят за вас запрос, как для разработчика или продукта.

Этот продукт, — так можно сказать, даже если он внутри компании, — существует давно, очень давно. … Но по сути, он всегда делал одно и то же: вы говорите ему «получить что-то из интернета» — не разрушая при этом сам интернет. И он это делает, если ограничения сайта позволяют это. Вот и всё. Если коротко — в одном предложении, это и есть оно».

Сотни краулеров, о которых SEO-специалисты не знают

Не все краулеры Googlebot задокументированы — есть множество таких, о которых SEO-специалисты не знают. Гэри сказал, что многие внутренние команды Google используют инфраструктуру краулинга для своих целей. Он упомянул, что потенциально существуют десятки или сотни внутренних краулеров, но только основные из них публикуются в официальной документации.

Маленькие или малонагруженные краулеры часто не документируются из-за практических ограничений, но если краулер становится достаточно крупным, его могут пересмотреть и задокументировать.

Продолжая тему о множестве клиентов (краулеров), Гэри добавил:

«…мы стараемся документировать большую часть из них, но Google — большая компания, и есть множество команд, которым нужно получать данные из интернета. Поэтому существует много краулеров, много именованных краулеров, что означает, что нам нужно было бы задокументировать десятки, если не сотни различных краулеров, специальных краулеров или способов получения данных».

Гэри объяснил, что задокументировать сотни краулеров — непросто.

«На простой HTML-странице это практически невозможно. Поэтому мы стараемся провести черту и сказать, что если краулер очень маленький — то есть он не получает много данных из интернета — то мы не будем его документировать, потому что пространство на сайте краулеров, developers.google.com, очень ценное.

Может быть, мы подойдём к этому вопросу иначе, но пока что документируются только основные краулеры и специальные краулеры или способы получения данных — потому что, честно говоря, просто не хватает места».

Разница между краулерами и фетчерами

Гэри рассказал, что существуют краулеры и фетчеры, которые попадают в категорию Googlebot, но на самом деле это разные вещи.

Гэри объяснил, в чём разница:

«Самое простое объяснение — краулеры работают пакетами, а фетчеры — по отдельному URL. То есть, ты даёшь фетчеру один URL, и он его скачивает. Нельзя дать ему список URL для скачивания.

А краулеры — это обычно постоянный поток URL, которые они обходят и собирают для вашей команды из интернета.

Внутри у нас тоже есть правило: фетчеры должны быть в какой-то степени управляемыми пользователем. В основном, на другой стороне есть человек, который ждёт ответ от фетчера, чтобы знать, что происходит.

С краулерами же как: выполняй это, если есть свободное время».

Мартин и Гэри отмечают, что внутри компании используют множество краулеров и фетчеров, о которых не публикуется документация.

Гэри объяснил, что у него есть инструмент, который вызывает оповещение, если какой-либо краулер или фетчер превышает определённый порог по количеству обходов или скачиваний за день. Тогда он связывается с командой, ответственной за этот краулер или фетчер, чтобы понять, что он делает и почему, а также проверить, не делается ли что-то случайно. Если это краулер, который активно собирает много URL, то он решает, стоит ли его задокументировать, чтобы экосистема веба могла узнать о его существовании.

Целиком подкаст про краулеры можно послушать тут (английский язык):

Monstro – сервис для продвижения сайтов и услуг

https://t.me/monstrotraf

Что такое Googlebot

У инфраструктуры краулинга есть своё название

Сотни краулеров, о которых SEO-специалисты не знают

Разница между краулерами и фетчерами

Leave a Comment Cancel Reply