Crawling (сканирование)
Crawling (сканирование) — это процесс, при котором поисковые роботы (краулеры) обходят веб-страницы в интернете, чтобы собирать данные и добавлять их в индекс поисковой системы.
Проще говоря, сканирование — это первый этап работы поисковика, когда он изучает сайт, чтобы понять, что на нём находится и как его показывать пользователям.
Что такое сканирование
Сканирование — это автоматическое посещение и анализ страниц сайта специальной программой — поисковым роботом (или ботом, crawler, spider). Робот переходит по ссылкам, считывает содержимое страниц (HTML-код, тексты, изображения, метатеги, ссылки) и передаёт эти данные в поисковый индекс.
Таким образом, без сканирования сайт не сможет появиться в поисковой выдаче, потому что поисковик просто не узнает о его существовании.
Как работает процесс сканирования
- Поиск новых URL.
Поисковик начинает с известных страниц (например, из предыдущих обходов, карт сайта или внешних ссылок). - Переход по ссылкам.
Робот следует по внутренним и внешним ссылкам, находя новые страницы. - Извлечение контента.
Бот загружает HTML-код, изображения, метатеги, заголовки, описания и другие элементы страницы. - Анализ структуры.
Проверяется связность сайта, навигация, дубли контента, скорость загрузки и наличие ошибок. - Передача данных в индекс.
После успешного сканирования информация отправляется в индекс — базу данных поисковика, из которой формируется поисковая выдача.
Пример
Когда поисковый робот Googlebot заходит на сайт интернет-магазина, он:
- находит главную страницу;
- переходит по ссылкам в разделы «Каталог», «О компании», «Контакты»;
- считывает названия товаров, описания, цены, мета-теги и заголовки;
- добавляет новые страницы в индекс Google, чтобы они могли показываться по запросам пользователей.
Виды сканирования
| Тип | Описание |
| Полное сканирование | Робот обходит весь сайт, включая все страницы и ссылки. |
| Выборочное (инкрементальное) | Проверяются только новые или обновлённые страницы. |
| Мобильное сканирование | Проверка мобильной версии сайта для адаптации под смартфоны. |
| API-сканирование | Используется для анализа данных через программные интерфейсы (например, sitemap.xml). |
Что влияет на качество сканирования
- Файл robots.txt.
Управляет доступом роботов к страницам — можно разрешать или запрещать сканирование отдельных разделов. - Карта сайта (sitemap.xml).
Помогает поисковикам быстрее находить нужные страницы и понимать структуру сайта. - Время ответа сервера.
Если сайт долго загружается, робот может прервать сканирование. - Внутренняя перелинковка.
Чем лучше связаны страницы между собой, тем легче роботу обойти весь сайт. - Ошибки 404 и редиректы.
Избыточные редиректы и битые ссылки мешают сканированию. - Дубли контента.
Повторяющиеся страницы тратят «crawl budget» — лимит обращений робота к сайту.
Что такое Crawl Budget (бюджет сканирования)
Crawl Budget — это количество страниц сайта, которое поисковый робот готов просканировать за определённый период.
Бюджет зависит от:
- авторитетности сайта,
- стабильности сервера,
- частоты обновлений контента,
- внутренних ошибок и редиректов.
Если сайт большой и медленный, часть страниц может не попасть в индекс, потому что робот не успеет их обойти.
Инструменты для анализа сканирования
- Google Search Console → Отчёт «Статус сканирования»
- Яндекс Вебмастер → «Статистика обхода»
- Screaming Frog SEO Spider — десктопная программа для анализа структуры и статуса страниц.
- Sitebulb, Netpeak Spider, Ahrefs Site Audit — профессиональные инструменты для SEO-аудита.
Как улучшить сканирование сайта
- Настройте robots.txt — разрешите индексировать важные разделы, закройте технические.
- Добавьте sitemap.xml и обновляйте его при изменении структуры сайта.
- Используйте внутренние ссылки между важными страницами.
- Оптимизируйте скорость загрузки страниц.
- Избавьтесь от дублей и неработающих ссылок.
- Обновляйте контент регулярно — поисковики чаще обходят сайты с новыми материалами.
Пример проблемы
Если в файле robots.txt случайно указать:
Disallow: /
то робот не сможет сканировать ни одну страницу сайта — и ресурс исчезнет из поиска.
Поэтому настройку этого файла нужно проводить с особой внимательностью.
Итог
Crawling (сканирование) — это фундаментальный процесс поисковой оптимизации:
именно на этом этапе поисковая система узнаёт о существовании сайта, его структуре и контенте.
Без корректного сканирования невозможно попасть в индекс и занять позиции в выдаче. Поэтому SEO-специалисты всегда следят за тем, чтобы сайт был доступен роботам, быстро загружался и не содержал технических ошибок.

