Как запретить google индексировать страницу
Перейти к содержимому

Как запретить google индексировать страницу

  • автор:

Как закрыть сайт от индексации

Про то, как закрыть от индексации отдельную страницу и для чего это нужно мы уже писали. Но могут возникнуть случаи, когда от индексации надо закрыть весь сайт или зеркало, что проблематичнее. Существует несколько способов. О них мы сегодня и расскажем.

Существует несколько способов закрыть сайт от индексации.

Запрет в файле robots.txt

Файл robots.txt отвечает за индексацию сайта поисковыми роботами. Найти его можно в корневой папке сайта. Если же его не существует, то его необходимо создать в любом текстовом редакторе и перенести в нужную директорию. В файле должны находиться всего лишь две строчки:

Остальные правила должны быть удалены.

Этот метод самый простой для скрытия сайта от индексации.

С помощью мета-тега robots

Прописав в шаблоне страниц сайта следующее правило или в теге , вы запретите его индексацию.

Как закрыть зеркало сайта от индексации

Зеркало — точная копия сайта, доступная по другому домену. Т.е. два разных домена настроены на одну и ту же папку с сайтом. Цели создания зеркал могут быть разные, но в любом случае мы получаем полную копию сайта, которую рекомендуется закрыть от индексации.

Сделать это стандартными способами невозможно, т.к. по адресам domen1.ru/robots.txt и domen2.ru/robots.txt открывается один и тот же файл robots.txt с одинаковым содержанием. В таком случае необходимо провести специальные настройки на сервере, которые позволят одному из доменов отдавать запрещающий robots.txt.

Блокировка индексирования при помощи директивы noindex

noindex – это правило, которое задается с помощью тега или заголовка HTTP-ответа и запрещает индексирование контента поисковыми системами, поддерживающими noindex , например Google. Обнаружив такой тег или заголовок во время сканирования страницы, робот Googlebot проигнорирует ее, даже если на нее ссылаются другие сайты.

Внимание! Чтобы правило noindex работало, файл robots.txt не должен блокировать поисковому роботу доступ к странице. В противном случае поисковый робот не сможет обработать ее код и не обнаружит правило noindex . В результате контент с такой страницы по-прежнему будет появляться в результатах поиска, например если на нее ссылаются другие ресурсы.

Директива noindex позволяет управлять доступом к отдельным страницам сайта. Это может быть полезно, если у вас нет доступа к корневому каталогу на сервере.

Как внедрять правило noindex

Внедрить правило noindex можно двумя способами: как тег или как заголовок HTTP-ответа. Они работают одинаково, поэтому выбор подходящего способа будет зависеть от вашего сайта и типа контента, расположенного на нем. Google не поддерживает указание правила noindex в файле robots.txt.

noindex можно объединять с другими правилами, которые управляют индексированием. Например, можно объединить атрибут nofollow и правило noindex : .

Тег

Чтобы ни одна поисковая система, поддерживающая правило noindex , не могла проиндексировать страницу вашего сайта, поместите следующий тег в раздел :

Если вы хотите закрыть доступ к странице только роботам Google, используйте следующий код:

Учитывайте, что некоторые поисковые системы могут по-другому интерпретировать правило noindex и показывать в результатах поиска страницу, на которой оно используется.

Если вы пользуетесь системой управления контентом (например, Wix, WordPress или Blogger), вероятно, у вас нет возможности редактировать код HTML напрямую или вы не хотите этим заниматься. В вашей системе управления контентом, скорее всего, имеется средство для создания метатегов ( meta ) или подобные инструменты.

Если вы хотите добавить тег meta на свой сайт, найдите в системе управления контентом инструкции о том, как изменять раздел на странице (пример запроса: «Wix метатеги» или «wix добавить тег meta «).

Заголовок HTTP-ответа

Вместо тега можно возвращать HTTP-заголовок X-Robots-Tag со значением noindex или none в ответе. Вы можете использовать этот способ для файлов, формат которых отличается от HTML, например PDF, видео и изображений. Ниже приведен пример HTTP-ответа с заголовком X-Robots-Tag , запрещающим поисковым системам индексировать страницу:

HTTP/1.1 200 OK (. ) X-Robots-Tag: noindex (. )

Устранение проблем с правилом noindex

Чтобы обнаружить теги и HTTP-заголовки, мы должны просканировать вашу страницу. Если страница продолжает появляться в результатах поиска, вероятно, мы ещё не обработали ее после добавления правила noindex . Робот Googlebot может повторно посетить страницу только спустя несколько месяцев. Воспользуйтесь инструментом проверки URL, чтобы запросить повторное сканирование страницы роботом Google.

Если вам нужно быстро убрать страницу сайта из результатов поиска Google, ознакомьтесь с документацией по удалению.

Другая возможная причина: файл robots.txt запрещает роботу Googlebot доступ к URL и не дает ему обнаружить метатег. Чтобы предоставить роботам Google доступ к вашей странице, вам необходимо изменить файл robots.txt.

Наконец, убедитесь, что правило noindex доступно роботу Googlebot. Проверьте, корректно ли внедрено правило noindex : воспользуйтесь инструментом проверки URL, чтобы увидеть HTML, который робот Googlebot получил при сканировании страницы. Вы можете также использовать отчет об индексировании страниц в Search Console, чтобы отслеживать страницы сайта, из которых робот Googlebot извлек правило noindex .

Отправить отзыв

Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons «С указанием авторства 4.0», а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.

Последнее обновление: 2023-12-06 UTC.

Как закрыть «лишние» страницы сайта от индексации в поисковиках: 3 способа и пошаговая инструкция

Термин «Индексация» означает действия поисковых роботов, в результате которых они «считывают» и сохраняют в базы Яндекса и Гугла содержимое сайта: картинки, видеоролики и другие вебматериалы.

Когда в индекс попадают только полезные материалы, в поисковой выдаче по нужным запросам будут выходить только релевантные веб-ресурсы. Частая ошибка при оптимизации сайта — не исключать страницы, которые не следует показывать в результатах поиска. В этой статье покажем, как скрывать их от индексации и рассмотрим все способы.

Почему нельзя индексировать весь сайт целиком

Во-первых, для Интернет-пользователей наличие в выдаче бесполезного контента затрудняет поиск нужной информации, как следствие — поисковики понижают сайты с «ненужными» страницами в выдаче.

Во-вторых, есть требование поисковиков к уникальности контента. Когда какая-либо информация дублируется на разных веб-страницах — для роботов она уже не уникальная, поэтому без настройки запрета не обойтись, если:

  • У вас версия сайта для мобайла на отдельном домене
  • Вы тестируете сайт на другом домене — поисковые роботы также могут принять одинаковые страницы за дубликаты.

В-третьих, у поисковиков есть ограничение по количеству веба для сканирования, для каждого ресурса — своя цифра, она называется краулинговый бюджет. Когда он уходит на редиректы, спам и прочую фигню, его может не хватить на действительно ценные материалы.

В-четвертых, когда вы кардинально меняете дизайн и структуру, лучше скрыть сайт, чтобы он за это время не потерял позиции в поиске из-за низких показателей юзабилити.

Что нужно закрывать от индексации

Закрыть от индексации рекомендуем следующие страницы.

Дубли

Это страницы сайта, единственное различие которых — URL-адреса. Когда несколько одинаковых или почти одинаковых веб-страниц попадают в индексирование, они конкурируют между собой, в результате чего сайт серьезно теряет позиции в выдаче.

Во всех случаях, когда контент открывается не по одному URL-адресу, а по нескольким, система считает его дублем и пессимизирует сайт, на котором находится такой контент.

Кроме того, это сильно влияет и на скорость обхода сайта программами, так как нужно просмотреть уже не одну страницу, а несколько, то есть краулинговый бюджет тратится не по назначению.

Документы для скачивания

Примеры: политика конфиденциальности, обучающие материалы, руководства.

Когда заголовки документов появляются в выдаче выше, чем веб-страницы с ответом на тот же запрос, это плохая идея. Человек может скачать документ и не пойти дальше изучать контент.

Веб в разработке

Они пока не решают задачи пользователей и не готовы к конкуренции — ни к чему показывать их поисковым роботам, иначе рейтинг сайта в поисковиках может упасть.

Технические страницы

К ним относится всё, что относится к служебным целям, но не информативно с точки зрения SEO для пользователей. Примеры:

  • Результаты поиска по сайту
  • Формы связи и регистрации
  • Личный кабинет
  • Корзина пользователя
  • Пагинация — с ней не всё однозначно, поэтому этот вид разберем отдельно

Как проверить, корректно ли работает запрет индексации

Прежде чем переходить к инструкции, важный момент: ни один способ не гарантирует на 100%, что поисковые роботы не будут игнорировать запрет. Поэтому всегда проверяйте результат в панели веб-мастеров Google Search Console и Яндекс.Вебмастер.

В первом инструменте при настройке запрета должен быть статус, как на скриншоте ниже:

Закрытие страниц сайта от индексации, проверка статуса в Google Search Console

В Вебмастере Яндекса зайдите в раздел «Индексирование» и проверьте статус любого URL.

Закрытие страниц сайта от индексации, проверка статуса в Яндекс.Вебмастере

Скрыть от сканирования можно как отдельные веб-страницы, фрагменты и разделы сайта, так и весь сайт целиком. Далее рассмотрим все способы по порядку и разберем, когда какой лучше применять.

Как закрыть страницы от индексации в robots.txt

Robots.txt — самый распространенный способ. Вы используете текстовый файл под этим именем, чтобы задать в нем веб-страницы, которые поисковые программы будут посещать в ходе индексации и исключить те, которые посещать не нужно. То есть для поисковиков файл robots служит ориентиром.

Шаг 1. Найдите или создайте robots.txt

Первое, что нужно найти — корневую папку сайта. Именно туда загружаются все каталоги и файлы сайта. Для этого зайдите в панель управления хостингом, там вы увидите нужный домен и в блоке «Корневая директория» — путь.

Когда файла в корневой папке нет, это значит, что для поисковиков нет ограничений по индексации, и в выдачу может попасть какая угодно страница с сайта. Чтобы этого не допустить, откройте на компьютере пустой документ в формате txt, сохраните под этим именем и залейте.

Путь до домена — тот же. В панели управления хостингом нажмите кнопки «Каталог» — «Закачать» и загрузите, который создали.

Шаг 2. Пропишите список роботов, для которых работает запрет

Первая строка в документе будет такой, если вы хотите запретить индексацию для всех без исключения:

Если, например, только Яндекс — такой:

Шаг 3. Примените директиву Disallow и укажите адрес

Через двоеточие напишите адрес. Выглядит это примерно так:

В этой схеме catalog означает раздел, page — адрес.

Чтобы запретить сканирование для всех поисковиков, кроме какого-то определенного, например, Гугла, задайте это в четырех строках подряд:

Директива Allow позволяет Гуглу индексировать сайт.

Чтобы запретить индексацию целого раздела, нужно прописать его название со слешами:

Чтобы поисковые роботы не посещали сайт целиком, в файле пропишите такие строки:

Мнение экспертов

Отчасти директивы Crawl-delay потеряли свою актуальность. Максим Ворошин, SEO-специалист MKlines, назвал случаи, когда условие в robots.txt может не сработать. Для Яндекса оно обязательное лишь отчасти: если на закрытый материал ведут несколько ссылок или идет трафик, есть вероятность, что он появится в индексе поисковика. Что касается системы Гугла — для появления закрытой страницы в поиске достаточно того, чтобы на неё вело много ссылок.

По опыту эксперта Алены Рыбиной, блогера SEOFY, Яндексу безразлично, как закрывать страницы от индекса — они в любом случае пропадут из базы. Ситуация, когда Гугл индексирует, несмотря на robots.txt, бывает не часто — как правило, поисковик придерживается инструкций индексации. Бывали и исключения, например, когда индексировались страницы плагинов и с динамическими параметрами, несмотря на то, что в настройке не было ошибок.

При этом, как отмечает Анастасия Шестова, руководитель направления поискового продвижения ИнтерЛабс, обычно количество таких страниц невелико и не является значимой проблемой.

Как закрыть страницы от индексации через метатег Robots

Если программы всё-таки индексируют веб из файла Robots.txt, есть альтернативный способ — директивы noindex и nofollow в метатеге Robots. Их нужно добавить в страницы.

Способ метатега помогает скрыть:

  • Конкретный кусок текста.

Как скрыть текст с помощью метатега Robots

  • Ссылку.

Как скрыть ссылку с помощью метатега Robots

  • Весь контент полностью.

Как скрыть сайт с помощью метатега Robots

Разница между первым и вторым вариантом — во втором вы запретите индексацию, но при этом также обрубите передачу статического веса страниц.

Как правило, метатег Robots — самый простой способ запретить индексацию. Он работает 100% для всех поисковых систем. Однако если проверка в Search Console и Вебмастере показывает, что запрет индексации не действует, скопируйте в файл .htaccess следующий кусок кода:

SetEnvIfNoCase User-Agent «^Googlebot» search_bot

SetEnvIfNoCase User-Agent «^Yandex» search_bot

SetEnvIfNoCase User-Agent «^Yahoo» search_bot

SetEnvIfNoCase User-Agent «^Aport» search_bot

SetEnvIfNoCase User-Agent «^BlogPulseLive» search_bot

SetEnvIfNoCase User-Agent «^msnbot» search_bot

SetEnvIfNoCase User-Agent «^Mail» search_bot

SetEnvIfNoCase User-Agent «^spider» search_bot

SetEnvIfNoCase User-Agent «^igdeSpyder» search_bot

SetEnvIfNoCase User-Agent «^Robot» search_bot

SetEnvIfNoCase User-Agent «^php» search_bot

SetEnvIfNoCase User-Agent «^Snapbot» search_bot

SetEnvIfNoCase User-Agent «^WordPress» search_bot

SetEnvIfNoCase User-Agent «^Parser» search_bot

SetEnvIfNoCase User-Agent «^bot» search_bot

Метатег Robots удаляет из индекса быстрее, чем robots.txt, так как последний способ системы используют как рекомендацию, а не жесткое правило.

Максим Ворошин, SEO-специалист MKlines

Как закрыть страницы от индексации через X-Robots-Tag

Этот способ запрещает индексацию контента определенного формата. Другое название — HTTP-заголовок на уровне сервера. Проще это реализовать через .htaccess, то есть с помощью таких строк в документе:

Как закрыть от индексации html-файлы

Это для html. А чтобы бот не не индексировал изображения на сайте, можно отключить форматы .png, .jpeg, .jpg, .gif:

Как закрыть от индексации изображения

По аналогии в директиве FilesMatch можно использовать любой формат.

О методе заголовков на уровне сервера Google рассказывал еще в 2007 году. По словам эксперта Максима Ворошина, этот метод работает в 100% случаев, но используется реже остальных.

Важное преимущество — в том, что метод можно использовать как для html-страниц, так и для любого типа содержимого, например, файлов .doc и .pdf.

Как закрыть страницы пагинации от индексации

Нет единого мнения, стоит ли скрывать их от сканирования.

Аргумент «против» — актуальный для интернет-магазинов: риск, что товары не на первой странице каталога будут выпадать из индекса из-за низкой ссылочной массы.

Аргумент «за» — возможность появления дублей title на сайте.

Что касается настройки запрета для пагинации, перечисленные в статье способы не помогут. Оптимальный вариант — канонический способ rel=»canonical» с указанием главной страницы категории. В этом случае поисковики обходят ссылки на страницах пагинации, но сами страницы не появляются в индексе.

Заключение

Если показывать в поиске все подряд материалы сайта, в том числе заведомо бесполезные для посетителей, сайт может серьезно «просесть» в выдаче по позициям. В том числе есть смысл ставить запрет на индексацию для всех страниц, которые пока не готовы к потоку пользователей.

Сделать это можно тремя способами:

  • Прописать в документе robots.txt
  • Применить директиву noindex
  • Использовать HTTP-заголовок на уровне сервера

В то же время ни один способ не дает гарантии, что закрытые страницы не попадут в базы поисковиков, поэтому стоит дополнительно проверить результат по URL-адресам в сервисах Яндекс.Вебмастер и Search Console.

Как закрыть сайт от индексации в robots.txt

Рассказываем, как закрыть сайт или отдельные его разделы и страницы от индексации, и какие ошибки допускают разработчики при записи файла robots.txt.

Последнее обновление: 19 апреля 2023 года
Время прочтения: 6 минут

О чем статья?

  • Зачем закрывать сайт от поисковых роботов?
  • Как проверить, закрыт сайт от индексации или нет? robots.txt
  • Как закрыть сайт от индексации?
  • Какие ошибки встречаются при записи файла robots.txt?

Кому будет полезна статья?

  • Веб-разработчикам.
  • Контент-редакторам.
  • Оптимизаторам.
  • Администраторам и владельцам сайтов.

Несмотря на то, что все ресурсы стремятся попасть в топ поисковой выдачи, в процессе работы возникают ситуации, когда требуется сделать прямо противоположное — закрыть сайт от поисковых роботов. В каких случаях может понадобиться запрет на индексацию, и как это сделать, мы расскажем в этой статье.

Зачем закрывать сайт от поисковых роботов?

Первое время после запуска проекта о нем знают только разработчики и те пользователи, которые получили ссылку на ресурс. В базы поисковых систем и, соответственно, в выдачу сайт попадает только после того, как его найдут и проанализируют краулеры (поисковые работы). С этого момента он становится доступным для пользователей Яндекс и Google.

Но всю ли информацию, содержащуюся на страницах ресурса, должны видеть пользователи? Конечно, нет. Им, прежде всего, интересны полезные материалы: статьи, информация о компании, товарах, услугах, развлекательный контент. Временные файлы, документация для ПО и другая служебная информация пользователям неинтересна, и поэтому не нужна. Если лишние страницы будут отображаться вместе с полезным контентом, это затруднит поиск действительно нужной информации и негативно отразится на позициях ресурса в поисковой выдаче. Вывод — служебную информацию следует закрывать от индексации.

Инфографика индексация сайта

В процессе работы сайта также возникают ситуации, когда требуется полностью закрыть ресурс от поисковиков. Например, во время технических работ, внесения существенных правок, изменения структуры и дизайна проекта. Если этого не сделать, сайт может быть проиндексирован с ошибками, что негативно отразится на его рейтинге и затруднит SEO-продвижение.

Мнение эксперта

Анастасия Курдюкова, руководитель группы оптимизаторов в компании «Ашманов и партнеры»:

Анастасия Курдюкова

«Чтобы сайт быстрее индексировался, рекомендуется закрывать от поисковых роботов мусорные страницы: устаревшие материалы, информацию о прошедших акциях и мероприятиях, а также всплывающие окна и баннеры. Это не только сократит время индексации, но уменьшит нагрузку на сервер, а поисковые роботы смогут проиндексировать более количество качественных страниц».

Как проверить, закрыт сайт от индексации или нет?

Если вы не уверены, индексируется ли сайт поисковыми роботами, какие разделы, страницы и файлы доступны для сканирования, а какие нет, можно проверить ресурс с помощью сервисов Яндекс.Вебмастер и Google Search Console. Как это сделать, мы рассказали в статье «Проверка файла robot.txt». Протестируйте ресурс в обоих сервисах, и они покажут, какие url проекта индексируются.

Инфографика индексация сайта

В качестве альтернативы можно использовать бесплатный инструмент «Определение возраста сайта» от «Пиксель Тулс». С помощью этого сервиса вы узнаете возраст домена, отдельных страницы, дату индексации и кэша. Данные проверки можно отправить в Яндекс.Вебмастер и выгрузить в формате CSV.

Как закрыть сайт от индексации?

Запретить доступ к сайту можно с помощью служебного файла robots.txt. Он находится в корневой папке. Если файла нет, создайте документ в Notepad++ или любом другом текстовом редакторе. Далее следуйте рекомендациям ниже.

Запрет индексации всего сайта

Управление доступом к ресурсу, его разделам и страницам осуществляется с помощью директив User-agent, Disallow и Allow. Директива User-agent указывает на робота, для которого действуют перечисленные ниже правила, Disallow — запрещает индексацию, Allow — разрешает индексацию.

Если вы хотите установить запрет для всех краулеров, в файле robots.txt следует указать:
User-agent: *
Disallow: /

Запрет для всех поисковых роботов, кроме краулеров Яндекса, будет выглядеть так:
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /

Запрет для всех поисковиков, кроме Google, так:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Вы также можете ограничить доступ для отдельных поисковых роботов, разрешив всем остальным краулерам сканировать без ограничений. Например, запрет для робота YandexImages, который индексирует изображения для показа на Яндекс.Картинках, будет выглядеть так:
User-agent: YandexImages
Disallow: /

Таким образом, с помощью всего трех директив вы можете управлять доступом к сайту для краулеров любых поисковых систем: запрещать или разрешать индексацию всем поисковикам, закрывать доступ одним и открывать другим роботам.

Запрет на индексацию разделов и страниц

Если вы не хотите закрывать от индексации весь сайт, а только некоторые его разделы или страницы, это можно сделать с помощью тех же директив. Для понимания приведем несколько примеров.

  1. Поисковым роботам доступны все разделы, кроме каталога:
    User-agent: *
    Disallow: /catalog
  2. Поисковым роботам доступны все страницы, кроме контактов:
    User-agent: *
    Disallow: /contact.html
  3. Поисковым роботам закрыт весь сайт, кроме одного раздела:
    User-agent: *
    Disallow: /
    Allow: /catalog
  4. Поисковым роботам закрыт весь раздел, кроме одного подраздела:
    User-agent: *
    Disallow: /product
    Allow: /product/auto

Несмотря на простоту управления, файл robots.txt позволяет выполнять достаточно гибкие настройки индексации для краулеров поисковых систем и изменять уровень доступа в зависимости от текущей ситуации.

Как скрыть от индексации ссылки?

Закрыть от краулеров можно не только сайт или его разделы, но и отдельные элементы, например, ссылки. Сделать это можно двумя способами:

  • в html-коде страницы указать мета тег robots с директивой nofollow;
  • вставить атрибут rel=”nofollow” в саму ссылку: текст ссылки.

Второй вариант предпочтительнее, так как атрибут rel=”nofollow” запрещает краулерам переходить по ссылке даже в том случае, если поисковая система находит ее через другие материалы вашего сайта или сторонних ресурсов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *