Не индексировать страницу. Как запретить индексацию нужных страниц

Любая страница на сайте может быть открыта или закрыта для индексации поисковыми системами. Если страница открыта, поисковая система добавляет ее в свой индекс, если закрыта, то робот не заходит на нее и не учитывает в поисковой выдаче.

При создании сайта важно на программном уровне закрыть от индексации все страницы, которые по каким-либо причинам не должны видеть пользователи и поисковики.

К таким страницам можно отнести административную часть сайта (админку), страницы с различной служебной информацией (например, с личными данными зарегистрированных пользователей), страницы с многоуровневыми формами (например, сложные формы регистрации), формы обратной связи и т.д.

Пример:
Профиль пользователя на форуме о поисковых системах Searchengines.

Обязательным также является закрытие от индексации страниц, содержимое которых уже используется на других страницах.Такие страницы называются дублирующими. Полные или частичные дубли сильно пессимизируют сайт, поскольку увеличивают количество неуникального контента на сайте.

Как видим, контент на обеих страницах частично совпадает. Поэтому страницы категорий на WordPress-сайтах закрывают от индексации, либо выводят на них только название записей.

То же самое касается и страниц тэгов– такие страницы часто присутствуют в структуре блогов на WordPress. Облако тэгов облегчает навигацию по сайту и позволяет пользователям быстро находить интересующую информацию. Однако они являются частичными дублями других страниц, а значит – подлежат закрытию от индексации.

Еще один пример – магазин на CMS OpenCart.

Страница категории товаров http://www.masternet-instrument.ru/Lampy-energosberegajuschie-c-906_910_947.html .

Страница товаров, на которые распространяется скидка http://www.masternet-instrument.ru/specials.php .

Данные страницы имеют схожее содержание, так как на них размещено много одинаковых товаров.

Особенно критично к дублированию контента на различных страницах сайта относится Google. За большое количество дублей в Google можно заработать определенные санкции вплоть до временного исключения сайта из поисковой выдачи.

Еще один случай, когда содержимое страниц не стоит «показывать» поисковику – страницы с неуникальным контентом. Типичный пример — инструкции к медицинским препаратам в интернет-аптеке. Контент на странице с описанием препарата http://www.piluli.ru/product271593/product_info.html неуникален и опубликован на сотнях других сайтов.

Сделать его уникальным практически невозможно, поскольку переписывание столь специфических текстов – дело неблагодарное и запрещенное. Наилучшим решением в этом случае будет закрытие страницы от индексации, либо написание письма в поисковые системы с просьбой лояльно отнестись к неуникальности контента, который сделать уникальным невозможно по тем или иным причинам.

Как закрывать страницы от индексации

Классическим инструментом для закрытия страниц от индексации является файл robots.txt. Он находится в корневом каталоге вашего сайта и создается специально для того, чтобы показать поисковым роботам, какие страницы им посещать нельзя. Это обычный текстовый файл, который вы в любой момент можете отредактировать. Если файла robots.txt у вас нет или если он пуст, поисковики по умолчанию будут индексировать все страницы, которые найдут.

Структура файла robots.txt довольно проста. Он может состоять из одного или нескольких блоков (инструкций). Каждая инструкция, в свою очередь, состоит из двух строк. Первая строка называется User-agent и определяет, какой поисковик должен следовать этой инструкции. Если вы хотите запретить индексацию для всех поисковиков, первая строка должна выглядеть так:

Если вы хотите запретить индексацию страницы только для одной ПС, например, для Яндекса, первая строка выглядит так:

Вторая строчка инструкции называется Disallow (запретить). Для запрета всех страниц сайта напишите в этой строке следующее:

Чтобы разрешить индексацию всех страниц вторая строка должна иметь вид:

В строке Disallow вы можете указывать конкретные папки и файлы, которые нужно закрыть от индексации.

Например, для запрета индексации папки images и всего ее содержимого пишем:

Чтобы «спрятать» от поисковиков конкретные файлы, перечисляем их:

User-agent: *
Disallow: /myfile1.htm
Disallow: /myfile2.htm
Disallow: /myfile3.htm

Это – основные принципы структуры файла robots.txt. Они помогут вам закрыть от индексации отдельные страницы и папки на вашем сайте.

Еще один, менее распространенный способ запрета индексации – мета-тэг Robots. Если вы хотите закрыть от индексации страницу или запретить поисковикам индексировать ссылки, размещенные на ней, в ее HTML-коде необходимо прописать этот тэг. Его надо размещать в области HEAD, перед тэгом .</p> <p>Мета-тег Robots состоит из двух параметров. INDEX – параметр, отвечающий за индексацию самой страницы, а FOLLOW – параметр, разрешающий или запрещающий индексацию ссылок, расположенных на этой странице.</p> <p>Для запрета индексации вместо INDEX и FOLLOW следует писать NOINDEX и NOFOLLOW соответственно.</p> <p>Таким образом, если вы хотите закрыть страницу от индексации и запретить поисковикам учитывать ссылки на ней, вам надо добавить в код такую строку:</p> <blockquote><p><meta name=“robots” content=“noindex,nofollow”></p> </blockquote> <p>Если вы не хотите скрывать страницу от индексации, но вам необходимо «спрятать» ссылки на ней, мета-тег Robots будет выглядеть так:</p> <blockquote><p><metaname=“robots” content=“index,nofollow”></p> </blockquote> <p>Если же вам наоборот, надо скрыть страницу от ПС, но при этом учитывать ссылки, данный тэг будет иметь такой вид:</p> <blockquote><p><meta name=“robots” content=“noindex,follow”></p> </blockquote> <p>Большинство современных CMS дают возможность закрывать некоторые страницы от индексации прямо из админ.панели сайта. Это позволяет избежать необходимости разбираться в коде и настраивать данные параметры вручную. Однако перечисленные выше способы были и остаются универсальными и самыми надежными инструментами для запрета индексации.</p> <p>Недавно поделился со мной наблюдением, что у многих сайтов, которые приходят к нам на аудит, часто встречаются одни и те же ошибки. Причем эти ошибки не всегда можно назвать тривиальными – их допускают даже продвинутые веб-мастера. Так возникла идея написать серию статей с инструкциями по отслеживанию и исправлению подобных ошибок. Первый в очереди – гайд по настройке индексации сайта. Передаю слово автору. </p> <p>Для хорошей индексации сайта и лучшего ранжирования страниц нужно, чтобы поисковик обходил ключевые продвигаемые страницы сайта, а на самих страницах мог точно выделить основной контент, не запутавшись в обилие служебной и вспомогательной информации.<br> У сайтов, приходящих к нам на анализ, встречаются ошибки двух типов:</p> <p>1. При продвижении сайта их владельцы не задумываются о том, что видит и добавляет в индекс поисковый бот. В этом случае может возникнуть ситуация, когда в индексе больше мусорных страниц, чем продвигаемых, а сами страницы перегружены.</p> <p>2. Наоборот, владельцы чересчур рьяно взялись за чистку сайта. Вместе с ненужной информацией могут прятаться и важные для продвижения и оценки страниц данные.</p> <p>Сегодня мы хотим рассмотреть, что же действительно стоит прятать от поисковых роботов и как это лучше делать. Начнём с контента страниц.</p> <h2>Контент</h2> <h3>Проблемы, связанные с закрытием контента на сайте:</h3> <p>Страница оценивается поисковыми роботами комплексно, а не только по текстовым показателям. Увлекаясь закрытием различных блоков, часто удаляется и важная для оценки полезности и ранжирования информация.</p> <p><b>Приведём пример наиболее частых ошибок: </b><br> – прячется шапка сайта. В ней обычно размещается контактная информация, ссылки. Если шапка сайта закрыта, поисковики могут не узнать, что вы позаботились о посетителях и поместили важную информацию на видном месте;</p> <p>– скрываются от индексации фильтры, форма поиска, сортировка. Наличие таких возможностей у интернет-магазина – важный коммерческий показатель, который лучше показать, а не прятать.<br> – прячется информация об оплате и доставке. Это делают, чтобы повысить уникальность на товарных карточках. А ведь это тоже информация, которая должна быть на качественной товарной карточке.<br> – со страниц «вырезается» меню, ухудшая оценку удобства навигации по сайту.</p> <p><b>Зачем на сайте закрывают часть контента? </b><br> Обычно есть несколько целей:<br> – сделать на странице акцент на основной контент, убрав из индекса вспомогательную информацию, служебные блоки, меню;<br> – сделать страницу более уникальной, полезной, убрав дублирующиеся на сайте блоки;<br> – убрать «лишний» текст, повысить текстовую релевантность страницы.</p> <p><b>Всего этого можно достичь без того, чтобы прятать часть контента! </b><br><i>У вас очень большое меню? </i><br> Выводите на страницах только те пункты, которые непосредственно относятся к разделу.</p> <p><i>Много возможностей выбора в фильтрах? </i><br> Выводите в основном коде только популярные. Подгружайте остальные варианты, только если пользователь нажмёт кнопку «показать всё». Да, здесь используются скрипты, но никакого обмана нет – скрипт срабатывает по требованию пользователя. Найти все пункты поисковик сможет, но при оценке они не получат такое же значение, как основной контент страницы.</p> <p><i>На странице большой блок с новостями? </i><br> Сократите их количество, выводите только заголовки или просто уберите блок новостей, если пользователи редко переходят по ссылкам в нём или на странице мало основного контента.</p> <p>Поисковые роботы хоть и далеки от идеала, но постоянно совершенствуются. Уже сейчас Google показывает скрытие скриптов от индексирования как ошибку в панели Google Search Console (вкладка «Заблокированные ресурсы»). Не показывать часть контента роботам действительно может быть полезным, но это не метод оптимизации, а, скорее, временные «костыли», которые стоит использовать только при крайней необходимости.</p> <p><b>Мы рекомендуем: </b><br> – относиться к скрытию контента, как к «костылю», и прибегать к нему только в крайних ситуациях, стремясь доработать саму страницу;<br> – удаляя со страницы часть контента, ориентироваться не только на текстовые показатели, но и оценивать удобство и информацию, влияющую на ;<br> – перед тем как прятать контент, проводить эксперимент на нескольких тестовых страницах. Поисковые боты умеют разбирать страницы и ваши опасения о снижение релевантности могут оказаться напрасными.</p> <p><b>Давайте рассмотрим, какие методы используются, чтобы спрятать контент: </b></p> <h3>Тег noindex</h3> <p>У этого метода есть несколько недостатков. Прежде всего этот тег учитывает только Яндекс, поэтому для скрытия текста от Google он бесполезен. Помимо этого, важно понимать, что тег запрещает индексировать и показывать в поисковой выдаче только текст. На остальной контент, например, ссылки, он не распространяется.</p> <p>Поддержка Яндекса не особо распространяется о том, как работает noindex. Чуть больше информации есть в одном из обсуждений в официальном блоге.</p> <p><b>Вопрос пользователя: </b></p> <blockquote><p>«Не до конца понятна механика действия и влияние на ранжирование тега <noindex>текст</noindex>. Далее поясню, почему так озадачены. А сейчас - есть 2 гипотезы, хотелось бы найти истину.</p> <p>№1 Noindex не влияет на ранжирование / релевантность страницы вообще</p> <p>При этом предположении: единственное, что он делает - закрывает часть контента от появления в поисковой выдаче. При этом вся страница рассматривается целиком, включая закрытые блоки, релевантность и сопряженные параметры (уникальность; соответствие и т. п.) для нее вычисляется согласно всему имеющему в коде контенту, даже закрытому.</p> <p>№2 Noindex влияет на ранжирование и релевантность, так как закрытый в тег контент не оценивается вообще. Соответственно, все наоборот. Страница будет ранжироваться в соответствии с открытым для роботов контентом.»</p> </blockquote> <p><b>В каких случаях может быть полезен тег: </b><br> – если есть подозрения, что страница понижена в выдаче Яндекса из-за переоптимизации, но при этом занимает ТОПовые позиции по важным фразам в Google. Нужно понимать, что это быстрое и временное решение. Если весь сайт попал под «Баден-Баден», noindex, как неоднократно подтверждали представители Яндекса, не поможет;<br> – чтобы скрыть общую служебную информацию, которую вы из-за корпоративных ли юридических нормативов должны указывать на странице;<br> – для корректировки сниппетов в Яндексе, если в них попадает нежелательный контент.</p> <h3>Скрытие контента с помощью AJAX</h3> <p>Это универсальный метод. Он позволяет спрятать контент и от Яндекса, и от Google. Если хотите почистить страницу от размывающего релевантность контента, лучше использовать именно его. Представители ПС такой метод, конечно, не приветствую и рекомендуют, чтобы поисковые роботы видели тот же контент, что и пользователи.<br> Технология использования AJAX широко распространена и если не заниматься явным клоакингом, санкции за её использование не грозят. Недостаток метода – вам всё-таки придётся закрывать доступ к скриптам, хотя и Яндекс и Google этого не рекомендуют делать.</p> <h2>Страницы сайта</h2> <p>Для успешного продвижения важно не только избавиться от лишней информации на страницах, но и очистить поисковый индекс сайта от малополезных мусорных страниц.<br> Во-первых, это ускорит индексацию основных продвигаемых страниц сайта. Во-вторых, наличие в индексе большого числа мусорных страниц будет негативно влиять на оценку сайта и его продвижение.</p> <p><b>Сразу перечислим страницы, которые целесообразно прятать: </b></p> <p>– страницы оформления заявок, корзины пользователей;<br> – результаты поиска по сайту;<br> – личная информация пользователей;<br> – страницы результатов сравнения товаров и подобных вспомогательных модулей;<br> – страницы, генерируемые фильтрами поиска и сортировкой;<br> – страницы административной части сайта;<br> – версии для печати.</p> <p><b>Рассмотрим способы, которыми можно закрыть страницы от индексации. </b></p> <h3>Закрыть в robots.txt</h3> <p>Это не самый лучший метод.</p> <p>Во-первых, файл robots не предназначен для борьбы с дублями и чистки сайтов от мусорных страниц. Для этих целей лучше использовать другие методы.</p> <p>Во-вторых, запрет в файле robots не является гарантией того, что страница не попадёт в индекс.</p> <p>Вот что Google пишет об этом в своей справке:</p> <h3>Метатег noindex</h3> <p>Чтобы гарантированно исключить страницы из индекса, лучше использовать этот метатег.</p> <p>Ниже приведём вариант метатега, который понимают оба поисковика:</p><p> <meta name="robots" content="noindex, nofollow"> </p><p><b>Важный момент! </b></p> <p>Чтобы Googlebot увидел метатег noindex, нужно открыть доступ к страницам, закрытым в файле robots.txt. Если этого не сделать, робот может просто не зайти на эти страницы.</p> <h3>Заголовки X-Robots-Tag</h3> <p>Существенное преимущество такого метода в том, что запрет можно размещать не только в коде страницы, но и через корневой файл.htaccess.</p> <p>Этот метод не очень распространён в Рунете. Полагаем, основная причина такой ситуации в том, что Яндекс этот метод долгое время не поддерживал.<br> В этом году сотрудники Яндекса написали, что метод теперь поддерживается.</p> <p>Ответ поддержки подробным не назовёшь))). Прежде чем переходить на запрет индексации, используя X-Robots-Tag, лучше убедиться в работе этого способа под Яндекс. Свои эксперименты на эту тему мы пока не ставили, но, возможно, сделаем в ближайшее время.</p> <h3>Защита с помощью пароля</h3> <p>Если нужно скрыть весь сайт, например, тестовую версию, также рекомендуем использовать именно этот метод. Пожалуй, единственный недостаток – могут возникнуть сложности в случае необходимости просканировать домен, скрытый под паролем.</p> <h3>Исключить появление мусорных страниц c помощью AJAX</h3> <p>Речь о том, чтобы не просто запретить индексацию страниц, генерируемых фильтрами, сортировкой и т. д., а вообще не создавать подобные страницы на сайте.</p> <p>Например, если пользователь выбрал в фильтре поиска набор параметров, под которые вы не создавали отдельную страницу, изменения в товарах, отображаемых на странице, происходит без изменения самого URL.</p> <p>Сложность этого метода в том, что обычно его нельзя применить сразу для всех случаев. Часть формируемых страниц используется для продвижения.</p> <p>Например, страницы фильтров. Для «холодильник + Samsung + белый» нам нужна страница, а для «холодильник + Samsung + белый + двухкамерный + no frost» – уже нет.</p> <p>Поэтому нужно делать инструмент, предполагающий создание исключений. Это усложняет задачу программистов.</p> <h3>Использовать методы запрета индексации от поисковых алгоритмов</h3> <p><b>«Параметры URL» в Google Search Console </b></p> <p>Этот инструмент позволяет указать, как идентифицировать появление в URL страниц новых параметров.</p> <p><b>Директива Clean-param в robots.txt </b></p> <p>В Яндексе аналогичный запрет для параметров URL можно прописать, используя директиву Clean-param.<br> Почитать об этом можно .</p> <p>Канонические адреса, как профилактика появления мусорных страниц на сайте<br> Этот метатег был создан специально для борьбы с дублями и мусорными страницами на сайте. Мы рекомендуем прописывать его на всём сайте, как профилактику появления в индексе дубле и мусорных страниц.</p> <h3>Инструменты точечного удаления страниц из индекса Яндекса и Google</h3> <p>Если возникла ситуация, когда нужно срочно удалить информацию из индекса, не дожидаясь, пока ваш запрет увидят поисковые работы, можно использовать инструменты из панели Яндекс.Вебмастера и Google Search Console.</p> <p>В Яндексе это «Удалить URL»:</p> <p>В Google Search Console «Удалить URL-адрес»:</p> <h2>Внутренние ссылки</h2> <p>Внутренние ссылки закрываются от индексации для перераспределения внутренних весов на основные продвигаемые страницы. Но дело в том, что:<br> – такое перераспределение может плохо отразиться на общих связях между страницами;<br> – ссылки из шаблонных сквозных блоков обычно имеют меньший вес или могут вообще не учитываться.</p> <p>Рассмотрим варианты, которые используются для скрытия ссылок:</p> <h3>Тег noindex</h3> <p>Для скрытия ссылок этот тег бесполезен. Он распространяется только на текст.</p> <h3>Атрибут rel=”nofollow”</h3> <p>Сейчас атрибут не позволяет сохранять вес на странице. При использовании rel=”nofollow” вес просто теряется. Само по себе использование тега для внутренних ссылок выглядит не особо логично.</p> <h3>Скрытие ссылок с помощью скриптов</h3> <p>Это фактически единственный рабочий метод, с помощью которого можно спрятать ссылки от поисковых систем. Можно использовать Аjax и подгружать блоки ссылок уже после загрузки страницы или добавлять ссылки, подменяя скриптом тег <span> на <a>. При этом важно учитывать, что поисковые алгоритмы умеют распознавать скрипты.</p> <p>Как и в случае с контентом – это «костыль», который иногда может решить проблему. Если вы не уверены, что получите положительный эффект от спрятанного блока ссылок, лучше такие методы не использовать.</p> <h2>Заключение</h2> <p>Удаление со страницы объёмных сквозных блоков действительно может давать положительный эффект для ранжирования. Делать это лучше, сокращая страницу, и выводя на ней только нужный посетителям контент. Прятать контент от поисковика – костыль, который стоит использовать только в тех случаях, когда сократить другими способами сквозные блоки нельзя.</p> <p>Убирая со страницы часть контента, не забывайте, что для ранжирования важны не только текстовые критерии, но и полнота информации, коммерческие факторы.</p> <p>Примерно аналогичная ситуация и с внутренними ссылками. Да, иногда это может быть полезно, но искусственное перераспределение ссылочной массы на сайте – метод спорный. Гораздо безопаснее и надёжнее будет просто отказаться от ссылок, в которых вы не уверены.</p> <p>Со страницами сайта всё более однозначно. Важно следить за тем, чтобы мусорные, малополезные страницы не попадали в индекс. Для этого есть много методов, которые мы собрали и описали в этой статье.</p> <p>Вы всегда можете взять у нас консультацию по техническим аспектам оптимизации, или заказать продвижение под ключ, куда входит . </p> <p>Хотите узнать, как запретить индексацию сайта в robots.txt и с помощью других инструментов? Тогда представленный материал – именно для вас.</p> <p>Безусловно, владельцы сайтов борются за то, чтобы их ресурс как можно быстрее проиндексировался поисковыми системами. Но бывают случаи, когда необходимо установить запрет индексации сайта, чтобы поисковый бот на какое-то время не посещал ресурс . Такими случаями могут быть:</p> <ul><li>недавнее создание сайта, когда на нем еще нет никакой полезной информации;</li> <li>необходимость внесения обновлений (например, смена дизайна сайта);</li> <li>наличие скрытых или секретных разделов или полезных ссылок, которые не хотелось бы передавать поисковым ботам.</li> </ul><p><i><b>Можно закрыть весь сайт целиком или же его отдельные части: </b> </i></p> <ul><li>отдельный абзац или ссылка;</li> <li>формы для ввода информации;</li> <li>админская часть;</li> <li>страницы пользовательских профилей и регистраций;</li> <li>дубликаты страниц;</li> <li>облако тегов и пр.</li> </ul><blockquote><p>Есть много способов, с помощью которых можно закрыть сайт от индексации. Редактирование файла robots.txt – один из них. Мы рассмотрим этот способ и еще два наиболее популярных и простых.</p> </blockquote> <h3>Как закрыть сайт от индексации для Яндекса, Google и всех поисковых систем в robots.txt</h3> <p><i>Редактирование файла robots.txt – один из самых надежных и быстрых способов </i> установить этот запрет для поисковых системам на какое-то время или же навсегда. Что для этого нужно сделать:</p> <ol><li>Создание файла robots.txt. Для этого нужно создать обычный текстовый документ с расширением.txt, присвоить ему имя «robots».</li> <li>Созданный файл загрузить в корневую папку своего блога. Если сайт создан на движке WordPress, то эту папку можно найти там, где находятся папки wp-includes, wp-content и пр.</li> <li>Непосредственно установка запрета индексации для поисковиков.</li> </ol><p>Запрет индексации сайта можно устанавливать как для конкретных поисковых систем, так и всех поисковиков. Мы рассмотрим разные варианты. </p> <p><br><img src='https://i1.wp.com/masterproseo.ru/wp-content/uploads/2016/08/robots.jpg' align="center" width="100%" loading=lazy></p><p>Чтобы закрыть сайт от индексации поисковыми ботами Google, потребуется в файле robots.txt написать следующее:</p> <ol><li>User-agent: Googlebot</li> <li>Disallow: /</li> </ol><p><i>Для того, чтобы проверить, закрылся ли сайт от индексации, создается аккаунт и добавляется нужный сайт в Google Webmaster </i>. Здесь предусмотрена функция проверки.</p> <p>После этого будут показаны результаты. Если сайт запрещен для индексации, то будет написано «Заблокировано по строке» и указано, какая строка блокирует индексацию. Если же какие-то действия по запрету индексации поисковыми ботами Google были выполнены некорректно, то будет подписано «Разрешено».</p> <blockquote><p>Следует учесть, что невозможно с помощью robots.txt поисковой системе Google на 100% запретить индексацию. Это своего рода рекомендация для Гугла, так как он сам решит, выполнять ли ему индексацию отдельного документа, или нет.</p> </blockquote> <p><b>Чтобы закрыть материалы сайта от индексации Яндексом, в файле robots.txt нужно ввести следующее: </b></p> <ol><li>User-agent: Yandex</li> <li>Disallow: /</li> </ol><p>Для проверки статуса ресурса его нужно добавить в Яндекс Вебмастер, где затем нужно ввести несколько страниц со своего сайта и нажать кнопку «Проверить». Если все получилось, в строке будет высвечиваться надпись «Запрещен правилом».</p> <p><i>Можно также установить запрет на индексацию вашего сайта одновременно для всех поисковых систем. Для этого, опять же, открываем файл robots.txt и прописываем в нем такую строку </i>:</p> <ol><li>User-agent: *</li> <li>Disallow: /</li> </ol><blockquote><p>Проверка запрета индексации для Гугла и Яндекса выполняется по вышеописанной схеме в Google Webmaster и Яндекс Вебмастер соответственно.</p> </blockquote> <p>Чтобы увидеть свой файл robots.txt, нужно перейти по адресу Вашдомен.ru/robots.txt. Здесь будет отображаться все, что было прописано. Бывает так, что появляется ошибка 404. Это говорит о том, что было выполнено что-то не так при загрузке своего файла.</p> <p><br><img src='https://i0.wp.com/masterproseo.ru/wp-content/uploads/2016/08/robots-allow-disallow.jpg' align="center" width="100%" loading=lazy></p><h3>Запрет индексации ресурса при помощи панели инструментов</h3> <p>Способ закрытия сайта от индексации с помощью панели инструментов подойдет только для тех ресурсов, которые были сделаны на Вордпресс.</p> <p>Порядок действий простой и быстрый:</p> <ul><li>Откройте «Панель управления», пройдите в «Настройки» – «Чтение»;</li> <li>Выставьте галочку в окошке «Рекомендовать поисковым машинам не индексировать сайт».</li> <li>Сохранить изменения.</li> </ul><p><b>Выполнение данных действий – всего лишь рекомендация для поисковых машин </b>. А то, будут ли индексироваться или не индексироваться материалы ресурса, они решают самостоятельно. В настройках видимости сайта даже присутствует специальная строка: «Поисковые машины сами решают, следовать ли Вашей просьбе». Отметим, что Яндекс обычно «слушается», а Гугл может поступать по своему усмотрению и все равно в некоторых случаях индексировать сайт, несмотря на рекомендацию.</p> <h2>Закрытие сайта от индексации вручную</h2> <p>В исходном коде при закрытии страницы или всего ресурса от индексации появляется строка <meta name=»robots» content=»noindex,follow» /></p> <p>Именно эта строка подсказывает поисковым машинам, что не нужно индексировать отдельные материалы или ресурс. Можно вручную в любом месте сайта прописать данную строчку. Главное, чтобы она отображалась на всех страницах.</p> <p><i><b>Этот способ подойдет также для того, чтобы закрыть какой-либо ненужный документ от индексации. </b> </i></p> <p>После выполнения обновлений нужно проверить, все ли получилось. Для этого нужно открыть исходный код с помощью клавиш CTRL + U и посмотреть, есть ли в нем нужная строчка. Ее наличие подтверждает успешную операцию по закрытию от индексации. Дополнительно можно осуществить проверку в Яндекс Вебмастер и Google Webmaster.</p> <p>Итак, мы рассмотрели самые простые и быстрые способы, позволяющие закрыть весь сайт или отдельные материалы ресурса от индексации поисковыми машинами. И, как выяснилось, robots.txt – один из легких и относительно надежных способов.</p> <p>Одним из этапов оптимизации сайта для поисковиков является составление файла robots.txt. С помощью данного файла можно запрещать некоторым или всем поисковым роботам индексировать ваш сайт или его определенные части, не предназначенные для индексации. В частности можно запретить индескирование дублирующегося контента такого как версии страниц для печати.</p> <p>Поисковые роботы перед началом индексации всегда обращаются к файлу robots.txt в корневом каталоге вашего сайта, например, http://site.ru/robots.txt, чтобы знать какие разделы сайта роботу индексировать запрещено. Но даже если вы не собираетесь ничего запрещать, то данный файл все равно рекомендуется создать.</p> <p>Как видно по расширению robots.txt – это текстовый файл. Для создания или редактирования данного файла лучше использовать самые простые текстовые редакторы наподобие Блокнот (Notepad). robots.txt должен быть размещен в корневом каталоге сайта и имеет собственный формат, который мы рассмотрим ниже.</p> <h2>Формат файла robots.txt</h2> <p>Файл robots.txt должен состоять как минимум из двух обязательных записей. Первой идет директива User-agent указывающая, какой поисковый робот должен следовать идущим дальше инструкциям. Значением может быть имя робота (googlebot, Yandex, StackRambler) или символ * в случае если вы обращаетесь сразу ко всем роботам. Например:</p> User-agent: googlebot <br><p>Название робота вы можете найти на сайте соответствующего поисковика. Дальше должна идти одна или несколько директив Disallow. Эти директивы сообщают роботу, какие файлы и папки индексировать запрещено. Например, следующие строки запрещают роботам индексировать файл feedback.php и каталог cgi-bin:</p> <span>Disallow: /feedback.php Disallow: /cgi-bin/ </span> <br><p>Также можно использовать только начальные символы файлов или папок. Строка Disallow: /forum запрещает индексирование всех файлов и папок в корне сайта, имя которых начинается на forum, например, файл http://site.ru/forum.php и папку http://site.ru/forum/ со всем ее содержимым. Если Disallow будет пустым, то это значит, что робот может индексировать все страницы. Если значением Disallow будет символ /, то это значит что весь сайт индексировать запрещено.</p> <p>Для каждого поля User-agent должно присутствовать хотя бы одно поле Disallow. То-есть, если вы не собираетесь ничего запрещать для индексации, то файл robots.txt должен содержать следующие записи:</p> User-agent: * Disallow: <h2>Дополнительные директивы</h2> <p>Кроме регулярных выражений Яндекс и Google разрешают использование директивы Allow, которая является противоположностью Disallow, то-есть указывает какие страницы можно индексировать. В следующем примере Яндексу запрещено индексировать все, кроме адресов страниц начинающихся с /articles:</p> <span>User-agent: Yandex Allow: /articles Disallow: / </span> <br><p>В данном примере директиву Allow нужно прописывать перед Disallow, иначе Яндекс поймет это как полный запрет индексации сайта. Пустая директива Allow также полностью запрещает индексирование сайта:</p> User-agent: Yandex Allow: <br><p>равнозначно</p> <span>User-agent: Yandex Disallow: / </span> <br><p>Нестандартные директивы нужно указывать только для тех поисковиков, которые их поддерживают. В противном случае робот не понимающий данную запись может неправильно обработать ее или весь файл robots.txt. Более подробно о дополнительных директивах и вообще о понимании команд файла robots.txt отдельным роботом можно узнать на сайте соответствующей поисковой системы.</p> <h2>Регулярные выражения в robots.txt</h2> <p>Большинство поисковых систем учитывают только явно указанные имена файлов и папок, но есть и более продвинутые поисковики. Робот Google и робот Яндекса поддерживают использование простых регулярных выражений в robots.txt, что значительно уменьшает количество работы для вебмастеров. Например, следующие команды запрещают роботу Google индексировать все файлы с расширением.pdf:</p> <span>User-agent: googlebot Disallow: *.pdf$ </span> <br><p>В приведенном примере символ * – это любая последовательность символов, а $ указывает на окончание ссылки.</p> <span>User-agent: Yandex Allow: /articles/*.html$ Disallow: / </span> <br><p>Приведенные выше директивы разрешают Яндексу индексировать только находящиеся в папке /articles/ файлы с расширением ".html". Все остальное запрещено для индексации.</p> <h2>Карта сайта</h2> <p>В файле robots.txt можно указывать расположение XML-карты сайта:</p> <span>User-agent: googlebot Disallow: Sitemap: http://site.ru/sitemap.xml </span> <br><p>Если у вас очень большое количество страниц на сайте и вам пришлось разбить карту сайта на части, то в файле robots.txt нужно указывать все части карты:</p> <span>User-agent: Yandex Disallow: Sitemap: http://mysite.ru/my_sitemaps1.xml Sitemap: http://mysite.ru/my_sitemaps2.xml </span> <h2>Зеркала сайта</h2> <p>Как вы знаете обычно один и тот же сайт может быть доступен по двум адресам: как с www, так и без него. Для поискового робота site.ru и www.site.ru это разные сайты, но с одинаковым содержимым. Они называются зеркалами.</p> <p>Из-за того что на страницы сайта есть ссылки как с www так и без, то вес страниц может разделиться между www.site.ru и site.ru. Чтобы этого не происходило поисковику нужно указать главное зеркало сайта. В результате "склеивания" весь вес будет принадлежать одному главному зеркалу и сайт сможет занять более высокую позицию в поисковой выдаче.</p> <p>Указать основное зеркало для Яндекса можно прямо в файле robots.txt с помощью директивы Host:</p> <span>User-agent: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Host: www.site.ru </span> <br><p>После склейки зеркалу www.site.ru будет принадлежать весь вес и он будет занимать более высокую позицию в поисковой выдаче. А site.ru поисковик вообще не будет индексировать.</p> <p>Для остальных поисковиков выбором главного зеркала является серверный постоянный редирект (код 301) с дополнительных зеркал на основное. Делается это с помощью файла.htaccess и модуля mod_rewrite. Для этого ложим в корень сайта файл.htaccess и пишем туда следующее:</p> <span>RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %{HTTP_HOST} ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1 </span> <br><p>В результате все запросы с site.ru будут идти на www.site.ru, то-есть site.ru/page1.php будет перенаправляться на www.site.ru/page1.php.</p> <p>Метод с редиректом будет работать для всех поисковых систем и браузеров, но все же рекомендуется добавлять для Яндекса директиву Host в файл robots.txt.</p> <h2>Комментарии в robots.txt</h2> <p>В файл robots.txt также можно добавлять комментарии – они начинаются с символа # и заканчиваются переводом строки. Комментарии желательно писать в отдельной строке, а лучше вообще их не использовать.</p> <p>Пример использования комментариев:</p> <span>User-agent: StackRambler Disallow: /garbage/ # ничего полезного в этой папке нет Disallow: /doc.xhtml # и на этой странице тоже # и все комментарии в этом файле также бесполезны </span> <h2>Примеры файлов robots.txt</h2> <p>1. Разрешаем всем роботам индексировать все документы сайта:</p> User-agent: * Disallow: <br> User-agent: * Disallow: / <br><p>3. Запрещаем роботу поисковика Google индексировать файл feedback.php и содержимое каталога cgi-bin:</p> <span>User-agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php </span> <br><p>4. Разрешаем всем роботам индексировать весь сайт, а роботу поисковика Яндекс запрещаем индексировать файл feedback.php и содержимое каталога cgi-bin:</p> <span>User-agent: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Host: www.site.ru User-agent: * Disallow: </span> <br><p>5. Разрешаем всем роботам индексировать весь сайт, а роботу Яндекса разрешаем индексировать только предназначенную для него часть сайта:</p> <span>User-agent: Yandex Allow: /yandex Disallow: / Host: www.site.ru User-agent: * Disallow: </span> <br><p>Пустые строки разделяют ограничения для разных роботов. Каждый блок ограничений должен начинаться со строки с полем User-Agent, указывающей робота, к которому относятся данные правила индексации сайта.</p> <h2>Часто встречающиеся ошибки</h2> <p>Нужно обязательно учитывать, что пустая строка в файле robots.txt представляет собой разделитель двух записей для разных роботов. Также нельзя указывать несколько директив в одной строке. Запрещая индексацию файла веб-мастера часто пропускают / перед названием файла.</p> <p>Не нужно прописывать в robots.txt запрет на индексирование сайта для различных программ, которые предназначены для полного скачивания сайта, например, TeleportPro. Ни "программы-качалки", ни браузеры никогда не смотрят в этот файл и не выполняют прописанных там инструкций. Он предназначен исключительно для поисковых систем. Не стоит также блокировать в robots.txt админку вашего сайта, ведь если на нее нигде нет ссылки, то и индекироваться она не будет. Вы всего лишь раскроете расположение админки людям, которые не должны о ней знать. Также стоит помнить, что слишком большой robots.txt может быть проигнорирован поисковой системой. Если у вас слишком много страниц не предназначенных для индексации, то лучше их просто удалить с сайта или перенести в отдельную директорию и запретить индексирование данной директории.</p> <h2>Проверка файла robots.txt на наличие ошибок</h2> <p>Обязательно проверьте как понимает ваш файл robots поисковиковые системы. Для проверки Google вы можете воспользоваться Инструментами Google для веб-мастеров. Если вы хотите узнать как ваш файл robots.txt понимает Яндекс, то можете воспользоваться сервисом Яндекс.Вебмастер. Это позволит вовремя исправить допущенные ошибки. Также на страницах данных сервисов вы сможете найти рекомендации по составлению файла robots.txt и много другой полезной информации.</p> <p>Копирование статьи запрещено.</p> <p>В прошлой статье мы рассмотрели вопросы ускорения индексации сайта. Говорили о том, что это важная часть всех работ по продвижению. </p><p>Тем не менее, есть ситуации, когда нужно <b>закрыть от индексации </b> либо весь сайт, либо какую-то часть: разделы, страницы, ссылки и т.д.</p><p>Сегодня мы рассмотрим вопрос, <b>как запретить индексацию сайта в поисковых системах </b>. В каких случаях это требуется? Обычно запрет индексации ставится на различные служебные модули сайта. Которые не несут смысловой нагрузки, как для пользователей, так и для ПС.</p><p>Это администраторский раздел, формы регистрации и ввода информации, профили юзеров и т.д. Так же это может быть и секретный раздел на форуме, содержание которого мы не хотим показывать всем. Кроме того, надо закрыть дубли страниц от индексации, которые могут создавать различные движки сайтов.</p><p>Запрещать индексировать можно как всю страницу целиком, так и отдельную ее часть, например кусок текста или ссылку. Поэтому можно говорить как о глобальном запрете индексирования, так и о локальном. Теперь поговорим предметно, как это реализовать.</p><h2>Запрет индексации сайта в robots.txt</h2><p>При помощи файла robots.txt мы можем запретить индексацию отдельной страницы или целого раздела сайта.</p><p>Я уже писал подробную статью с множеством примеров про robots.txt . Там вы можете прочитать, что это за файл, как его создавать и настраивать. В контексте данной статьи я напомню, как запретить индексацию в robots.txt</p><p>User-agent: *<br> Disallow: /kolobok.html<br> Disallow: /foto/</p><p>Где, <b>* </b> — определяет, что инструкции предназначены для всех ПС;<br><b>Disallow: /kolobok.html </b> — запрещает индексировать файл kolobok.html;<br><b>Disallow: /foto/ </b> — дает запрет на индексацию всего содержимого папки foto.</p><p>Если вам надо запретить несколько папок и/или страниц, все их указываем в роботсе.</p><h2>Запрет индексации страницы в мета-теге robots</h2><p>Для запрета индексации отдельной страницы можно воспользоваться мета-тегом robots. Особенность его использования в отличие от robots.txt в том, что он дает указания сразу всем ПС. А в robots.txt можно настроить под отдельную поисковую систему. Этот мета тег подчиняется общим правилам формата html и должен находится в заголовке страницы между тегами</p>.<br> Пример записи для запрета:<p>Атрибут content может содержать такие условия:</p><ul><li><b>index </b> — разрешает индексацию этой страницы;</li><li><b>noindex </b> – запрещает индексацию страницы;</li><li><b>follow </b> – разрешает индексировать ссылки на этой странице;</li><li><b>nofollow </b> – запрещает индексацию ссылок на странице;</li><li><b>all </b> – включает в себя сразу index и follow (разрешает индексировать и страницу и ссылки);</li><li><b>none </b> – включает noindex и nofollow, т.е. запрещает индексацию</li> </ul><p>пример записи, которая разрешает все:</p><p>Или запрещает все и индексацию текста и ссылок:</p><p>Так же, можно указать для какой ПС предназначены ограничения в мета теге robots. Яндекс точно понимает такую запись:</p><h2>Запрет индексации ссылки: атрибут rel=»nofollow» тега </h2><p>Атрибут rel=»nofollow» учитывают все нужные нам поисковики: Яндекс и Google. В отличие от мета-тега «robots», который, запрещает индексировать сразу все ссылки, «rel» закрывать только одну ссылку.</p><p>Часто этот атрибут применяют, когда не желают терять по ссылкам ссылочный вес страницы.</p><h2>Запрет индексации тегом</h2><p>При помощи тега можно закрыть от индексации определенную часть страницы. Это может быть кусок текста или кода, что угодно. Часто вебмастера закрывают этим тегом счетчики статистики и скрипты на сайтах. Пример записи:</p><p>часть страницы, которую надо закрыть от индексации</p><p>Тег «noindex» может располагаться в любой части страницы и не чувствителен к вложенности. Что бы сделать его валидным, применяйте такую запись:</p><p>текст, индексирование которого нужно запретить</p><h2>Запрет индексации в htaccess</h2><p>Файл htaccess может заблокировать доступ к определенной части сайта, например к отдельной странице. Если вы хотите закрыть страницу от Яндекса то вам нужна такая запись.</p><p>RewriteEngine On<br> RewriteCond %{HTTP_USER_AGENT} yandex<br> RewriteRule ^тут_урл_страницы$ — [F]</p><p>Вот мы и разобрали все возможные способы и методы запрета индексации как целых разделов или страниц сайта, так и каких-то определенных частей. Кстати, посмотреть какие страницы вашего сайта закрыты от индексации можно в панеле вебмастера, как в Яндексе, так и в Google. Для этого нужно сайт добавить свой сайт в аккаунт, и при анализе страниц будет видно, какие из них закрыты.</p> <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy>");</script> </article> <div class='yarpp-related'> <div class="title">Похожие публикации</div> <ul class="related"> <li class="related__item"> <div class="related__item-img"> <img src="/uploads/5fb17e8a04e229b543ce3f876f16308e.jpg" width="150" height="95" alt="Пошаговый мануал как ввезти технику, на которую отсутствует нотификация фсб" / loading=lazy></div> <a href="/other/v-rossii-uprostili-vvoz-gadzhetov-bez-notifikacii-skoree-zakazyvaem-poshagovyi-manual-kak-vvezti-teh.html">Пошаговый мануал как ввезти технику, на которую отсутствует нотификация фсб</a></li> <li class="related__item"> <div class="related__item-img"> <img src="/uploads/e3894d2e796dc518b3ba1981c6598a80.jpg" width="150" height="95" alt="Бонусная программа МТС «20% возвращаются" / loading=lazy></div> <a href="/corps/20-vozvrashchayutsya-otzyvy-bonusnaya-programma-mts-20-vozvrashchayutsya.html">Бонусная программа МТС «20% возвращаются</a></li> <li class="related__item"> <div class="related__item-img"> <img src="/uploads/b0b2bc40ddf5070f27a9da53810a0e06.jpg" width="150" height="95" alt="Обзор программ для проектирования дома или дачи своими руками" / loading=lazy></div> <a href="/ram/programma-dlya-sozdaniya-zdanii-i-sooruzhenii-obzor-programm-dlya.html">Обзор программ для проектирования дома или дачи своими руками</a></li> <li class="related__item"> <div class="related__item-img"> <img src="/uploads/706eb8b76a9ed175dfdfba4479989a21.jpg" width="150" height="95" alt="Программы для самостоятельного проектирования дома на компьютере" / loading=lazy></div> <a href="/motherboards/top-10-programm-dlya-proektirovaniya-domov-programmy-dlya.html">Программы для самостоятельного проектирования дома на компьютере</a></li> </ul> </div> </main> <aside class="sidebar"> <div class="section section_widget lambda_1"></div> <div class="section section_widget widget_text"> <div class="textwidget"></div> </div> <div class="sidebar-menu"> <div class="title">Рубрики</div> <ul> <li id="menu-item-" class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-"><a href="/category/internet/">Интернет</a></li> <li id="menu-item-" class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-"><a href="/category/safety/">Безопасность</a></li> <li id="menu-item-" class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-"><a href="/category/windows-7/">Windows 7</a></li> <li id="menu-item-" class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-"><a href="/category/multimedia/">Мультимедиа</a></li> <li id="menu-item-" class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-"><a href="/category/power-supplies/">Блоки питания</a></li> <li id="menu-item-" class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-"><a href="/category/monitors/">Мониторы</a></li> <li id="menu-item-" class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-"><a href="/category/motherboards/">Материнские платы</a></li> </ul> </div> </aside> </div> </div> <footer class="footer"> <div class="mygrid footer-grid"> <div class="container-fluid"> <div class="row"> <div class="col-sm-5"> <div class="about-site"> <img src="/img/logo.png" loading=lazy><br> Мультимедиа, интернет, видеокарты, материнские платы. Windows </div> </div> <div class="col-sm-5"> <div class="flink-wrapper"> <div class="flink"> <a href="/feedback.html">Контакты</a></div> <div class="flink"> <a href="">Реклама и сотрудничество</a></div> <div class="flink"> <a href="">Политика конфидициальности</a></div> <div class="flink"> <a href="/sitemap.xml">Карта сайта</a></div> </div> </div> </div> <div class="row"> <div class="col-sm-12"> <div class="copyright">© 2024 </div> </div> </div> </div> </div> </footer> </div> </div> <script type='text/javascript'> var tocplus = { "smooth_scroll": "1" }; </script> </body> </html>