Главная » Бизнес в Интернете

Как создать ROBOTS.TXT для блога WordPress

файл robots.txt для поисковых роботовЧто такое файл robots.txt? Это текстовый файл, который Вы размещаете в корневой папке Вашего блога WordPress.

Файл robots.txt должен быть правильно сделан, потому что неправильный файл robots.txt может нанести больше вреда, чем пользы. Когда Вы будете прописывать свой файл, убедитесь, что в нем в конце строк нет символов пробелов. Особенно важно, чтобы символа пробела не было в пустых строчках, если этот символ случайно туда попадет, блог может перестать индексироваться, и выпасть из поиска, частично или полностью.

Бывают разные исполнения файла robots.txt. Я пользуюсь этим:

User-agent: *
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*

User-agent: Yandex
Crawl-delay: 4
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: pro444.ru

Sitemap: http://pro444.ru/sitemap.xml.gz
Sitemap: http://pro444.ru/sitemap.xml

Вы можете воспользоваться моей версией файла robots.txt, скачать его в готовом виде можно по следующей ссылке:

Только не забудьте в своем файле прописать свой адрес блога, в строчке Host, и ссылки на карту сайта и архив карты сайта.

Для чего Вам нужен файл robots.txt?

Этот файл Вы добавляете в корневую папку своего блогаWordPress для более правильной индексации блога поисковыми системами. При этом можно воспользоваться, к примеру, FTP доступом программы Total Commander.

запрет индексации с помощью файла robots.txtКогда поисковый робот приходит на Ваш блог WordPress, он начинает смотреть везде, где только можно. Но Вам это совсем не нужно. Вам нужно, чтобы поисковый робот смотрел Ваши страницы и статьи. Ему абсолютно не нужно давать на просмотр различные вспомогательные страницы: административную панель, ленты RSS и многое другое. С помощью файла robots.txt мы указываем поисковому роботу, что можно смотреть, а что нельзя.

Кроме того, одна статья может быть доступна по нескольким ссылкам. Она может быть доступна по ссылке с ленты статей, из боковой панели, из списка самых популярных статей, из перечня самых посещаемых статей, и так далее.

Поисковый робот начинает путаться, и может выбрать совсем не то, что нужно. Поисковая система Гугл в этом плане практически никогда не ошибается, а вот поисковая система Яндекс может ошибаться, и потому именно для Яндекса правила работы в файле robots.txt прописываются отдельно.

файл robots.txt для блога WordPress

Кроме того, файл robots.txt помогает определить поисковикам, где главный сайт, а где так называемые "зеркала".

Если индексироваться будут оба адреса, поисковик может подумать, что содержание сайта дублируется, а это чревато попаданием сайта под фильтр, то есть исключением его из поисковой выдачи.

Например, почти у каждого сайта есть зеркало, которое доступно по адресу: www.ваш сайт.

К примеру, мой сайт на pro444.ru доступен также по адресу www.pro444.ru

Второй адрес является «зеркалом» основного адреса.


Файл robots.txt дает понять поисковикам, что основной адрес моего блога WordPress все-таки именно pro444.ru а не какой-то еще. И именно основной адрес будет индексироваться, а не вспомогательный.

Содержание файла robots.txt

Если Вы посмотрите на содержание файла robots.txt, то увидите среди строк строчку Crawl-delay: 4

Эта строка означает задержку между обработкой поисковыми роботами страниц, в секундах, чтобы снизить нагрузку на сервер. Ведь если загрузка будет выше критической, сайт может вообще выпасть из показов, и вместо сайта посетителям будет показываться страница, что сайт временно недоступен.

Строка User-agent: * означает, что правила, расположенные ниже, относятся ко всем поисковым роботам. Для поисковой системы Яндекс правила прописываются отдельно, под строкой User-agent: Yandex

Disallow означает запрет индексации, а Allow — разрешение индексации.

Запрет индексации для всего сайта выглядит следующим образом:

Disallow: / Если Вы хотите разрешить индексацию всего сайта, то после Disallow ничего не указываете, пишете вот так:

Disallow: Запрет индексации определенных страниц прописывается по таким же принципам, например,

Disallow: /wp-admin означает, что запрещается индексировать все, что находится по адресу wp-adminправила индексации в файле robots.txtНиже правил индексации находится строка Host, которая сообщает поисковому роботу, какой адрес считать главным. Соответственно, другие адреса будут считаться «зеркальными», и индексироваться не будут.

Строчки sitemap указывают адреса Ваших карт sitemap. Естественно, они у Вас должны при этом уже быть, и лежать на хостинге, в корневой папке блога WordPress.

Внимание!!! Если ссылки Ваших статей и страниц не вида ЧПУ, а прописываются через ?, то указание строчки

Disallow: /*?* будет очень большой ошибкой с Вашей стороны — из индексации могут выпасть все страницы Вашего блога — ведь эта строчка запрещает индексацию адресов, которые содержать вопросительный знак.

Видео о файле robots.txt и о том, как разместить его в корневую папку блога WordPress


Более подробные сведения Вы можете получить в разделах "Все курсы" и "Полезности", в которые можно перейти через верхнее меню сайта. В этих разделах статьи сгруппированы по тематикам в блоки, содержащие максимально развернутую (насколько это было возможно) информацию по различным темам.

Также Вы можете подписаться на блог, и узнавать о всех новых статьях.
Это не займет много времени. Просто нажмите на ссылку ниже:
    Подписаться на блог: Дорога к Бизнесу за Компьютером

Вам понравилась статья? Поделитесь, буду весьма признателен:


Также приглашаю добавиться в друзья в социальных сетях:

<< Предыдущая статья Следующая статья >>
Проголосуйте и поделитесь с друзьями анонсом статьи на Facebook:  

20 комментариев »

  • Олег пишет:

    Правильное напоминание про ЧПУ. Много раз сталкивался с такой проблемой на сайтах, когда в индексе Яндекса только главная страница (Гугл то он и так проиндексирует). Обычно, давая robots.txt для скачивания этот момент многие упускают из вида.

  • Людмила пишет:

    Очень полезная статья, спасибо за подробное описание темы. Об этом надо знать каждому блоггеру. Я пока не вникла в эти вопросы, имела проблемы на одном из своих блогов.

  • Анна пишет:

    Добрый день, Александр!Огромное спасибо за видео по установке файла robots.txt Всё как бы уже разжевали, только положи..., но у меня своя проблема: я не могу найти в корневой папке папку publica.html!!! У меня есть четыре папки:

    uspehavsem.ru

    wp-admin

    wp-content

    wp-includes

    Подскажите для «особо одарённых», что мне нужно сделать? Заранее вам благодарна.

  • Юрий пишет:

    Александр,

    огромное спасибо за нужный материал. Читаю все ваши рекомендации.

  • Марина Гай пишет:

    Очень нужная статья, Александр! У Вас прямо не сайт, а библиотека для моего личного пользования;) есть ответы на все мои вопросы. Благодарю

  • Юрий пишет:

    Файл очень важный, можно сказать ключевой. Информация подробная и полезная, спасибо.

  • Светлана пишет:

    Основополагающая статья для правильной работы блога.

    У нас на треннинге robots.txt тщательно проверяли. У меня он сразу был правильно установлен и я о нем больше не думаю. А может быть его периодически надо проверять?

  • Нина Васильева пишет:

    Век живи, век учись! Очень тонкое дело «блоговодство».

    Спасибо Александр, взяла ваш вариант, в котором учтены даже 4 секунды задержки.

  • Александр Ризун (автор) пишет:

    Анна, я ничего не писал про папку publica.html... Если у Вас хостинг не Джино, а TimeWeb, папка public.html там должна располагаться в папке Вашего домена. Если все-таки Джино, то такая папка не нужна.

  • Вера Черных. Санкт-Петербург пишет:

    Здравствуйте, Александр! Сегодня я передаю Вам заслуженную награду лучшим блоггерам — «Кубок Признания»! Получить ее Вы можете, пройдя по ссылке у меня на сайте «Бизнесвумен по-русски» infosekret.ru/?p=469.

    Желаю успехов Вам в развитии и продвижении Вашего блога!

  • Александр Ризун (автор) пишет:

    Спасибо, Вера! У Вас очень интересный ресурс, много материала. Успеха в его продвижении!

  • Александр пишет:

    Именно!. Тема сверхважная и тут надо быть внимательным. Сам когда делал эту операцию инструкцию держал перед собой.

    Отменный материал.

  • Лариса пишет:

    Александр, вот меня давно тревожит мой робот. Консультировалась с разными специалистами, говорят, все в порядке. Но в первой строчке у него затесались какие-то лишние символы, хотя образец мне дали в школе «Стартап»:

    п»їUser-agent: *

    Disallow: /wp-login.php

    Что это за бяка?)

    Теперь еще выяснилось, что есть Disallow: /*?*. Но вроде пока не выпадают страницы.

  • Александр Ризун (автор) пишет:

    Лариса, у Вас ссылки на статьи без вопросительного знака — страницы не выпадут. Вторая строчка — это нормально: админка не должна попадать в поиск. А первая — уберите ее, это же текстовый файл, Вы его сами можете редактировать.

  • Виктория пишет:

    Спасибо Александр — вы так все подробно расписали о файле robots.txt. У меня он стоит, но я до конца и не понимала для чего он нужен, и что за команды в нем находятся. Действительно — очень важный файл для любого блога и сайта!

  • Вера Черных. Санкт-Петербург пишет:

    Александр, скажи, пожалуйста, почему в robots.txt прописываются правила только для Яндекса? А гугл, mail и пр. и так поймут? :-)

  • Александр Ризун (автор) пишет:

    Вера, все правильно, все остальные и так поймут. Яндексу нужно прописывать отдельно. :)

  • Ricky пишет:

    Приветствую. У меня такая проблема: В корневой папке на хостинге Джино файл роботс совсем отсутствует, тем не менее когда пропускаю через яндекс вебмастер — он мне его показывает. Загружаю в корневую новый (мой составленный роботс) ничего не меняется — подскажите что делать. Как его изменить.

    Заранее спасибо.

  • Александр Ризун (автор) пишет:

    Добрый день, Ricky! Попробуйте два варианта: загрузить с вебмастера новый роботс, и составленный вручную. Думаю, что какой-то из этих вариантов сработает.

  • Ricky пишет:

    Александр, спасибо за помощь! Всё оказалось проще чем я думал — у меня хостинг сам к txt файлам в названии «txt» прикрепляет... Вот поэтому он мой роботс и не воспринимал) т.е получалось «robots.txt.txt» а он ещё обрезал, так что в корневой папке прописывалось «robots.txt» просто — без второго повторения)))) Теперь всё работает — проверил через вебмастера)))

Оставьте свой комментарий и ответный визит Вам обеспечен