Итак, столкнулся с необходимость изменить файл robots.txt для своих сайтов. Решил выложить получившиеся файлы для трех cms – теми, которыми пользуюсь я.
Нам нужно добавиться максимально лучшей индексируемости сайтов. Для этого, нужно запретить лишние страницы к индексации, которые создают различные дубли страниц и прочую ерунду.
Robots.txt для WordPress
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: /trackback
Disallow: */feed
Disallow: /feed
Disallow: */comments
Disallow: /comments
Sitemap: http://адрес_сайта/sitemap.xmlUser-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: /trackback
Disallow: */feed
Disallow: /feed
Disallow: */comments
Disallow: /comments
Host: ваш_домен без http:// и www
Robots.txt для Joomla
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/*
Disallow: /component/search/
Disallow: /component/content/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: ваш_домен без http:// и www
Sitemap: http://адрес_сайта/sitemap.xml
Robots.txt для DLE
User-agent: *
Disallow: /*print
Disallow: /user/
Disallow: /backup/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /uploads/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcommentsDisallow: /statistics.html
Sitemap: http://www.Ваш_сайт.ру/sitemap.xmlUser-agent: Yandex
Disallow: /*print
Disallow: /user/
Disallow: /backup/
Disallow: /engine/
Disallow: /language/
Disallow: /templates/
Disallow: /upgrade/
Disallow: /uploads/
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /index.php?do=addnews
Disallow: /index.php?do=feedback
Disallow: /index.php?do=lostpassword
Disallow: /index.php?do=pm
Disallow: /index.php?do=register
Disallow: /index.php?do=stats
Disallow: /index.php?do=search
Disallow: /index.php?subaction=newposts
Disallow: /?do=lastcomments
Disallow: /statistics.htmlHost: www.ваш_сайт.ру
Sitemap: http://www.ваш_сайт.ру/sitemap.xml
Ну вот пожалуй и все! Если у вас есть какие-то дополнения или вопросы – пишите в комментариях, разберемся вместе!
P.S. Кстати, для того, чтобы нарастить PR для своего блога — будет не плохо найти список блогов с топом комментаторов, с помощью которого можно еще и тИЦ нарастить, а также привлечь немного трафика на свой ресурс.
Предлагаю посетить очень грамотный блог, с точки зрения юзабилити и контента, который к тому же имеет достаточно необычное название — Записки Пенсионера. Там же вы найдете много интересных и актуальных тем, посвященных как манимейкингу, так и сайтостроению!
Еще интересные записи:













Написал заметку (http:// timoshenko.livejournal.com/3055.html) на досуге в своем блоге о составлении правильного robots.txt для DataLife Engine. Изложил материал максимально понятно и коротко.
Не согласен что сего хватит для Joomla. В индексе гугла на некоторые ст раницы куча дубликатов лежит.
Например в индексе поисковиков можно найти:
сайт/contakts.html
сайт/index.php/2010-02-14-02-59-21.html итд, а ведь это одна и та же страница.
Но если у вас в админке выключена опция «Добавить суффикс к URL» тогда страниц с .html на сайте вообще не будет, а значит и в индексе их тоже не будет
Ну думаю беда не в .html. Если так то в индексе будет страница index.php/2010-02-14-02-59-21.html.
К чему веду: думаю нужно довабить в роботс такую фишку:
Disallow: /index.php*. Что думаете?
Думаю, можно и добавить)
Привет. http://newsglobus.in.ua перестал индексировать гоогл, помоги разобраться почему?? Как устранить проблему??
Привет! Так он же индексируется Google. В индексе 547 страниц
Я видел множество блогов, в которых в робот.тхт вообще ничего нету, у меня тоже мало что написано, думаю нужно более углубиться на счет всего этого)
спасибо за пост)
Я запуталась как писать host с www или без www?
Я читала, что поисковики воспринимают такие url как 2 разных сайта.
Если я добавила сайт в яндекс с www? значит, наверно, надо host писать тоже с www?
Все верно. Если яндексе ваш сайт индексируется с www, значит и в host вы будете писать с www.
Да, я тоже с этим роботом намучился. до сих пор не могу понять. Был хост без www, индексация была 66, что то мне в голову стукнуло что может быт лучше с www. И вот сегодня 06,06,2011г. индексация 1. пишет что якобы поменялось зеркало сайта, понятно я поменял заново без www. Так как же все таки лучше для моего сайта (http://www.dom-elit.kiev.ua/) с www или без www. Помогите!
Ну здесь уже вам решать. Если решите, что нужно без www — меняйте host в роботс и делайте 301 редирект с www на без www, чтобы ваш сайт открывался по одному адресу, а не по двум, как сейчас.
Для каких целей создается файл robots.txt? Для запрета индексации определенных страниц и вследствие этого ускорения индексации сайта? Просто я ни на одном сайте не делал данный файл, и сайты все равно хорошо индексируются.