Куда идем?

ROBOTS.TXT

Больше
13 года 6 мес. назад #895 от genesis33
genesis33 создал тему: ROBOTS.TXT
Ребята подскажите, можно ли в robots.txt указывать несколько sitemap?
Выкладываю свой robots для ознакомления, может что неправильно сделано или добавить посоветуете?
Кстати еще хотел спросить правда ли что неправильно закрывать для индексирования папку /images как в джумле идет по умолчанию.

User-agent: *
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Disallow: /administrator/
Disallow: /cache/
Disallow: /catalog/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /livezilla/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*Pechat.html
Sitemap: сайт.ру/index.php?option=com_xmap&sitemap=1&view=xml
Host: сайт.ру

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /catalog/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /livezilla/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*Pechat.html
Sitemap: сайт.ру/sitemap-xml-2.html?sitemap=1
Host: сайт.ру

User-agent: msnbot
Disallow: /

Пожалуйста Войти или Зарегистрируйтесь, чтобы присоединиться к беседе.

Больше
13 года 6 мес. назад #896 от VARion
VARion ответил в теме Re: ROBOTS.TXT
Если папка images содержит файлы, которые нужно индексировать, то отключать не правильно, другое дело что можно включить только отдельные подпапки, например "photo" так:
Code:
Disallow: /images/ Allow: /images/photo/
А для чего следующая инструкция?
Code:
Allow: /index.php?option=com_xmap&sitemap=1&view=xml
Ведь уже есть это:
Code:
Sitemap: http://сайт.ру/index.php?option=com_xmap&sitemap=1&view=xml
По поводу нескольких карт, может и можно для разных ботов указывать, только не понятен смысл этого...
Читал что для Yandex нужно отдельные инструкции, мол он по-нормальному не понимает, так ли это? Проверял ли кто на практике, что стандартные инструкции "для всех" он не понимает?
И ещё зачем запретили индексировать msnbot?

Пожалуйста Войти или Зарегистрируйтесь, чтобы присоединиться к беседе.

Больше
13 года 6 мес. назад #897 от genesis33
genesis33 ответил в теме Re: ROBOTS.TXT

Allow: /index.php?option=com_xmap&sitemap=1&view=xml

Собственно просто где-то посмотрел чей-то роботс под джумлу с такой инструкцией

По поводу нескольких карт. У меня в Xmap несколько карт для разных разделов, вот и хочу спросить можно ли их в роботс указывать сразу несколько для одного бота?

И ещё зачем запретили индексировать msnbot?

Трафа с него нет, да и никогда не будет в рунете, пущай не грузит :)

Пожалуйста Войти или Зарегистрируйтесь, чтобы присоединиться к беседе.

Больше
13 года 6 мес. назад - 13 года 6 мес. назад #900 от bionetinfo
bionetinfo ответил в теме Re: ROBOTS.TXT
В robots.txt можно указывать несколько карт сайта, только чтобы не повторялись. Положительно на индексацию влияет размещение двух полных карт - одна .xml, вторая .txt. Замечал, к примеру, одни поисковики ругаются на .xml а .txt отлично индексируют, другие - наоборот. Еще не лишнее показать эти карты вручную в Гугл- и Яндекс-аккаунтах.

..правда ли что неправильно закрывать для индексирования папку /images...

- на ваше усмотрение.

По поводу Вашего robots.txt, я бы сделал так:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /catalog/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /livezilla/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /*rss.html
Disallow: /*atom.html
Disallow: /*Pechat.html
Sitemap: сайт.ру/index.php?option=com_xmap&sitemap=1&view=xml
Host: сайт.ру

User-agent: msnbot
Disallow: /


Второй блок писать не обязательно, т.к. в нем нет инструкций, отличных от первого, а Яндекс понимает директиву User-agent: *
Инструкция Host: сайт.ру предназначена только для бота Яндекса (может еще для кого из малоизвестных).
Последнее редактирование: 13 года 6 мес. назад пользователем bionetinfo.
Спасибо сказали: VARion

Пожалуйста Войти или Зарегистрируйтесь, чтобы присоединиться к беседе.

Больше
13 года 6 мес. назад #904 от genesis33
genesis33 ответил в теме Re: ROBOTS.TXT
Отличия есть! Для гугла и яндекса в директивах разные урлы карт, так как яндекс не хочет его просто принимать как гугл, это из-за sh404sef

Пожалуйста Войти или Зарегистрируйтесь, чтобы присоединиться к беседе.

Больше
13 года 6 мес. назад - 13 года 6 мес. назад #921 от bionetinfo
bionetinfo ответил в теме Re: ROBOTS.TXT

genesis33 пишет: Отличия есть! Для гугла и яндекса в директивах разные урлы карт, так как яндекс не хочет его просто принимать как гугл, это из-за sh404sef

Яндекс отлично понимает общую директиву User-agent: *, т.е. туда можно писать правила, касающиеся только Яндекса и не противоречащие общим. Использовать User-agent: Yandex есть смысл при наличии для Яндекса правил, отличных от общих, как вы сделали, например для MSN. Я веду к тому, чтобы не было дублирования правил.

P.S. Все описаное мною выше проверено на собственном опыте.
Последнее редактирование: 13 года 6 мес. назад пользователем bionetinfo.

Пожалуйста Войти или Зарегистрируйтесь, чтобы присоединиться к беседе.

Больше
13 года 6 мес. назад #924 от genesis33
genesis33 ответил в теме Re: ROBOTS.TXT
Проверил роботс в яндекс.вебмастере, карту он читает из общих директив только, так что действительно нет смысла писать дополнительные инструкции, именно для яндекса, в моем случае.

Пожалуйста Войти или Зарегистрируйтесь, чтобы присоединиться к беседе.

Больше
13 года 1 мес. назад - 13 года 1 мес. назад #1971 от antoxxxa
antoxxxa ответил в теме Re: ROBOTS.TXT
Здравствуйте уважаемые знатоки! при индексировании сайта Яндекс пишет Ваш сайт не был проиндексирован из-за запрета в файле robots.txt.
Внимание! Главная страница сайта исключена из индекса: Документ запрещен в файле robots.txt
выкладываю сам robots.txt:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: сайт.ru
Sitemap: сайт.ru/index.php?option=com_xmap&sitemap=1&view=xml


Используемые секции
Строка
1-16
User-agent: *
Disallow: /administrator/
...
Sitemap: сайт.ru/index.php?option=com_xmap&sitemap=1&view=xml

может кто подскажет в чем может быть проблема...
Последнее редактирование: 13 года 1 мес. назад пользователем antoxxxa.

Пожалуйста Войти или Зарегистрируйтесь, чтобы присоединиться к беседе.

Больше
13 года 1 мес. назад #1980 от antoxxxa
antoxxxa ответил в теме Re: ROBOTS.TXT
паника была преждевременна, это был глюк Яндекса, сегодня уже надпись о запрете роботсом убралась и сайт начал индексироваться

Пожалуйста Войти или Зарегистрируйтесь, чтобы присоединиться к беседе.