Что такое файл Robots.txt в домене?

Если вы являетесь владельцем веб-сайта и заботитесь о его SEO-состоянии, вам следует хорошо ознакомиться с файлом robots.txt в своем домене. Хотите верьте, хотите нет, но это тревожно большое количество людей, которые быстро запускают домен, быстро устанавливают веб-сайт WordPress и никогда не делают ничего со своим файлом robots.txt.

Это опасно. Плохо настроенный файл robots.txt может на самом деле подорвать SEO-работоспособность вашего сайта и повредить ваши шансы на увеличение трафика.

Что такое файл Robots.txt?

Файл Robots.txt назван удачно, потому что по сути это файл, в котором перечислены директивы для веб-роботов (например, роботов поисковых систем) о том, как и что они могут сканировать на вашем веб-сайте. Это веб-стандарт, которому следуют веб-сайты с 1994 года, и все основные поисковые роботы придерживаются этого стандарта.

Файл хранится в текстовом формате (с расширением .txt) в корневой папке вашего интернет сайт. Фактически, вы можете просмотреть файл robot.txt любого веб-сайта, просто введя домен, а затем/robots.txt. Если вы попробуете это с помощью groovyPost, вы увидите пример хорошо структурированного файла robot.txt.

Файл простой, но эффективный. В этом примере файла не проводится различие между robots. Команды выдаются всем роботам с помощью директивы User-agent: * . Это означает, что все команды, следующие за ним, применяются ко всем роботам, которые посещают сайт для его сканирования.

Указание веб-сканеров

Вы также можете указать определенные правила для определенного Интернета. краулеры. Например, вы можете разрешить роботу Googlebot (поисковому роботу Google) сканировать все статьи на вашем сайте, но вы можете запретить русскому поисковому роботу Yandex Bot сканировать статьи на вашем сайте, содержащие пренебрежительную информацию о России.

Существуют сотни поисковых роботов, которые ищут в Интернете информацию о веб-сайтах, но 10 наиболее распространенных, о которых следует беспокоиться, перечислены здесь..

  • Googlebot : поисковая система Google.
  • Bingbot : Microsoft Bing поисковая система
  • Slurp : поисковая система Yahoo.
  • DuckDuckBot : поисковая система DuckDuckGo
  • Baiduspider : китайская поисковая система Baidu.
  • YandexBot : российская поисковая система Яндекс.
  • Exabot : французская поисковая система Exalead.
  • Facebot : сканирующий бот Facebook
  • ia_archiver : сканер веб-рейтинга Alexa.
  • MJ12bot : большая база данных индексации ссылок

В приведенном выше примере сценария, если вы хотите разрешить роботу Googlebot индексировать все, что есть на вашем сайте, но хотите запретить Яндекс индексировать содержание ваших статей на русском языке, вы должны добавить следующие строки в свой файл robots.txt.


User-agent: googlebot
Disallow: Disallow:/wp-admin/
Disa llow:/wp-login.php

User-agent: yandexbot
Disallow: Disallow:/wp-admin/
Disallow:/wp-login.php
Disallow:/russia/

Как видите, первый раздел блокирует только сканирование Google страницы входа в WordPress и администрирования. страниц. Второй раздел блокирует доступ Яндекса к той же, но и ко всей области вашего сайта, где вы публиковали статьи антироссийского содержания.

Это простой пример того, как вы можете использовать Команда Disallow для управления определенными поисковыми роботами, посещающими ваш сайт.

Другие команды Robots.txt

Disallow — не единственное команда, к которой у вас есть доступ, в файле robots.txt. Вы также можете использовать любые другие команды, которые будут указывать, как робот может сканировать ваш сайт.

  • Disallow : сообщает агенту пользователя чтобы избежать сканирования определенных URL-адресов или целых разделов вашего сайта.
  • Разрешить : позволяет вам настраивать определенные страницы или подпапки на вашем сайте, даже если вы мог запретить родительскую папку. Например, вы можете запретить:/about/, но затем разрешить:/about/ryan/.
  • : это говорит роботу подождать xx количество секунд до начала сканирования содержания сайта.
  • Карта сайта: укажите поисковым системам (Google, Ask, Bing и Yahoo) местоположение ваших XML-карт сайта .

Имейте в виду, что боты будут только слушать команды, которые вы указали при указании имени бота.

Распространенной ошибкой, которую допускают люди, является запрет на использование таких областей, как/wp-admin/, для всех ботов, а затем указание раздела для роботов Google и запрет только других областей (например,/about/).

Так как боты следуют только командам, указанным в их разделе, вам необходимо повторно сформулировать все те другие команды, которые вы указали для всех ботов (с помощью * user-agent).

  • Disallow : команда, используемая для указания агенту пользователя не сканировать определенный URL. Для каждого URL разрешена только одна строка «Disallow:».
  • Allow (только для робота Googlebot) : команда, сообщающая роботу Googlebot, что он может получить доступ к странице или вложенная папка, даже если ее родительская страница или вложенная папка могут быть запрещены.
  • Crawl-delay : сколько секунд сканер должен ждать перед загрузкой и сканированием содержимого страницы. Обратите внимание, что робот Googlebot не распознает эту команду, но скорость сканирования можно установить в консоли поиска Google.
  • Sitemap : используется для вызова местоположения XML-карты сайта (ы), связанные с этим URL. Обратите внимание, что эта команда поддерживается только Google, Ask, Bing и Yahoo.

Имейте в виду, что robots.txt предназначен для того, чтобы помочь легитимным ботам (например, роботам поисковых систем) сканировать ваш сайт более эффективно.

Есть много гнусных поисковых роботов, которые сканируют ваш сайт, чтобы делать такие вещи, как очистка адресов электронной почты или кража вашего контента. Если вы хотите попробовать использовать свой файл robots.txt, чтобы заблокировать этим роботам сканирование чего-либо на вашем сайте, не беспокойтесь. Создатели этих поисковых роботов обычно игнорируют все, что вы помещаете в файл robots.txt.

Почему что-либо запрещать?

Обеспечение качественного сканирования поисковой системы Google содержание на вашем веб-сайте является основной проблемой для большинства владельцев веб-сайтов.

Однако Google расходует только ограниченный бюджет сканирования и скорость сканирования на отдельных сайтах. Скорость сканирования — это количество запросов в секунду, которые робот Googlebot отправит на ваш сайт во время сканирования.

Более важным является бюджет сканирования, то есть общее количество запросов, которое робот Googlebot сделает для сканирования вашего сайта за один сеанс. Google «тратит» свой краулинговый бюджет, сосредотачиваясь на областях вашего сайта, которые очень популярны или изменились в последнее время.

Вы не закрываете глаза на эту информацию. Если вы зайдете в Инструменты Google для веб-мастеров, вы увидите, как сканер обрабатывает ваш сайт.

Как видите, поисковый робот поддерживает постоянную активность на вашем сайте каждый день. Он сканирует не все сайты, а только те, которые считает наиболее важными.

Зачем оставлять Googlebot решать, что важно на вашем сайте, если вы можете использовать файл robots.txt файл, чтобы указать, какие страницы самые важные? Благодаря этому робот Googlebot не будет тратить время на малоценные страницы вашего сайта.

Оптимизация бюджета сканирования

Инструменты Google для веб-мастеров также позволяют проверять, читает ли робот Google ваши Файл robots.txt в порядке и есть ли ошибки.

Это поможет вам убедиться, что вы правильно структурировали файл robots.txt..

Какие страницы следует запретить роботу Googlebot? Для SEO вашего сайта полезно запретить следующие категории страниц.

  • Дублирующиеся страницы (например, удобные для печати)
  • Страницы с благодарностью, следующие за заказы на основе форм
  • Формы заказов или информационных запросов
  • Страницы контактов
  • Страницы входа в систему
  • Лид Магнитные страницы продаж

Не игнорируйте свой файл Robots.txt

Самая большая ошибка новых владельцев веб-сайтов — это то, что они даже не смотрят на своих роботов .txt файл. Худшая ситуация может заключаться в том, что файл robots.txt фактически блокирует сканирование вашего сайта или его частей.

Обязательно просмотрите файл robots.txt и убедитесь, что он оптимизирован. Таким образом, Google и другие важные поисковые системы «видят» все невероятные вещи, которые вы предлагаете миру на своем веб-сайте.

Оцените статью
hackpad.ru
Добавить комментарий