O Que É, Para Que Serve e Como Fazer um robots.txt

19.08.2008

Muitos dos mecanismos de busca, quando começam a visitar o seu site e antes mesmo de indexá-lo checam para ver se um arquivo chamado robots.txt existe em seu servidor, este arquivo serve para evitar que tudo que contenha em seu ftp seja indexado, inclusive páginas as páginas vedadas ao acesso de qualquer um. Foi criado então esta padronização e que quase todos os bots respeitam, e é por meio deste arquivo que informamos aos mecanismos de busca que conteúdo não queremos que seja indexado. Daí explica-se a importância de ter e fazer corretamente um para o seu site.

O Que É e Para Que Serve?

É um arquivo no formato texto (.txt) que funciona como uma espécie de filtro para os sistemas de busca, ou seja,  donos de websites utilizam este arquivo para dar instruções do que será permitido ou bloqueado de certas áreas ou sessões do seu site durante a indexação. O robots.txt é um arquivo de texto simples e nada complicado que precisa estar hospedado no diretório raiz do seu site, podendo ser criado em qualquer editor, até mesmo no bloco de notas ou com a ajuda de geradores on-line de robots.txt.

Logo abaixo temos um exemplo básico do conteúdo de um arquivo robots.txt. O User-Agent do exemplo é aonde declaramos para qual bot indexador as regras daquele bloco estarão valendo.

User-Agent: *
Disallow: /

Você pode especificar as mesmas regras para todos os bots colocando um * (asterisco) no User-Agent ou se você preferir pode escrever regras para um determinado tipo de indexador em particular já que cada um tem seu nome próprio. Por exemplo, indexadores de texto temos o bot do Google que é chamado de Googlebot, o do Yahoo! é o Slurp e o do MSN Busca é o MSNBot. Temos também indexadores de imagem que são chamados de Googlebot-Image para o agente do Google, yahoo-mmcrawler o do Yahoo e o da MSN o psbot.

Como Fazer Um robots.txt

Como eu disse é muito simples fazer um arquivo deste, basta você saber o que precisa e o que não precisa ser indexado do seu site, por exemplo, eu tenho um site e dentro deste site tenho algumas pastas pessoais de arquivos da faculdade, programas e fotos pessoais e também uma parte para o administrador do site onde somente eu tenho acesso, claro não gostaria que o google indexasse os arquivos destes diretórios. Veja o exemplo:

User-Agent: *
Crawl-delay: 10
Disallow: /facul
Disallow: /programas
Disallow: /fotos
Disallow: /admin
Sitemap: http://www.recoha.com/sitemap.xml

Este exemplo está dizendo para todos (*) os mecanismos de busca que todo o site pode ser indexado excluindo-se as pastas facul, programas, fotos e admin. No exemplo acima encontramos a instrução Crawl-delay que não é muito utilizada, mas que determina o tempo de indexação da página, ou seja, alguns bots indexam os sites tão rapidamente que causam lentidão no site e consequentemente na navegação dos usuários que estiverem visitando o site neste momento. O Google, por exemplo, faz o seu serviço mais lentamente que os demais mecanismos e por isso não necessita de instrução específica. Esta instrução é necessária apenas em sites muito grandes que tenham enorme quantidade de páginas. O número a frente da instrução é medido em segundos e de um modo geral, 10 segundos é tempo suficiente.  [update] Utilizando o exemplo acima e após eu ter escrito como fazer um XML Sitemap, eu acrescento na última linha, como especificar o endereço do sitemap no arquivo robots.txt, fazendo isso você ajuda a garantir que o seu arquivo sitemap.xml será encontrado na hora da indexação [/update].

Geradores de Robots.txt on-line

Bom, isso é tudo que gostaria de ter abordado, espero que eu tenha esclarecido algumas dúvidas e contribuído com algo. Abraços e até mais.

Compartilhe:
  • del.icio.us
  • Technorati
  • Digg
  • Reddit
  • Facebook
  • Google
  • Rec6
  • Furl
  • Live
  • Uêba
  • Blogosphere News
  • Propeller
  • Mixx
  • Linkk
  • YahooMyWeb
  • StumbleUpon
  • SphereIt
  • Sphinn
  • blogmarks

Este texto foi postado em 19.08.2008 e está classificado na(s) categoria(s) SEO. Você pode acompanhar os comentários deste post através do RSS 2.0. Você pode também deixar um comentário ou um trackback do seu site.

2 comentários neste post

  1. # Postado por Flávio Ricardo no dia 21.09.2008 às 4:45 .

    Cara, confesso que já li esse post várias vezes mas ainda não entendi o uso desse robots.txt - por um acaso de se ele estiver mal configurado, pode prejudicar a classificação do conteúdo pelo Goolgle?

  2. # Postado por ReCoHa no dia 22.09.2008 às 10:22 .

    Flávio,

    uma má configuração do robots.txt prejudica sim a indexação pelos sistemas da busca, pois, assim como dito no post “este arquivo serve para dar instruções do que será permitido ou bloqueado de certas áreas ou sessões do seu site durante a indexação”, ou seja, se por acaso você bloquear o diretório que contém os arquivos de uma determinada sessão do site, esta pasta não será indexada pelos sistemas de busca durante a visita ao seu site.

    Abraço! ;]

Deixar um comentário

*Campos Obrigatórios

*

*