John Mueller (no vídeo acima) explica-nos a utilização do ficheiro robots.txt.

De forma resumida, Robots.xts é um ficheiro de texto simples. Não deve ser editado em HTML, processadores de texto, ou outra qualquer aplicação que não seja um editor de texto simples. A colocação de imagens ou outro elemento HTML é estritamente proibido.

Neste artigo vamos explicar:

  • O que são Robots.txt
  • Para que servem robots.txt
  • Porque necessita de robots.txt
  • Melhores práticas SEO

O que são Robots.txt?

Gestores de websites utilizam ficheiros robots.txt para instruir os web robots, também conhecidos como robôs dos motores de pesquisa, sobre como devem rastrear as páginas do website (crawling).

O ficheiro robots.txt é inserido no arquivo de raiz do website. Através do Protocolo de Exclusão de Robôs padrão, o arquivo define como e o que pretende os motores de pesquisa rastrearem no site.

Para que serve o Robots.txt?

Os robots (robôs) visam dois objetivos:

  1. Descobrir novos conteúdos (crawling)
  2. Indexar conteúdos que vão de encontro como as pesquisas e intenções dos utilizadores

Os rastreamentos dos websites, por parte dos motores de pesquisa, seguem os links existentes entre sites. De um site irão a outro e por conseguinte por biliões de vezes. Este comportamento de crawling é conhecido como “spidering”.

Após chegar a um site, mas ainda antes do spidering, os crawlers procurar o ficheiro robots.txt. Ao encontrar o ficheiro, saberão exatamente o que devem visitar através dessa mesma página. E, como resultado ajuda na compreensão da estrutura do site, relevância e arquitetura das páginas, e resulta na indexação

O ficheiro .txt contém informação para os crawlers compreenderem, e serem instruídos, das particulares áreas do site que devem ou não rastrear. É habitual webmasters restringirem determinadas páginas, como páginas, imagens e/ou documentos, que são usados somente internamente.

Porque necessito de Robots.txt?

Como já referido, os ficheiros robots.txt controlam o que os crawlers visualizam no seu site. A supressão de certas áreas, privadas ou que simplesmente não pretende indexar, deverá ser tida em particular cuidado para evitar a inexistência de indexação (caso realizada erradamente) de páginas relevantes ao negócio.

Alguns usos comuns dos robots.txt:

  • Prevenir que conteúdos duplicados apareçam nos SERPs (resultados dos motores de pesquisa)
  • Especificar a localização dos sitemaps
  • Tornar privado o acesso a especificas páginas, informações, imagens ou outros elementos
  • Prevenir que pesquisa internas apareçam nos SERPs
  • Especificar os intervalos de crawling para evitar sobrecarregar do alojamento web / servidor

 

Melhores praticas SEO:

  • Deve certificar-se que todas as áreas e páginas que pretende indexar não estão bloqueadas
  • Links para páginas bloqueados. Se estiverem bloqueados os crawler não irão seguir e como resultado não serão “rastreados” (crawled)
  • Não utilize robots.txt para prevenir ou proteger o acesso a informação sensível: dados de clientes ou outros dados que devem estar seguros. Deverá implementar outras medidas de segurança como a proteção por password e assegurar que as informações jamais estarão acessíveis ou suscetível a indexação
  • Utilização de múltiplos agentes (Googlebot, Googlebot-image, …). Todos os agentes funcionam de forma similar pelo que não há necessidade de criar diferentes regras. No então, de conseguir especificar o conteúdo a ser rastreado irá conseguir melhores resultados
  • Os motores de pesquisa utilizam caches, mas atualizam os conteúdos pelo menos uma vez por dia. Se efetuar alterações aos conteúdos/website pode submeter diretamente, visualize o seguinte links.

 

Em suma, Robots.txt ditam o comportamento do crawl com base no site e diretórios. Ao invés dos robots meta e x que ditam o comportamento da indexação de cada individual página e elementos.