O que você procura?

Robots.txt – Aprenda a configurá-lo

Saiba como evitar que determinadas páginas do site apareçam no Google

Como veremos na tópico sobre o Googlebot, os robôs dos buscadores são aplicativos que navegam pela internet através dos links encontrados nas páginas, em busca de conteúdo a ser indexado e exibido nos resultados de busca. Porém, você pode optar por não ter algumas de suas páginas exibidas nos resultados de busca, como por exemplo:

  • Páginas de Login – uma página de login a uma área restrita, como acesso à intranet, geralmente não deve ser indexada;
  • Páginas de conteúdo repetido – Caso você tenha, por exemplo, diversas Landing Pages com conteúdo bastante similar rodando para suas campanhas Google AdWords, deve bloquear as cópias e deixar apenas uma versão ser indexada pelo Google, minimizando o problema do conteúdo duplicado;
  • Páginas de impressão – Se seu site tiver versões para tela e impressão sendo indexadas, elimine a versão para impressão do índice do Google.

O que é robots.txt

Como o próprio nome já diz, robots.txt é um arquivo no formato .txt (bloco de notas). Funciona como um filtro para os robôs dos sites de busca e faz com que os webmasters controlem permissões de acesso a determinadas páginas ou pastas dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexada pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raiz da hospedagem. O próprio Google usa um arquivo em http://www.google.com/robots.txt, e navegar por ele é no mínimo curioso.

Sintaxe do Robots.txt

O arquivo robots.txt tem o papel de criar uma política de acesso aos Robots. Para a execução dessas tarefas, há palavras reservadas, ou seja, palavras com a função de comandos que permitirão ou não o acesso a determinados diretórios ou páginas de um site. Vejamos os principais comandos do arquivo robots.txt:

User-agent

A função do comando user-agent é listar quais robôs devem seguir as regras indicadas no arquivo robots.txt. Supondo que você deseje somente que o mecanismo de busca do Google siga as definições definidas no arquivo robots.txt,basta indicar o User-agent como Googlebot. Eis as principais opções:

  • Google: User-agent: Googlebot
  • Google Imagens: User-agent: Googlebot-images
  • Google Adwords: User-agent: Adsbot-Google
  • Google Adsense: User-agent: Mediapartners-Google
  • Yahoo: User-agent: Slurp
  • Bing: User-agent: Bingbot
  • Todos os mecanismos: User-agent: * (ou simplesmente não incluir o comando user-agent)

Disallow

O comando instrui os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice. Exemplos:

  • Disallow: /prod – orienta aos robots a não indexarem pastas ou arquivos que comecem com “prod”;
  • Disallow: /prod/ – orienta aos robots a não indexarem conteúdo dentro da pasta “prod”
  • Disallow: print1.html – orienta aos robots a não indexarem conteúdo da página print1.html.

Allow

O comando Allow orienta aos robots qual diretório ou página deve ter o conteúdo indexado. Diretórios e páginas são por definição sempre permitidos. Assim, este comando deve ser utilizado apenas em situações em que o webmaster bloqueou o acesso a um diretório por meio do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado. Note por exemplo no robots.txt do Google, logo no início, as duas linhas abaixo. O Allow permite que seja indexado o diretório /about abaixo do diretório /catalogs.

Disallow: /catalogs  
Allow: /catalogs/about

Sitemap

Uma outra função permitia pelo robots.txt é a indicação do caminho e nome do sitemap em formato XML do site. A ferramenta para Webmasters do Google, porém, oferece um maior controle e visibilidade para a mesma função – comunicar ao Google onde está o ou os arquivos sitemap. Note como o Google submete, em seu robots.txt, diversos sitemaps:

Sitemap: http://www.google.com/hostednews/sitemap_index.xml  
Sitemap: http://www.google.com/sitemaps_webmasters.xml  
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml  
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml  
Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml  
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml  
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

Cuidados com o arquivo robots.txt

Como veremos abaixo em exemplos reais de robots.txt, é muito fácil acessar o conteúdo de arquivos robots.txt de qualquer site, inclusive de concorrentes. Assim, cuidado com o que é incluído nesse arquivo. Evite colocar arquivos confidenciais. Nesses casos, o ideal é utilizar a meta tag robots (meta name = “robots”), explicada no tópico de meta tags  deste tutorial.

Aplicação de Robots.txt

Exemplo: o webmaster não deseja que o conteúdo do diretório/docs seja indexado pelos robots, então, bloqueou o acesso ao diretório /docs com o comando “Disallow: /docs” no arquivo robots.txt. Dentro desse diretório, porém, existe um sub-diretório chamado “public”, que deve ter seu conteúdo indexado. Para que isso aconteça, basta usar no arquivo robots.txt a instrução “Allow: /docs/public/”.

Exemplos reais de Robots.txt

Para olhar exemplos de arquivos robots.txt, saia navegando pela internet e inclua o arquivo /robots.txt na raiz dos sites visitados para verificar se eles utilizam o arquivo robots.txt. Veja abaixo alguns exemplos:

Sobre o autor: Fundador da SEO Marketing, Bernhard Schultze

CONSULTORIA

Estamos prontos
para lhe atender

Seja qual for o perfil da sua empresa, a SEO Marketing pode auxiliá-la a destacar-se no Google e Redes Sociais para diferenciar-se de seus concorrentes. Contrate nossos serviços individualmente ou em um pacote que cubra as suas necessidades de exposição e conversão de vendas.

SOLICITE INFORMAÇÕES DETALHADAS SOBRE NOSSOS SERVIÇOS

SERVIÇOS SEO

Tutoriais

CASES SEO MARKETING

Os resultados da SEO Marketing

Veja nossos cases de sucesso no marketing digital!

CLIENTES

Depoimentos

  • Luciana Pepino

    Luciana Pepino

    Diretora Médica, Luciana Pepino
    A clínica Luciana Pepino de Cirurgia Plástica já tem parceria com a SEO Marketing há mais de um ano e a empresa sempre atendeu a gente com muita prontidão, com muita rapidez, com ideias inovadoras. E o que posso resumir dessa parceria seria: eles sempre estão superando expectativas, sempre um passo à frente do que a gente espera.
  • José Luiz Setúbal

    José Luiz Setúbal

    Presidente, Hospital Infantil Sabará
    A Fundação José Luiz Setúbal, através do Hospital Infantil Sabará, Instituto Pensi e Autismo & Realidade, utiliza os serviços da SEO Marketing há quase 10 anos. Neste periodo eles foram responsáveis pela criação e manuteção e serviço de SEO, e hoje em dia administram nossas redes sociais que são compostas de nossos portais (são 3), Facebook (são 2 páginas), instagram, twitter...
VER TODOS

NOSSOS CLIENTES

Clientes atendidos pela SEO

Conheça os principais clientes que já passaram pela SEO Marketing e conferiram nossos serviços!
SEO Marketing © 2019