Quando você deve impedir os mecanismos de pesquisa em seu arquivo robots.txt e quando você deve usar meta-tags robots em um cabeçalho de página? E os links nofollow?
Vamos abordar essas ferramentas e seu uso apropriado em quatro situações que os SEOs geralmente enfrentam.
Para começar, o que quero fazer é discutir as maneiras pelas quais podemos controlar os robôs. Esses incluem os três principais: robots.txt, meta-tags robots e a tag nofollow que é um pouco menos sobre o controle de bots.
Há alguns outros que discutiremos também, incluindo as Ferramentas do Google para webmasters (Search Console) e os códigos de status da URL. Mas vamos mergulhar naqueles primeiros antes.
Robots.txt fica em seusite.com.br/robots.txt, informa aos rastreadores o que eles devem e não devem acessar, nem sempre são respeitados pelo Google e pelo Bing.
Então, muitas pessoas quando você diz “ei, proíbe isso”, e então de repente você vê essas URLs surgindo e você está se perguntando o que está acontecendo! Google e Bing muitas vezes pensam que eles apenas sabem melhor do que você.
Eles acham que talvez você tenha cometido um erro, eles pensam “ei, há muitos links apontando para esse conteúdo, há um monte de pessoas que estão visitando e se importando com esse conteúdo, talvez você não tenha a intenção de bloquear isto.”
Quanto mais específico você for sobre um URL individual, melhor eles geralmente o respeitarão. O menos específico, ou seja, quanto mais você usar “curingas” ou disser “tudo por trás desse grande diretório”! O pior é que eles necessariamente acreditam em você.
Robots.txt
User-agent: *
Disallow: /blogteste.html
Meta robots é um pouco diferente – vive nos cabeçalhos de páginas individuais, de modo que você só pode controlar uma única página com uma tag meta robots.
Isso diz aos mecanismos se devem ou não manter uma página no índice, e se devem seguir os links nessa página, e geralmente é muito mais respeitado, porque está no nível de uma página individual; Google e Bing tendem a acreditar em você sobre a tag meta robots.
Blogteste.html
<meta name=”robots” content=”noindex, follow”>
E então a tag nofollow, que vive em um link individual em uma página. Ele não diz aos mecanismos onde rastrear ou não rastrear. Tudo o que está dizendo é se você garante editorialmente uma página que está sendo vinculada e se deseja passar o PageRank e vincular as métricas de equidade a essa página.
Ponto interessante sobre meta Tags Robots e robots.txt trabalhando juntos (ou não trabalhando tão bem juntos) – muitas pessoas no mundo do SEO fazem isso e ficam frustradas.
E se, por exemplo, pegarmos uma página como “blogteste.html” em nosso domínio e dissermos “todos os agentes de usuário, você não tem permissão para rastrear blogteste.html. Ok” – essa é uma boa maneira de manter essa página longe de ser rastreada, mas só porque algo não é rastreado não significa necessariamente que não estará nos resultados da pesquisa.
Então, chega o “pessoal” de SEO e diz: “você sabe, vamos garantir duplamente que isso não apareça nos resultados de pesquisa; vamos colocar a tag meta robots:”
<meta name="robots" content="noindex,follow">
Então, “noindex, follow” diz ao rastreador do mecanismo de busca que eles podem seguir os links na página, mas eles não devem indexar esta em particular.
Então, você vai e corre uma busca por “blogteste” neste caso, e todos dizem: “Por que eu estou vendo esta página aparecer nos resultados de pesquisa?”
A resposta é que você disse aos mecanismos que eles não poderiam rastrear a página, então eles não o fizeram. Mas eles ainda estão colocando nos resultados.
Eles provavelmente não incluirão uma meta description; eles podem ter algo como “não podemos incluir uma meta description devido ao arquivo robots.txt deste site”. A razão pela qual está aparecendo é porque eles não podem ver o noindex; tudo o que eles veem é o disallow.
Portanto, se você quiser algo realmente removido, não conseguir ser visto nos resultados de pesquisa, não será possível impedir um rastreador. Você tem que dizer meta “noindex” e você tem que deixá-los rastrear isso.
Então isso cria algumas complicações. Robots.txt pode ser ótimo se estivermos tentando salvar a largura de banda de rastreamento, mas isso não é necessariamente ideal para impedir que uma página seja mostrada nos resultados da pesquisa.
Eu não recomendaria, a propósito, que você faça o que achamos que o Twitter recentemente tentou fazer, onde eles tentaram canonizar www e não www dizendo “Google, não indexe a versão www do twitter.com”. O que você deve estar fazendo é canonical-ing ou usando um 301 (vamos falar sobre isso em outros artigos).
Meta-robots – que permitem o rastreamento e a vinculação de links, ao mesmo tempo que não permitem a indexação, o que é ótimo, mas exige orçamento de rastreamento e você ainda pode conservar a indexação.
A tag nofollow, em geral, não é particularmente útil para controlar bots ou conservar a indexação.
As Ferramentas do Google para webmasters (agora Google Search Console) têm algumas coisas especiais que permitem restringir o acesso ou remover um resultado dos resultados da pesquisa. Por exemplo, se você tiver algo como 404 ou se tiver dito para não rastrear alguma coisa, mas ela ainda estiver aparecendo, você pode dizer manualmente “não faça isso”. Existem algumas outras coisas do protocolo de rastreamento que você pode fazer.
E, em seguida, os códigos de status da URL – essas são uma maneira válida de fazer as coisas, mas obviamente também vão alterar o que está acontecendo nas suas páginas.
Se você não está tendo muita sorte usando um 404 para remover algo, você pode usar um 410 para remover permanentemente algo do índice. Esteja ciente de que uma vez que você usa um 410, pode levar muito tempo se você quiser que a página seja rastreada novamente ou indexada novamente, e você quer dizer aos mecanismos de busca que “está de volta!” 410 é a remoção permanente .
301 – redirecionamento permanente, falamos sobre esses aqui – e 302, redirecionamento temporário.
Agora, vamos pular alguns casos de uso específicos de “que tipos de conteúdo devo e não devo permitir que os mecanismos rastreiem e indexem”!
Quatro problemas de rastreamento/indexação para resolver
Então, nós temos esses quatro grandes problemas que eu quero falar sobre como eles se relacionam com rastreamento e indexação.
Agora vamos abordar como controlar rastreadores dos mecanismos de pesquisas
1. Conteúdo que ainda não está pronto
O primeiro aqui está: “Se eu tiver conteúdo de qualidade, não está pronto para o Google, e preciso que as pessoas possam acessá-las, por isso estou reescrevendo o conteúdo e criando valor exclusivo nessas páginas … elas ainda não estão prontas – o que devo fazer com elas? ”
Minhas opções em torno de rastreamento e indexação? Se eu tiver uma grande quantidade de conteúdo – talvez milhares, dezenas de milhares, centenas de milhares – eu provavelmente seguiria a rota do robots.txt. Eu não permitia que essas páginas fossem rastreadas e, finalmente, à medida que atualizo esses conjuntos de URLs prontas, posso permitir o rastreamento e talvez até enviá-los ao Google por meio de um sitemap XML.
Se eu estou falando de uma pequena quantidade – algumas dúzias, algumas centenas de páginas – bem, eu provavelmente usaria apenas os meta robots noindex, e então eu retiraria esse noindex dessas páginas quando elas estivessem prontas para “Consumo do Google”.
E, novamente, provavelmente usaria o sitemap XML e começaria a enviá-los quando estiverem prontos.
A) Grande quantidade => Robots.txt
B) Pequena Quantidade => Meta Robots Noindex
2. Lidando com conteúdo duplicado
Que tal, “Devo noindex, nofollow ou potencialmente proibir o rastreamento em grande parte das URLs duplicadas?”
Eu tenho um exemplo. Digamos que eu seja uma loja de comércio eletrônico, estou vendendo camisetas legais da Star Wars, que eu acho meio engraçadas, então eu tenho starwarscamisetas.html, e essa é uma página HTML individual. Essa página se conecta a cores diferentes, que mudam a URL da página, então eu tenho uma versão cinza, azul e preta.
Bem, estas quatro páginas são realmente todas parte desta mesma, então eu não recomendaria desabilitar o rastreamento nelas, e eu não recomendaria que elas fossem indexadas. O que eu faria lá é um rel canonical.
Lembre-se, rel canonical é uma daquelas coisas que podem ser impedidas por não permitir. Então, se eu não permitisse que eles fossem rastreados, o Google não poderia ver o rel cannical de volta, então, se alguém linkasse para a versão azul em vez da versão padrão, agora eu potencialmente não recebo crédito de link para isso.
Então, o que eu realmente quero fazer é usar o rel canonical, permitir a indexação e permitir que ele seja rastreado. Se você realmente quiser, você também pode colocar uma meta “noindex, follow” nestas páginas, mas eu realmente não acho que seja necessário, e novamente isso pode interferir com o rel canonical.
A) Provavelmente usar: rel=”canonical”
B) Disallow se o rastreamento for um problema usando o robots.txt
3. Passando o “link equity” sem aparecer nos resultados da pesquisa
Número três: “Se eu quiser passar a equidade do link (ou pelo menos rastrear) através de um conjunto de páginas sem que essas páginas realmente apareçam nos resultados de pesquisa – e usar maneiras pelas quais os humanos navegarão pelas minhas páginas, mas Eu não preciso daqueles que aparecem nos resultados da pesquisa – o que devo usar então? ”
O que gostaria de dizer aqui é, você pode usar as meta robots para dizer “não indexe a página, mas não siga os links que estão na página.” Isso é um caso de uso muito bom e prático para isso.
No entanto, NÃO permita que isso ocorra no robots.txt – muitas pessoas cometem esse erro. O que acontece se você não permitir o rastreamento deles, o Google não pode ver o noindex. Eles não sabem que podem segui-lo.
É verdade que, como falamos antes, às vezes o Google não obedece ao robots.txt, mas você não pode confiar nesse comportamento. Confie que o disallow no robots.txt impedirá o rastreamento. Então, eu diria que as meta robots “noindex, follow” são a maneira de fazer isso.
A) Meta Robots NoIndex, Follow
B) Não disallow em robots.txt
4. Páginas do tipo de resultados de pesquisa
Finalmente, quarto, “O que devo fazer com páginas de tipo de resultados de pesquisa?”
O Google disse muitas vezes que não gosta dos resultados da pesquisa do seu mecanismo interno que aparece nos resultados da pesquisa, e isso pode ser um caso de uso complicado.
Às vezes, uma página de resultados de pesquisa – uma página que lista muitos tipos de resultados que podem vir de um banco de dados de tipos de conteúdo que você tem em seu site – pode realmente ser um bom resultado para um pesquisador que está procurando uma grande variedade de conteúdo, ou quem quer ver o que você tem para oferecer.
Quando você diz: “Eu estou procurando restaurantes em São Paulo, SP,” eles vão te dar o que é essencialmente uma lista de resultados de pesquisa e o Google não que apareça porque essa página fornece um grande quantidade de resultado. Mas você deve tornar os conjuntos individuais mais comuns ou populares desses resultados de busca em páginas de estilo de categoria. Uma página que fornece valor real e exclusivo, que não é apenas uma lista de resultados de pesquisa, que é mais uma página de destino do que uma página de resultados de pesquisa.
No entanto, se você tiver uma resposta longa, ou se disser “ei, nosso mecanismo de pesquisa interno é apenas para visitantes internos, não é útil que essas páginas sejam exibidas nos resultados de pesquisa e não achamos que precisamos nos esforçar para transformá-los em páginas de destino de categoria. ” Então você pode usar o disallow no robots.txt para evitar isso.
Apenas seja cauteloso aqui, porque às vezes vi um balanço excessivo para bloquear todos os tipos de resultados de pesquisa, e às vezes isso pode prejudicar seu SEO e seu tráfego.
Às vezes, essas páginas podem ser realmente úteis para as pessoas. Portanto, verifique suas análises e verifique se essas páginas não são valiosas e devem ser exibidas e transformadas em páginas de destino. Se tiver certeza, prossiga e desative todas as suas páginas no estilo de resultados de pesquisa. Você verá muitos sites fazendo isso no arquivo robots.txt deles.
A) Faça o mais comum/popular estilo de categoria na página de destino com valor exclusivo
B) Disallow em robots.txt (somente se você tiver certeza de que eles não são úteis para os visitantes de pesquisa)
Dito isto, espero que você tenha algumas ótimas perguntas sobre como controlar rastreadores dos mecanismos de pesquisa, controle de robôs, bloqueio de robôs, permissão de robôs, e tentarei abordá-los nos comentários abaixo.
Haa… e não esqueça de acompanhar o SeoPro.Expert nas redes sociais: Facebook, Instagram e Twitter