Semalt: Como bloquear o Darodar Robots.txt

O arquivo Robots.txt é um arquivo de texto típico que contém instruções sobre como rastreadores da web ou bots devem rastrear um site. Sua aplicação é evidente em robôs de mecanismo de pesquisa, comuns em vários sites otimizados. Como parte do protocolo de exclusão de robôs (REP), o arquivo robots.txt forma um aspecto essencial da indexação do conteúdo do site, além de permitir que um servidor autentique as solicitações do usuário de acordo.

Julia Vashneva, gerente sênior de sucesso do cliente da Semalt , explica que a vinculação é um aspecto do SEO (Search Engine Optimization), que envolve a obtenção de tráfego de outros domínios do seu nicho. Para os links "seguir" para transferir o suco do link, é essencial incluir um arquivo robots.txt no espaço de hospedagem do site para atuar como instrutor de como o servidor interage com o site. Nesse arquivo, as instruções estão presentes ao permitir ou não ao comportamento de alguns agentes específicos do usuário.

O formato básico de um arquivo robots.txt

Um arquivo robots.txt contém duas linhas essenciais:

Agente do usuário: [nome do agente do usuário]

Não permitir: [string de URL a não ser rastreada]

Um arquivo robots.txt completo deve conter essas duas linhas. No entanto, alguns deles podem conter várias linhas de user-agents e diretivas. Esses comandos podem conter aspectos como permite, não permite ou atrasa o rastreamento. Geralmente, há uma quebra de linha que separa cada conjunto de instruções. Cada uma das instruções de permissão ou proibição é separada por essa quebra de linha, especialmente para o robots.txt com várias linhas.

Exemplos

Por exemplo, um arquivo robots.txt pode conter códigos como:

Usuário-agente: darodar

Não permitir: / plugin

Não permitir: / API

Não permitir: / _comments

Nesse caso, este é um arquivo robots.txt de bloco que restringe o acesso ao seu site pelo rastreador da Web Darodar. Na sintaxe acima, o código bloqueia aspectos do site, como plug-ins, API e a seção de comentários. Com esse conhecimento, é possível obter vários benefícios com a execução eficaz do arquivo de texto de um robô. Os arquivos Robots.txt podem executar várias funções. Por exemplo, eles podem estar prontos para:

1. Permita que todos os rastreadores da Web entrem em uma página do site. Por exemplo;

Agente de usuário: *

Não permitir:

Nesse caso, todo o conteúdo do usuário pode ser acessado por qualquer rastreador da Web solicitado para acessar um site.

2. Bloqueie um conteúdo da web específico de uma pasta específica. Por exemplo;

Agente do usuário: Googlebot

Não permitir: / example-subfolder /

Esta sintaxe que contém o nome do agente do usuário Googlebot pertence ao Google. Restringe o bot de acessar qualquer página da web na string www.ourexample.com/example-subfolder/.

3. Bloqueie um rastreador da web específico de uma página da web específica. Por exemplo;

Agente do usuário: Bingbot

Não permitir: /example-subfolder/blocked-page.html

O bot do agente do usuário Bing pertence aos rastreadores da web do Bing. Esse tipo de arquivo robots.txt impede que o rastreador da Web do Bing acesse uma página específica com a string www.ourexample.com/example-subfolder/blocked-page.

Informação importante

  • Nem todo usuário usa seu arquivo robts.txt. Alguns usuários podem decidir ignorá-lo. A maioria desses rastreadores da Web inclui cavalos de Troia e malware.
  • Para que um arquivo Robots.txt fique visível, ele deve estar disponível no diretório do site de nível superior.
  • Os caracteres "robots.txt" diferenciam maiúsculas de minúsculas. Como resultado, você não deve alterá-los de nenhuma maneira, incluindo letras maiúsculas em alguns aspectos.
  • O "/robots.txt" é de domínio público. Qualquer pessoa pode encontrar essas informações ao adicioná-las ao conteúdo de qualquer URL. Você não deve indexar detalhes ou páginas essenciais que deseja que eles permaneçam privados.