Como encontrar todas as páginas de um site – 8 maneiras fáceis

Como você encontra todas as páginas existentes em um site? A primeira ideia que vem à mente é pesquisar no Google o nome de domínio do site.

Mas e os ‌URLs que não conseguem ser indexados? Ou páginas órfãs? Ou cache da web?

Encontrar todas as páginas de um site é muito fácil; no entanto, requer atenção extra, considerando que existem páginas que ficam escondidas dos olhos dos visitantes ou dos bots de pesquisa. Este guia mostra 8 métodos diferentes para encontrar todas as páginas do site junto com as ferramentas a serem usadas.

Por que você pode precisar encontrar todas as páginas de um site

Existem vários motivos pelos quais você pode precisar encontrar todas as páginas de um site. Para nomear alguns:

1. Para auditar o site de um novo cliente e encontrar problemas de indexação.

Problemas técnicos como links quebrados, erros de servidor, velocidade lenta da página ou má usabilidade em dispositivos móveis impedem o Google de indexar as páginas. Portanto, as auditorias de sites revelam quantos URLs um site possui e quais deles são problemáticos. No final, ajuda os SEOs a estimar o escopo do trabalho futuro no projeto.

2. Para detectar as páginas do seu próprio site que não foram indexadas por engano.

Se o seu site tiver conteúdo duplicado, o Google poderá não conseguir indexar todas as duplicatas. O mesmo se aplica a longas cadeias de redirecionamento e URLs 404: se houver muitos deles em um site, o orçamento de rastreamento será gasto em vão. Como resultado, os bots de pesquisa visitam o site com menos frequência e ele será indexado de maneira pior no geral. É por isso que são necessárias auditorias regulares, mesmo que algo pareça normal em geral.

3. Para localizar páginas indexadas que não se destinam à indexação do Google.

Algumas páginas não são necessárias no índice de pesquisa – por exemplo, páginas de login para administradores, páginas em desenvolvimento ou carrinhos de compras. Ainda assim, essas páginas podem ser indexadas contra a sua vontade devido a regras conflitantes ou erros em seus arquivos técnicos. Por exemplo, se você confiar apenas no robots.txt para proibir uma página, o URL ainda poderá ser rastreado e aparecer na pesquisa.

4. Para encontrar páginas desatualizadas e planejar uma revisão completa do conteúdo.

O Google pretende fornecer os melhores resultados possíveis para seus usuários, portanto, se o seu conteúdo for de baixa qualidade, limitado ou duplicado, ele poderá não ser indexado. É bom ter uma lista de todas as suas páginas para saber quais tópicos você ainda não abordou. Com todo o seu inventário de conteúdo em mãos, você poderá planejar sua estratégia de conteúdo de forma mais eficaz.

5. Para encontrar páginas órfãs e planejar estratégias de links.

Órfãs são páginas sem links de entrada, por causa das quais os usuários e os bots de pesquisa as visitam raramente ou nem as visitam. As páginas órfãs podem ser indexadas no Google e atrair usuários acidentais. No entanto, um grande número de páginas órfãs num website prejudica a sua autoridade: a estrutura do site não é cristalina, as páginas podem parecer inúteis ou sem importância, e toda a madeira morta prejudicará a visibilidade total do website.

6. Redesenhar um site e mudar sua arquitetura.

Para planejar a reformulação de um site e melhorar a experiência do usuário, primeiro você precisa encontrar todas as suas páginas e métricas relevantes.

Uma estrutura clara e organizada com uma hierarquia lógica de todas as páginas pode ajudar os mecanismos de pesquisa a encontrar seu conteúdo com mais facilidade. Portanto, todos os URLs importantes devem estar acessíveis a um, dois ou três cliques da página inicial.

Embora a experiência do usuário não afete o rastreamento e a classificação, ela é importante para os sinais de qualidade do seu site – compras bem-sucedidas, o número de visitantes recorrentes, visualizações de página por visitante e muitas outras métricas mostram o quanto o seu site é útil para os visitantes.

7. Analisar sites de concorrentes.

Ao auditar as páginas de seus concorrentes, você pode se aprofundar em suas estratégias de SEO: revelar suas páginas de maior tráfego, as páginas mais vinculadas, as melhores fontes de referência, etc.. Você pode pegar emprestadas suas técnicas e comparar os resultados para ver como melhorar seu próprio site.

Existem muitas maneiras de encontrar todas as páginas de um site, mas para cada caso, você pode usar um método diferente para fazer isso. Então, vamos ver os prós e os contras de cada método e como empregá-lo sem complicações.

1. Pesquise com os operadores de pesquisa do Google

A pesquisa do Google pode ajudar a encontrar rapidamente todas as páginas de um site. Basta inserir “site: seu domínio” na barra de pesquisa e o Google mostrará todas as páginas do site que ele indexou.

O operador de pesquisa de sites retorna todos os URLs que o Google encontra em seu site
Os resultados de site:search mostram todos os URLs que o Google encontrou em seu site

Porém, é importante lembrar que os resultados da pesquisa mostrados pelo operador “site:” não refletem necessariamente o número exato de páginas indexadas do seu site.

Primeiro, não há garantia de que o Google indexará todas as páginas logo após rastreá-las. Pode excluir certas páginas do índice por vários motivos: por exemplo, considera algumas páginas duplicadas ou de baixa qualidade.

Em segundo lugar, o operador de pesquisa “site:” também pode mostrar páginas que foram removidas do seu site, mas são mantidas como páginas em cache ou arquivadas no Google.

Portanto, a consulta de pesquisa “site:” é um bom começo para obter uma imagem aproximada do tamanho do seu site. Mas para encontrar o restante das páginas que podem estar faltando no índice, você precisará de outras ferramentas.

2. Verifique o arquivo robots.txt

‌Robots.txt é um arquivo técnico que instrui os bots de pesquisa sobre como rastrear seu site, com a ajuda das regras de permissão/proibição para páginas individuais ou diretórios inteiros.

Assim, o arquivo não mostrará todas as páginas do seu site. No entanto, pode ajudá-lo a localizar páginas cujo acesso é proibido por bots de pesquisa.

Como

Aqui estão as etapas sobre como encontrar as páginas restritas usando robots.txt:

  1. Encontre o arquivo robots.txt no site. Geralmente está localizado no diretório raiz, então você pode digitar example.com/robots.txt e lá estará.
  2. Abra o arquivo em um editor de texto ou navegador.
  3. Observe a linha “User-agent” que especifica o rastreador do mecanismo de pesquisa ao qual as regras a seguir se aplicam.
  4. Procure as regras “Disallow”. Essas linhas especificam as páginas ou diretórios que o rastreador do mecanismo de pesquisa não tem permissão para acessar.
  5. Se você encontrar algum, examine os URLs e diretórios que estão bloqueados.

Aqui está um exemplo de diretivas de robôs para o YouTube.

Diretivas de robôs para YouTube
Diretivas de robôs para o site do YouTube

Verifique como funciona. Por exemplo, a página de inscrição não é permitida. No entanto, você ainda pode obtê-lo pesquisando no Google – observe que nenhuma informação descritiva está disponível para a página.

Uma página não permitida pelas diretivas de robôs aparece na pesquisa
Uma página não permitida pelas diretivas de robôs aparece nos resultados da pesquisa

É necessário verificar novamente as regras do robots.txt para garantir que todas as suas páginas sejam rastreadas corretamente. Portanto, você pode precisar de uma ferramenta como o Google Search Console ou um rastreador de site para revisá-lo. Vou falar sobre isso em um momento.

E até agora, se você quiser saber mais sobre a finalidade do arquivo, leia este guia para ocultar páginas da web da indexação.

3. Examine o mapa do site

Um mapa do site é outro arquivo técnico que os webmasters usam para a indexação adequada do site. Este documento, muitas vezes em formato XML, lista todos os URLs de um site que devem ser indexados. Um mapa do site é uma fonte valiosa de informações sobre a estrutura e o conteúdo de um site.

Sites grandes podem ter vários sitemaps: como o tamanho do arquivo é limitado a 50.000 URLs e 50 MB, ele pode ser dividido em vários e incluir um sitemap separado para diretórios, imagens, vídeos, etc. Plataformas de comércio eletrônico como Shopify ou Wix gerar mapas de sites automaticamente. Para outros, existem plug-ins ou ferramentas geradoras de mapas de sites para criar os arquivos.

Como

Entre tudo isso, o mapa do site de um site permite que você encontre facilmente todas as páginas dele e garanta que elas sejam indexadas:

  1. Procure um link para o mapa do site no rodapé ou cabeçalho do site. O mapa do site geralmente está localizado em seudominio.com/sitemap.xml ou em um URL semelhante. Você também pode verificar o arquivo do robô porque é o local mais comum para incluir uma referência ao mapa do site.
  2. Abra o mapa do site em um editor de texto ou visualizador XML.
  3. Observe as tags <loc> no arquivo de mapa do site. Essas tags contêm o URL de cada página do site.
  4. Você pode copiar os URLs das tags <loc> em uma planilha ou documento de texto.
Um exemplo de mapa do site com todas as subcategorias
Um exemplo de vários sitemaps listando todas as páginas de um site

Você também deve verificar novamente a exatidão do seu mapa do site de vez em quando, pois ele também pode ter problemas: pode estar em branco, respondendo com um código 404, armazenado em cache há muito tempo ou pode simplesmente conter URLs errados que você não deseja para aparecer no índice.

Um bom método para validar o mapa do seu site é usar uma ferramenta de rastreamento de sites. Existem várias ferramentas de rastreamento de sites disponíveis online, e uma delas é o WebSite Auditor, que é uma ferramenta de SEO poderosa para auditorias em todo o site. Vamos ver como isso pode ajudá-lo a encontrar todas as páginas de um site e validar arquivos técnicos.

4. Rastreie com um SEO spider

Esta etapa requer WebSite Auditor. Você pode baixá-lo agora gratuitamente.
Download WebSite Auditor

Como

Veja como você pode usar o WebSite Auditor para encontrar todas as páginas do seu site:

  1. Inicie o WebSite Auditor e digite a URL do seu site para criar um novo projeto.
  2. Marque a caixa Configurações avançadas e conclua a configuração indicando os parâmetros exatos de rastreamento. (Se você ainda não sabe o que procurar, pule a configuração avançada e deixe o SEO spider rastrear seu site com as configurações padrão.)
  3. Nas configurações avançadas, você tem várias opções para garantir que o rastreador de sites encontre todas as páginas. Por exemplo, marque Pesquisar páginas órfãs e ele coletará todos os URLs sem links de entrada.

Você pode especificar as instruções para um determinado bot de pesquisa ou agente de usuário; diga ao rastreador para ignorar os parâmetros de URL, rastrear um site protegido por senha, rastrear um domínio sozinho ou junto com subdomínios, etc.

Configurando o rastreador da web para encontrar todas as páginas, incluindo URLs órfãos
Configurando o rastreador da web para encontrar todas as páginas, incluindo aquelas desvinculadas de outras páginas

Depois de clicar em OK, a ferramenta auditará seu site e coletará todas as páginas na seção Estrutura do site > Páginas.

O WebSite Auditor irá ajudá-lo a verificar novamente se os URLs estão devidamente otimizados para mecanismos de pesquisa. Você conhecerá a ferramenta em poucos minutos, pois a configuração é rápida e a interface é bastante intuitiva.

Aqui está um breve guia em vídeo para você:

Vamos ver o que você pode obter com a ferramenta de rastreamento de sites.

Colete a lista de páginas com todos os seus recursos

Na guia Todas as páginas, você pode classificar a lista por URL, título ou qualquer outra coluna clicando no cabeçalho da coluna.

Obtenha a lista de todas as páginas com todos os recursos nelas em Estrutura do site> seção Páginas
Obtenha a lista de todas as páginas com todos os recursos nelas em Estrutura do site> seção Páginas
Baixe Website Auditor

Você pode usar a caixa de pesquisa para filtrar a lista de páginas por palavra-chave ou URL da página. Isso pode ser útil se você estiver procurando uma página ou grupo de páginas específico.

Além disso, você pode adicionar colunas visíveis para apresentar mais informações sobre esta página, como meta tags, títulos, palavras-chave, redirecionamentos ou qualquer outro elemento de SEO na página.

Finalmente, você pode clicar em qualquer URL para examinar todos os recursos da página na metade inferior da área de trabalho.

Todos os dados podem ser tratados dentro da ferramenta ou copiados/exportados em formato CSV ou Excel.

Obtenha listas de páginas afetadas por erros técnicos

A seção Auditoria do site mostrará listas de páginas divididas por tipos de erros, como:

  • Problemas duplicados
  • Redirecionamentos e cadeias de redirecionamento defeituosos
  • Páginas com restrição de indexação
  • Recursos quebrados
Encontre todas as páginas do site listadas por tipo de erro
Encontre todas as páginas do site listadas por tipo de erro
Baixe Website Auditor

Abaixo de cada tipo de problema, você verá uma explicação de por que esse fator é importante e algumas sugestões sobre como corrigi-lo.

Veja a estrutura do site visualizada

Além disso, você pode examinar o mapa visual do seu site em Estrutura do site> Visualização, que mostra as relações entre todos os seus URLs. O mapa interativo permite adicionar ou remover páginas e links para ajustar a estrutura do seu site. Você pode recalcular o valor do PageRank interno e verificar as visualizações de página (conforme rastreadas pelo Google Analytics).

Visualização da estrutura do site
Veja todas as páginas do site em um mapa visual do site
Baixe Website Auditor

Use ferramentas geradoras para validar arquivos técnicos

Além disso, o WebSite Auditor também verifica a disponibilidade do arquivo robots.txt e do mapa do site.

Permite editar os arquivos técnicos nas ferramentas do site e enviá-los diretamente para o seu site com as configurações adequadas.

Ferramenta geradora de Sitemap no Website Auditor
Criando um mapa do site no WebSite Auditor

Você não precisará observar nenhuma sintaxe especial ao editar os arquivos – basta selecionar os URLs necessários e aplicar as regras necessárias. Em seguida, clique para gerar os arquivos e salvá-los em seu computador ou carregá-los no site via FTP.

Ferramenta geradora de Robots.txt no WebSite Auditor
Editando diretivas de robôs no WebSite Auditor
Baixe Website Auditor

5. Verifique suas páginas no Search Console

Mais uma ótima ferramenta para descobrir todas as páginas do seu site é o Google Search Console. Isso o ajudará a verificar a indexação das páginas e a revelar os problemas que impedem os bots de pesquisa de indexar corretamente esses URLs.

Como

Você pode obter um detalhamento de todas as suas páginas por status de indexação, incluindo aquelas páginas que ainda não foram indexadas.

Veja como encontrar todas as páginas do seu site com o Search Console:

1. Acesse o relatório Indexação e clique em Visualizar dados sobre páginas indexadas. Você verá todas as páginas que o bot de pesquisa rastreou pela última vez em seu site. Porém, lembre-se que haverá um limite na tabela de até 1.000 URLs. Existe um filtro rápido para classificar todas as páginas conhecidas de todos os URLs enviados, etc.

Todas as páginas indexadas no Google Search Console
Todas as páginas indexadas no Search Console

2. Ative a guia Não indexado. Abaixo, a ferramenta fornece detalhes sobre por que cada URL não é indexado.

Páginas que não foram indexadas pelo Google
Todas as páginas do site que o Google ainda não indexou

Clique em cada motivo e veja os URLs afetados pelo problema.

A dificuldade é que você obterá não apenas as URLs principais de suas páginas, mas também links âncora, páginas de paginação, parâmetros de URL e outros tipos de lixo que requerem classificação manual. E a lista pode estar incompleta devido ao limite de 1.000 entradas na tabela.

Entre outras coisas, lembre-se de que diferentes mecanismos de pesquisa podem ter outras regras de indexação e você precisa usar suas ferramentas para webmasters para encontrar e lidar com esses problemas. Por exemplo, use as ferramentas Bing Webmaster, Yandex Webmaster, Naver Webmaster e outras para verificar a indexação nos respectivos mecanismos de pesquisa.

6. Utilize o Google Analytics

Acho que o Google Analytics é uma das plataformas analíticas mais utilizadas, então qualquer proprietário ou editor de site está familiarizado com ele. O bom e velho Universal Analytics será substituído em breve pelo Google Analytics 4. Então, vamos ver as duas versões da ferramenta.

Como

Para coletar as páginas do seu site no Universal Analytics do Google, siga estas etapas:

  1. Na sua conta do Google Analytics, selecione o site que deseja explorar.
  2. Vá para o módulo Comportamento na barra lateral esquerda.
  3. Selecione Conteúdo do site > guia Todas as páginas. Agora você deve ver uma lista de todas as páginas do seu site que foram rastreadas pelo Google Analytics.
Ver todas as suas páginas no Universal Analytics do Google
Ver todas as suas páginas no Universal Analytics

Você verá as páginas com estatísticas de comportamento do usuário, como visualizações de página, taxa de rejeição, tempo médio na página, etc. Preste atenção às páginas com o menor número de visualizações de página em todos os tempos - provavelmente, são páginas órfãs.

Para recriar um fluxo semelhante no Google Analytics 4:

  1. Vá para Relatórios > módulo Engajamento.
  2. Selecione a seção Páginas e telas.
  3. Altere a dimensão de Título da página e classe de tela para Caminho da página e classe de tela. Agora você deve ver uma tabela mostrando todos os URLs do seu site que foram rastreados pelo Google Analytics 4.
Obtendo todas as páginas no Google Analytics 4
Encontrando todas as páginas do seu site no Google Analytics 4

Assim como no Console, incluirá parâmetros de URL e similares. Você pode exportar a lista de páginas como CSV ou planilha Excel clicando no botão Exportar na parte superior da página.

7. Analise os registros

Alguns sites são realmente enormes e até mesmo spiders de SEO poderosos podem ter dificuldade em rastrear todas as suas páginas. A análise de log é uma boa opção para localizar e examinar todas as páginas de grandes sites.

Ao analisar o arquivo de log do seu site, você pode identificar todas as páginas que recebem visitantes da web, suas respostas HTTP, a frequência com que os rastreadores visitam as páginas e assim por diante.

Os arquivos de log ficam em seu servidor e você precisará do nível de acesso necessário para recuperá-los e de uma ferramenta de análise de log. Portanto, este método é mais adequado para pessoas, webmasters ou desenvolvedores que entendem de tecnologia.

Como

Aqui estão as etapas para encontrar todas as páginas do seu site usando análise de log:

  1. Baixe os logs do servidor do seu site e abra-os com a ferramenta de análise de log de sua preferência.
  2. Filtre os dados de log por código de status HTTP. Isso o ajudará a identificar todas as páginas do seu site que atraíram alguns visitantes.
  3. Procure entradas de log com um código de status 200 que indica que a página foi acessada com sucesso. Você também pode filtrar por outros códigos de status para encontrar páginas que foram redirecionadas, como redirecionamentos 301 ou 302.
  4. Assim como acontece com outras ferramentas, você pode exportar a lista de páginas para uma planilha ou outro formato para análise posterior.

8. Trabalhe com seu CMS

Outra forma de encontrar todas as páginas de um site é consultar o seu Sistema de gerenciamento de conteúdo (CMS), pois ele conterá todos os URLs do site que você criou. Um exemplo de CMSs são Wordpress ou Squarespace que contêm ferramentas de construção de sites para edição de conteúdo em diferentes domínios – notícias e blogs, e-commerce, sites corporativos e similares.

Como

Embora os CMSs tenham aparência bastante diferente, as etapas gerais se aplicam à maioria deles:

  1. Faça login no painel do CMS e navegue até a página ou seção de postagem.
  2. Procure uma lista de todas as páginas ou postagens do seu site – em uma barra lateral, submenu ou página separada.
  3. Clique no link Todas as páginas ou Todas as postagens para ver uma lista de todas as páginas do seu site.

Lembre-se de que pode haver categorias, postagens de blog ou landing pages, que são diferentes tipos de páginas que podem pertencer a diferentes seções do CMS.

Encontrando todas as páginas do seu site no WordPress CMS
Encontrando todas as páginas do seu site no WordPress CMS

A maioria dos CMSs permite classificar os URLs pela data de criação, autor, categoria ou algum outro critério. Você também pode usar a caixa de pesquisa para filtrar a lista de páginas por palavras-chave ou títulos.

Resumo

Para encontrar todas as páginas de um site, existe uma grande variedade de métodos e ferramentas. O que você escolhe depende do propósito e do escopo do trabalho a ser realizado.

Espero que você tenha achado esta lista útil e agora consiga coletar facilmente todas as páginas do seu site, mesmo se você for novo no SEO.

Se você tiver alguma dúvida ainda não respondida, sinta-se à vontade para perguntar em nosso grupo de usuários no Facebook.

Article stats:
Linking websites N/A
Backlinks N/A
InLink Rank N/A
Dados de: ferramenta de verificação de backlinks.
Tem perguntas ou comentários?