Comment trouver toutes les pages d'un site Web – 8 méthodes simples

Comment retrouver toutes les pages existantes sur un site internet? La première idée qui vient à l’esprit est de rechercher sur Google le nom de domaine du site.

Mais qu’en est-il des URL qui ne parviennent pas à être indexées? Ou des pages orphelines? Ou un cache Web?

Trouver toutes les pages d'un site Web est assez simple ; cependant, cela nécessite une attention particulière étant donné que certaines pages sont cachées aux yeux des visiteurs ou des robots de recherche. Ce guide présente 8 méthodes différentes pour retrouver toutes les pages du site ainsi que les outils à utiliser.

Pourquoi vous devrez peut-être trouver toutes les pages d'un site Web

Il existe de nombreuses raisons pour lesquelles vous devrez peut-être rechercher toutes les pages d'un site Web. Pour n'en nommer que quelques-uns :

1. Pour auditer le site Web d'un nouveau client et détecter les problèmes d'indexation.

Des problèmes techniques tels que des liens rompus, des erreurs de serveur, une vitesse de page lente ou une mauvaise utilisation mobile empêchent Google d'indexer les pages. Ainsi, les audits de site révèlent le nombre d’URL d’un site et lesquelles d’entre elles posent problème. En fin de compte, cela aide les référenceurs à estimer la portée des travaux futurs dans le projet.

2. Détecter les pages de votre propre site qui ne sont pas indexées par erreur.

Si votre site Web contient du contenu en double, Google risque de ne pas indexer tous les doublons. Il en va de même pour les longues chaînes de redirection et les URL 404: s’il y en a beaucoup sur un site, le budget de crawl est dépensé en vain. En conséquence, les robots de recherche visitent le site moins souvent et celui-ci sera globalement moins bien indexé. C’est pourquoi des audits réguliers sont nécessaires, même si quelque chose semble généralement normal.

3. Pour repérer les pages indexées qui ne sont pas destinées à l'indexation Google.

Certaines pages ne sont pas nécessaires dans l'index de recherche – par exemple, les pages de connexion pour les administrateurs, les pages en développement ou les paniers d'achat. Néanmoins, ces pages peuvent être indexées contre votre gré en raison de règles contradictoires ou d'erreurs dans vos fichiers techniques. Par exemple, si vous comptez uniquement sur robots.txt pour interdire une page, l'URL peut toujours être explorée et apparaître dans la recherche.

4. Pour rechercher les pages obsolètes et planifier une refonte complète du contenu.

Google vise à fournir les meilleurs résultats possibles à ses utilisateurs. Par conséquent, si votre contenu est de mauvaise qualité, léger ou en double, il risque de ne pas être indexé. Il est bon d'avoir une liste de toutes vos pages pour savoir quels sujets vous n'avez pas encore abordés. Avec tout votre inventaire de contenu à portée de main, vous serez en mesure de planifier votre stratégie de contenu plus efficacement.

5. Pour trouver les pages orphelines et planifier des stratégies de liaison.

Les orphelines sont des pages sans liens entrants, c'est pourquoi les utilisateurs et les robots de recherche les visitent rarement ou ne les visitent pas du tout. Les pages orphelines peuvent être indexées dans Google et attirer des utilisateurs accidentels. Cependant, un grand nombre de pages orphelines sur un site Web gâche son autorité: la structure du site n'est pas claire, les pages peuvent paraître inutiles ou sans importance, et tout le bois mort nuira à la visibilité totale du site Web.

6. Repenser un site internet et changer son architecture.

Pour planifier une refonte de site Web et améliorer l’expérience utilisateur, vous devrez d’abord trouver toutes ses pages et les mesures pertinentes.

Une structure claire et organisée avec une hiérarchie logique de toutes les pages peut aider les moteurs de recherche à trouver plus facilement votre contenu. Ainsi, toutes les URL importantes doivent être accessibles en un, deux ou trois clics depuis la page d’accueil.

Bien que l'expérience utilisateur n'affecte pas l'exploration et le classement, elle est importante pour les signaux de qualité de votre site Web: les achats réussis, le nombre de visiteurs récurrents, les pages vues par visiteur et bien d'autres mesures montrent à quel point votre site Web est utile aux visiteurs.

7. Analyser les sites Web des concurrents.

En auditant les pages de vos concurrents, vous pouvez approfondir leurs stratégies de référencement : révéler leurs pages les plus fréquentées, les pages les plus liées aux pages, les meilleures sources de référencement, etc. De cette façon, vous pouvez obtenir des informations précieuses et apprendre qui fonctionne bien pour vos concurrents.. Vous pouvez emprunter leurs techniques et comparer les résultats pour voir comment améliorer votre propre site Web.

Il existe de nombreuses façons de rechercher toutes les pages d'un site Web, mais pour chaque cas, vous pouvez utiliser une méthode différente pour y parvenir. Voyons donc les avantages et les inconvénients de chaque méthode et comment l’utiliser sans problème.

1. Recherchez-le auprès des opérateurs de recherche Google

La recherche Google peut aider à trouver rapidement toutes les pages d'un site Web. Entrez simplement le « site: votre domaine » dans la barre de recherche et Google vous montrera toutes les pages du site qu'il a indexé.

L'opérateur de recherche de site renvoie toutes les URL que Google trouve sur votre site Web
Les résultats de site:search affichent toutes les URL que Google a trouvées sur votre site

Cependant, il est important de rappeler que les résultats de recherche affichés par l'opérateur « site: » ne reflètent pas nécessairement le nombre précis de pages indexées de votre site.

Premièrement, rien ne garantit que Google indexera chaque page immédiatement après l’avoir explorée. Il peut exclure certaines pages de l'index pour diverses raisons: par exemple, il considère certaines pages comme des doublons ou de mauvaise qualité.

Deuxièmement, l'opérateur de recherche « site : » peut également afficher les pages qui ont été supprimées de votre site Web, mais elles sont conservées sous forme de pages mises en cache ou archivées sur Google.

Par conséquent, la requête de recherche « site : » est un bon début pour avoir une idée approximative de la taille de votre site. Mais pour trouver le reste des pages qui pourraient manquer dans l'index, vous aurez besoin d'autres outils.

2. Vérifiez le fichier robots.txt

‌Robots.txt est un fichier technique qui indique aux robots de recherche comment explorer votre site Web, à l'aide des règles d'autorisation/interdiction pour des pages individuelles ou des répertoires entiers.

Ainsi, le fichier ne vous montrera pas toutes les pages de votre site. Cependant, il peut vous aider à localiser les pages dont l'accès est interdit aux robots de recherche.

Comment

Voici les étapes à suivre pour trouver les pages restreintes à l'aide de robots.txt :

  1. Recherchez le fichier robots.txt sur le site Web. Il se trouve généralement dans le répertoire racine, vous pouvez donc taper example.com/robots.txt, et il sera là.
  2. Ouvrez le fichier dans un éditeur de texte ou un navigateur.
  3. Regardez la ligne « User-agent » qui spécifie le robot du moteur de recherche auquel les règles suivantes s'appliquent.
  4. Recherchez les règles « Interdire ». Ces lignes spécifient les pages ou répertoires auxquels le robot du moteur de recherche n'est pas autorisé à accéder.
  5. Si vous en avez trouvé, examinez les URL et les répertoires bloqués.

Voici un exemple de directives robots pour YouTube.

Directives robots pour YouTube
Directives robots pour le site Web YouTube

Vérifiez comment cela fonctionne. Par exemple, la page d'inscription est interdite. Cependant, vous pouvez toujours l'obtenir lors d'une recherche sur Google – notez qu'aucune information descriptive n'est disponible pour la page.

Une page interdite par les directives des robots apparaît dans la recherche
Une page interdite par les directives robots apparaît dans les résultats de recherche

Il est nécessaire de revérifier vos règles robots.txt pour vous assurer que toutes vos pages sont correctement explorées. Ainsi, vous aurez peut-être besoin d'un outil tel que Google Search Console ou d'un robot d'exploration de site pour l'examiner. J'y reviendrai dans un instant.

Et jusqu'à présent, si vous souhaitez en savoir plus sur le but du fichier, lisez ce guide pour masquer les pages Web de l'indexation.

3. Examinez le plan du site

Un plan du site est un autre fichier technique que les webmasters utilisent pour une indexation appropriée du site. Ce document, souvent au format XML, répertorie toutes les URL d'un site Web qui doivent être indexées. Un plan du site est une source précieuse d'informations sur la structure et le contenu d'un site Web.

Les grands sites Web peuvent avoir plusieurs sitemaps: comme le fichier est limité en taille à 50 000 URL et 50 Mo, il peut être divisé en plusieurs et inclure un sitemap distinct pour les répertoires, les images, les vidéos, etc. Plateformes de commerce électronique comme Shopify ou Wix générer automatiquement des plans de site. Pour d’autres, il existe des plugins ou des outils générateurs de plan de site pour créer les fichiers.

Comment

Entre autres choses, le plan du site d'un site Web vous permet de retrouver facilement toutes les pages de celui-ci et de vous assurer qu'elles sont indexées:

  1. Recherchez un lien vers le plan du site dans le pied de page ou l’en-tête du site Web. Le plan du site se trouve généralement sur votredomaine.com/sitemap.xml ou sur une URL similaire. Vous pouvez également consulter le fichier du robot car c'est l'endroit le plus courant pour inclure une référence au plan du site.
  2. Ouvrez le plan du site dans un éditeur de texte ou une visionneuse XML.
  3. Regardez les balises <loc> dans le fichier de plan du site. Ces balises contiennent l'URL de chaque page du site Web.
  4. Vous pouvez copier les URL des balises <loc> dans une feuille de calcul ou un document texte.
Un exemple de plan de site avec toutes les sous-catégories
Un exemple de plusieurs plans de site répertoriant toutes les pages d'un site Web

Vous devriez également revérifier l'exactitude de votre plan de site de temps en temps, car il peut également présenter des problèmes : il peut être vide, répondre avec un code 404, mis en cache depuis longtemps, ou il peut simplement contenir les mauvaises URL dont vous ne voulez pas. à apparaître dans l'index.

Une bonne méthode pour valider votre plan de site consiste à utiliser un outil d'exploration de site Web. Il existe plusieurs outils d'exploration de sites Web disponibles en ligne, et l'un d'eux est WebSite Auditor, un puissant outil de référencement pour les audits à l'échelle du site. Voyons comment il peut vous aider à retrouver toutes les pages d'un site Internet et à valider les dossiers techniques.

4. Explorez avec une araignée SEO

Cette étape nécessite WebSite Auditor. Vous pouvez le télécharger dès maintenant gratuitement.
Télécharger WebSite Auditor

Comment

Voici comment utiliser WebSite Auditor pour retrouver toutes les pages de votre site internet:

  1. Lancez WebSite Auditor et saisissez l'URL de votre site Web pour créer un nouveau projet.
  2. Cochez la case Paramètres avancés et terminez la configuration en indiquant les paramètres d'analyse exacts. (Si vous ne savez pas encore quoi rechercher, ignorez la configuration avancée et laissez l'araignée SEO explorer votre site avec les paramètres par défaut.)
  3. Dans les paramètres avancés, vous disposez de plusieurs options pour vous assurer que le robot d'exploration du site Web trouve toutes les pages. Par exemple, cochez la case Rechercher les pages orphelines et toutes les URL sans liens entrants seront collectées.

Vous pouvez spécifier les instructions pour un certain robot de recherche ou agent utilisateur ; demandez au robot d'ignorer les paramètres d'URL, d'explorer un site protégé par mot de passe, d'explorer un domaine seul ou avec des sous-domaines, etc.

Configuration du robot d'exploration Web pour rechercher toutes les pages, y compris les URL orphelines
Configuration du robot d'exploration Web pour trouver toutes les pages, y compris celles qui ne sont liées à aucune autre page

Après avoir cliqué sur OK, l'outil auditera votre site et collectera toutes les pages dans la section Structure du site > Pages.

WebSite Auditor vous aidera à revérifier si les URL sont correctement optimisées pour les moteurs de recherche. Vous apprendrez à connaître l'outil en quelques minutes, car la configuration est rapide et l'interface est assez intuitive.

Voici un petit guide vidéo pour vous :

Voyons ce que vous pouvez obtenir de l'outil d'exploration de sites Web.

Collectez la liste des pages avec toutes leurs ressources

Dans l'onglet Toutes les pages, vous pouvez trier la liste par URL, titre ou toute autre colonne en cliquant sur l'en-tête de la colonne.

Obtenez la liste de toutes les pages contenant toutes les ressources dans la section Structure du site > Pages
Obtenez la liste de toutes les pages contenant toutes les ressources dans la section Structure du site > Pages
Télécharger Website Auditor

Vous pouvez utiliser le champ de recherche pour filtrer la liste des pages par mot-clé ou URL de page. Cela peut être utile si vous recherchez une page ou un groupe de pages spécifique.

En outre, vous pouvez ajouter des colonnes visibles pour présenter plus d'informations sur cette page, telles que des balises méta, des titres, des mots-clés, des redirections ou tout autre élément de référencement sur la page.

Enfin, vous pouvez cliquer sur n'importe quelle URL pour examiner toutes les ressources de la page dans la moitié inférieure de l'espace de travail.

Toutes les données peuvent être traitées dans l'outil ou copiées/exportées au format CSV ou Excel.

Obtenez des listes de pages affectées par des erreurs techniques

La section Audit du site vous montrera des listes de pages divisées par types d'erreurs, telles que :

  • Problèmes en double
  • Redirections défectueuses et chaînes de redirection
  • Pages dont l'indexation est restreinte
  • Ressources brisées
Retrouvez toutes les pages du site classées par type d'erreurs
Retrouvez toutes les pages du site classées par type d'erreurs
Télécharger Website Auditor

Sous chaque type de problème, vous verrez une explication de la raison pour laquelle ce facteur est important et quelques suggestions sur la façon de le résoudre.

Voir la structure visualisée du site

En outre, vous pouvez examiner votre plan de site visuel dans Structure du site > Visualisation qui montre les relations entre toutes vos URL. La carte interactive vous permet d'ajouter ou de supprimer des pages et des liens pour ajuster la structure de votre site. Vous pouvez recalculer la valeur du PageRank interne et vérifier les pages vues (telles que suivies par votre Google Analytics).

Visualisation de la structure du site
Voir toutes les pages du site dans un plan du site visuel
Télécharger Website Auditor

Utiliser des outils générateurs pour valider les dossiers techniques

En plus de cela, WebSite Auditor vérifie également la disponibilité de votre fichier robots.txt et du plan du site.

Il vous permet de modifier les fichiers techniques dans les outils du site Web et de les télécharger directement sur votre site avec les paramètres appropriés.

Outil générateur de plan de site dans Website Auditor
Création d'un plan de site dans WebSite Auditor

Vous n’aurez pas besoin d’observer de syntaxe particulière lors de l’édition des fichiers – sélectionnez simplement les URL requises et appliquez les règles nécessaires. Ensuite, cliquez pour générer les fichiers et les enregistrer sur votre ordinateur ou les télécharger sur le site via FTP.

Outil générateur de Robots.txt dans WebSite Auditor
Modification des directives des robots dans WebSite Auditor
Télécharger Website Auditor

5. Vérifiez vos pages dans la Search Console

Google Search Console est un autre excellent outil pour découvrir toutes les pages de votre site. Cela vous aidera à vérifier l'indexation des pages et à révéler les problèmes qui empêchent les robots de recherche d'indexer correctement ces URL.

Comment

Vous pouvez obtenir une répartition de toutes vos pages selon leur statut d'indexation, y compris les pages qui n'ont pas encore été indexées.

Voici comment trouver toutes les pages de votre site avec la Search Console :

1. Accédez au rapport d'indexation et cliquez sur Afficher les données sur les pages indexées. Vous verrez toutes les pages que le robot de recherche a explorées pour la dernière fois sur votre site Web. Cependant, n'oubliez pas qu'il y aura une limite dans le tableau pouvant aller jusqu'à 1 000 URL. Il existe un filtre rapide pour trier toutes les pages connues de toutes les URL soumises, etc.

Toutes les pages indexées dans Google Search Console
Toutes les pages indexées dans la Search Console

2. Activez l'onglet Non indexé. Ci-dessous, l'outil vous donne des détails sur les raisons pour lesquelles chaque URL n'est pas indexée.

Pages qui n'ont pas pu être indexées par Google
Toutes les pages du site que Google n'a pas encore indexées

Cliquez sur chaque raison et consultez les URL concernées par le problème.

La difficulté est que vous obtiendrez non seulement les URL principales de vos pages, mais également des liens d'ancrage, des pages de pagination, des paramètres d'URL et d'autres déchets nécessitant un tri manuel. Et la liste peut être incomplète en raison de la limite de 1 000 entrées dans le tableau.

Entre autres choses, gardez à l’esprit que différents moteurs de recherche peuvent avoir d’autres règles d’indexation et que vous devez utiliser leurs outils pour les webmasters pour rechercher et gérer ces problèmes. Par exemple, utilisez les outils Bing Webmaster, Yandex Webmaster, Naver Webmaster et autres pour vérifier l'indexation dans les moteurs de recherche respectifs.

6. Utilisez Google Analytics

Je suppose que Google Analytics est l’une des plateformes d’analyse les plus utilisées, donc tout propriétaire ou éditeur de site Web la connaît. Le bon vieux Universal Analytics va bientôt être remplacé par Google Analytics 4. Voyons donc les deux versions de l'outil.

Comment

Pour collecter les pages de votre site dans Universal Analytics de Google, procédez comme suit :

  1. Dans votre compte Google Analytics, sélectionnez le site Web que vous souhaitez explorer.
  2. Accédez au module Comportement dans la barre latérale de gauche.
  3. Sélectionnez Contenu du site > onglet Toutes les pages. Vous devriez maintenant voir une liste de toutes les pages de votre site Web qui ont été suivies par Google Analytics.
Voir toutes vos pages dans Universal Analytics de Google
Voir toutes vos pages dans Universal Analytics

Vous verrez les pages avec leurs statistiques de comportement des utilisateurs, telles que les pages vues, le taux de rebond, le temps moyen passé sur la page, etc. Faites attention aux pages avec le moins de pages vues au cours de tous les temps – ce sont probablement des pages orphelines.

Pour recréer un flux similaire dans Google Analytics 4 :

  1. Accédez au module Rapports > Engagement.
  2. Sélectionnez la section Pages et écrans.
  3. Modifiez la dimension de Titre de la page et classe d'écran en Chemin de page et classe d'écran. Vous devriez maintenant voir un tableau montrant toutes les URL de votre site Web qui ont été suivies par Google Analytics 4.
Obtenir toutes les pages dans Google Analytics 4
Trouver toutes les pages de votre site Web dans Google Analytics 4

Tout comme avec la console, elle inclura les paramètres d'URL, etc. Vous pouvez exporter la liste des pages au format CSV ou Excel en cliquant sur le bouton Exporter en haut de la page.

7. Analyser les journaux

Certains sites Web sont vraiment énormes, et même les puissants robots SEO peuvent avoir du mal à explorer toutes leurs pages. L'analyse des journaux est une bonne option pour rechercher et examiner toutes les pages de grands sites Web.

En analysant le fichier journal de votre site Web, vous pouvez identifier toutes les pages qui attirent des visiteurs du Web, leurs réponses HTTP, la fréquence à laquelle les robots visitent les pages, etc.

Les fichiers journaux reposent sur votre serveur et vous aurez besoin du niveau d'accès requis pour les récupérer ainsi que d'un outil d'analyse de journaux. Cette méthode est donc plus adaptée aux personnes férus de technologie, aux webmasters ou aux développeurs.

Comment

Voici les étapes pour trouver toutes les pages de votre site à l'aide de l'analyse des journaux :

  1. Téléchargez les journaux du serveur de votre site Web et ouvrez-les avec l'outil d'analyse des journaux de votre choix.
  2. Filtrez les données du journal par code d'état HTTP. Cela vous aidera à identifier toutes les pages de votre site Web qui ont attiré des visiteurs.
  3. Recherchez les entrées de journal avec un code d'état 200 qui indique que l'accès à la page a réussi. Vous pouvez également filtrer par d'autres codes de statut pour rechercher les pages qui ont été redirigées, telles que les redirections 301 ou 302.
  4. Tout comme avec d'autres outils, vous pouvez exporter la liste des pages vers une feuille de calcul ou un autre format pour une analyse plus approfondie.

8. Travaillez avec votre CMS

Une autre façon de trouver toutes les pages d'un site Web consiste à vous référer à votre système de gestion de contenu (CMS), car il contiendra toutes les URL du site Web que vous avez créé une fois. Un exemple de CMS est Wordpress ou Squarespace, qui contiennent des outils de création de sites Web pour l'édition de contenu dans différents domaines : actualités et blogs, commerce électronique, sites d'entreprise, etc.

Comment

Bien que les CMS soient assez différents en apparence, les étapes générales s'appliquent à la plupart d'entre eux :

  1. Connectez-vous à votre tableau de bord CMS et accédez à la page ou à la section de publication.
  2. Recherchez une liste de toutes les pages ou publications de votre site Web – dans une barre latérale, un sous-menu ou une page séparée.
  3. Cliquez sur le lien Toutes les pages ou Tous les articles pour afficher une liste de toutes les pages de votre site Web.

Gardez à l’esprit qu’il peut y avoir des catégories, des articles de blog ou des pages de destination, qui sont différents types de pages pouvant appartenir à différentes sections du CMS.

Trouver toutes les pages de votre site dans le CMS WordPress
Trouver toutes les pages de votre site dans le CMS WordPress

La plupart des CMS permettent de trier les URL par date de création, auteur, catégorie ou d'autres critères. Vous pouvez également utiliser le champ de recherche pour filtrer la liste des pages par mots-clés ou titres.

Résumé

Pour retrouver toutes les pages d’un site Internet, il existe un large éventail de méthodes et d’outils. Celui que vous choisirez dépend du but et de l’étendue des travaux à réaliser.

J'espère que vous avez trouvé cette liste utile et que vous pourrez désormais collecter facilement toutes les pages de votre site, même si vous êtes nouveau dans le référencement.

Si vous avez une question sans réponse, n'hésitez pas à la poser dans notre groupe d'utilisateurs sur Facebook.

Article stats:
Linking websites N/A
Backlinks N/A
InLink Rank N/A
Données de: outil de vérification des backlinks.
Vous avez des questions ou des commentaires ?