148276
•
11 minutes de lecture
•
Comment retrouver toutes les pages existantes sur un site internet? La première idée qui vient à l’esprit est de rechercher sur Google le nom de domaine du site.
Mais qu’en est-il des URL qui ne parviennent pas à être indexées? Ou des pages orphelines? Ou un cache Web?
Trouver toutes les pages d'un site Web est assez simple ; cependant, cela nécessite une attention particulière étant donné que certaines pages sont cachées aux yeux des visiteurs ou des robots de recherche. Ce guide présente 8 méthodes différentes pour retrouver toutes les pages du site ainsi que les outils à utiliser.
Voici comment trouver toutes les pages d'un site Web :
Il existe de nombreuses raisons pour lesquelles vous devrez peut-être rechercher toutes les pages d'un site Web. Pour n'en nommer que quelques-uns :
1. Pour auditer le site Web d'un nouveau client et détecter les problèmes d'indexation.
Des problèmes techniques tels que des liens rompus, des erreurs de serveur, une vitesse de page lente ou une mauvaise utilisation mobile empêchent Google d'indexer les pages. Ainsi, les audits de site révèlent le nombre d’URL d’un site et lesquelles d’entre elles posent problème. En fin de compte, cela aide les référenceurs à estimer la portée des travaux futurs dans le projet.
2. Détecter les pages de votre propre site qui ne sont pas indexées par erreur.
Si votre site Web contient du contenu en double, Google risque de ne pas indexer tous les doublons. Il en va de même pour les longues chaînes de redirection et les URL 404: s’il y en a beaucoup sur un site, le budget de crawl est dépensé en vain. En conséquence, les robots de recherche visitent le site moins souvent et celui-ci sera globalement moins bien indexé. C’est pourquoi des audits réguliers sont nécessaires, même si quelque chose semble généralement normal.
3. Pour repérer les pages indexées qui ne sont pas destinées à l'indexation Google.
Certaines pages ne sont pas nécessaires dans l'index de recherche – par exemple, les pages de connexion pour les administrateurs, les pages en développement ou les paniers d'achat. Néanmoins, ces pages peuvent être indexées contre votre gré en raison de règles contradictoires ou d'erreurs dans vos fichiers techniques. Par exemple, si vous comptez uniquement sur robots.txt pour interdire une page, l'URL peut toujours être explorée et apparaître dans la recherche.
4. Pour rechercher les pages obsolètes et planifier une refonte complète du contenu.
Google vise à fournir les meilleurs résultats possibles à ses utilisateurs. Par conséquent, si votre contenu est de mauvaise qualité, léger ou en double, il risque de ne pas être indexé. Il est bon d'avoir une liste de toutes vos pages pour savoir quels sujets vous n'avez pas encore abordés. Avec tout votre inventaire de contenu à portée de main, vous serez en mesure de planifier votre stratégie de contenu plus efficacement.
5. Pour trouver les pages orphelines et planifier des stratégies de liaison.
Les orphelines sont des pages sans liens entrants, c'est pourquoi les utilisateurs et les robots de recherche les visitent rarement ou ne les visitent pas du tout. Les pages orphelines peuvent être indexées dans Google et attirer des utilisateurs accidentels. Cependant, un grand nombre de pages orphelines sur un site Web gâche son autorité: la structure du site n'est pas claire, les pages peuvent paraître inutiles ou sans importance, et tout le bois mort nuira à la visibilité totale du site Web.
6. Repenser un site internet et changer son architecture.
Pour planifier une refonte de site Web et améliorer l’expérience utilisateur, vous devrez d’abord trouver toutes ses pages et les mesures pertinentes.
Une structure claire et organisée avec une hiérarchie logique de toutes les pages peut aider les moteurs de recherche à trouver plus facilement votre contenu. Ainsi, toutes les URL importantes doivent être accessibles en un, deux ou trois clics depuis la page d’accueil.
Bien que l'expérience utilisateur n'affecte pas l'exploration et le classement, elle est importante pour les signaux de qualité de votre site Web: les achats réussis, le nombre de visiteurs récurrents, les pages vues par visiteur et bien d'autres mesures montrent à quel point votre site Web est utile aux visiteurs.
7. Analyser les sites Web des concurrents.
En auditant les pages de vos concurrents, vous pouvez approfondir leurs stratégies de référencement : révéler leurs pages les plus fréquentées, les pages les plus liées aux pages, les meilleures sources de référencement, etc. De cette façon, vous pouvez obtenir des informations précieuses et apprendre qui fonctionne bien pour vos concurrents.. Vous pouvez emprunter leurs techniques et comparer les résultats pour voir comment améliorer votre propre site Web.
Il existe de nombreuses façons de rechercher toutes les pages d'un site Web, mais pour chaque cas, vous pouvez utiliser une méthode différente pour y parvenir. Voyons donc les avantages et les inconvénients de chaque méthode et comment l’utiliser sans problème.
La recherche Google peut aider à trouver rapidement toutes les pages d'un site Web. Entrez simplement le « site: votre domaine » dans la barre de recherche et Google vous montrera toutes les pages du site qu'il a indexé.
Cependant, il est important de rappeler que les résultats de recherche affichés par l'opérateur « site: » ne reflètent pas nécessairement le nombre précis de pages indexées de votre site.
Premièrement, rien ne garantit que Google indexera chaque page immédiatement après l’avoir explorée. Il peut exclure certaines pages de l'index pour diverses raisons: par exemple, il considère certaines pages comme des doublons ou de mauvaise qualité.
Deuxièmement, l'opérateur de recherche « site : » peut également afficher les pages qui ont été supprimées de votre site Web, mais elles sont conservées sous forme de pages mises en cache ou archivées sur Google.
Par conséquent, la requête de recherche « site : » est un bon début pour avoir une idée approximative de la taille de votre site. Mais pour trouver le reste des pages qui pourraient manquer dans l'index, vous aurez besoin d'autres outils.
Robots.txt est un fichier technique qui indique aux robots de recherche comment explorer votre site Web, à l'aide des règles d'autorisation/interdiction pour des pages individuelles ou des répertoires entiers.
Ainsi, le fichier ne vous montrera pas toutes les pages de votre site. Cependant, il peut vous aider à localiser les pages dont l'accès est interdit aux robots de recherche.
Comment
Voici les étapes à suivre pour trouver les pages restreintes à l'aide de robots.txt :
Voici un exemple de directives robots pour YouTube.
Vérifiez comment cela fonctionne. Par exemple, la page d'inscription est interdite. Cependant, vous pouvez toujours l'obtenir lors d'une recherche sur Google – notez qu'aucune information descriptive n'est disponible pour la page.
Il est nécessaire de revérifier vos règles robots.txt pour vous assurer que toutes vos pages sont correctement explorées. Ainsi, vous aurez peut-être besoin d'un outil tel que Google Search Console ou d'un robot d'exploration de site pour l'examiner. J'y reviendrai dans un instant.
Et jusqu'à présent, si vous souhaitez en savoir plus sur le but du fichier, lisez ce guide pour masquer les pages Web de l'indexation.
Un plan du site est un autre fichier technique que les webmasters utilisent pour une indexation appropriée du site. Ce document, souvent au format XML, répertorie toutes les URL d'un site Web qui doivent être indexées. Un plan du site est une source précieuse d'informations sur la structure et le contenu d'un site Web.
Les grands sites Web peuvent avoir plusieurs sitemaps: comme le fichier est limité en taille à 50 000 URL et 50 Mo, il peut être divisé en plusieurs et inclure un sitemap distinct pour les répertoires, les images, les vidéos, etc. Plateformes de commerce électronique comme Shopify ou Wix générer automatiquement des plans de site. Pour d’autres, il existe des plugins ou des outils générateurs de plan de site pour créer les fichiers.
Comment
Entre autres choses, le plan du site d'un site Web vous permet de retrouver facilement toutes les pages de celui-ci et de vous assurer qu'elles sont indexées:
Vous devriez également revérifier l'exactitude de votre plan de site de temps en temps, car il peut également présenter des problèmes : il peut être vide, répondre avec un code 404, mis en cache depuis longtemps, ou il peut simplement contenir les mauvaises URL dont vous ne voulez pas. à apparaître dans l'index.
Une bonne méthode pour valider votre plan de site consiste à utiliser un outil d'exploration de site Web. Il existe plusieurs outils d'exploration de sites Web disponibles en ligne, et l'un d'eux est WebSite Auditor, un puissant outil de référencement pour les audits à l'échelle du site. Voyons comment il peut vous aider à retrouver toutes les pages d'un site Internet et à valider les dossiers techniques.
Comment
Voici comment utiliser WebSite Auditor pour retrouver toutes les pages de votre site internet:
Vous pouvez spécifier les instructions pour un certain robot de recherche ou agent utilisateur ; demandez au robot d'ignorer les paramètres d'URL, d'explorer un site protégé par mot de passe, d'explorer un domaine seul ou avec des sous-domaines, etc.
Après avoir cliqué sur OK, l'outil auditera votre site et collectera toutes les pages dans la section Structure du site > Pages.
WebSite Auditor vous aidera à revérifier si les URL sont correctement optimisées pour les moteurs de recherche. Vous apprendrez à connaître l'outil en quelques minutes, car la configuration est rapide et l'interface est assez intuitive.
Voici un petit guide vidéo pour vous :
Voyons ce que vous pouvez obtenir de l'outil d'exploration de sites Web.
Dans l'onglet Toutes les pages, vous pouvez trier la liste par URL, titre ou toute autre colonne en cliquant sur l'en-tête de la colonne.
Télécharger Website AuditorVous pouvez utiliser le champ de recherche pour filtrer la liste des pages par mot-clé ou URL de page. Cela peut être utile si vous recherchez une page ou un groupe de pages spécifique.
En outre, vous pouvez ajouter des colonnes visibles pour présenter plus d'informations sur cette page, telles que des balises méta, des titres, des mots-clés, des redirections ou tout autre élément de référencement sur la page.
Enfin, vous pouvez cliquer sur n'importe quelle URL pour examiner toutes les ressources de la page dans la moitié inférieure de l'espace de travail.
Toutes les données peuvent être traitées dans l'outil ou copiées/exportées au format CSV ou Excel.
La section Audit du site vous montrera des listes de pages divisées par types d'erreurs, telles que :
Sous chaque type de problème, vous verrez une explication de la raison pour laquelle ce facteur est important et quelques suggestions sur la façon de le résoudre.
En outre, vous pouvez examiner votre plan de site visuel dans Structure du site > Visualisation qui montre les relations entre toutes vos URL. La carte interactive vous permet d'ajouter ou de supprimer des pages et des liens pour ajuster la structure de votre site. Vous pouvez recalculer la valeur du PageRank interne et vérifier les pages vues (telles que suivies par votre Google Analytics).
Télécharger Website AuditorEn plus de cela, WebSite Auditor vérifie également la disponibilité de votre fichier robots.txt et du plan du site.
Il vous permet de modifier les fichiers techniques dans les outils du site Web et de les télécharger directement sur votre site avec les paramètres appropriés.
Vous n’aurez pas besoin d’observer de syntaxe particulière lors de l’édition des fichiers – sélectionnez simplement les URL requises et appliquez les règles nécessaires. Ensuite, cliquez pour générer les fichiers et les enregistrer sur votre ordinateur ou les télécharger sur le site via FTP.
Télécharger Website AuditorGoogle Search Console est un autre excellent outil pour découvrir toutes les pages de votre site. Cela vous aidera à vérifier l'indexation des pages et à révéler les problèmes qui empêchent les robots de recherche d'indexer correctement ces URL.
Comment
Vous pouvez obtenir une répartition de toutes vos pages selon leur statut d'indexation, y compris les pages qui n'ont pas encore été indexées.
Voici comment trouver toutes les pages de votre site avec la Search Console :
1. Accédez au rapport d'indexation et cliquez sur Afficher les données sur les pages indexées. Vous verrez toutes les pages que le robot de recherche a explorées pour la dernière fois sur votre site Web. Cependant, n'oubliez pas qu'il y aura une limite dans le tableau pouvant aller jusqu'à 1 000 URL. Il existe un filtre rapide pour trier toutes les pages connues de toutes les URL soumises, etc.
2. Activez l'onglet Non indexé. Ci-dessous, l'outil vous donne des détails sur les raisons pour lesquelles chaque URL n'est pas indexée.
Cliquez sur chaque raison et consultez les URL concernées par le problème.
La difficulté est que vous obtiendrez non seulement les URL principales de vos pages, mais également des liens d'ancrage, des pages de pagination, des paramètres d'URL et d'autres déchets nécessitant un tri manuel. Et la liste peut être incomplète en raison de la limite de 1 000 entrées dans le tableau.
Entre autres choses, gardez à l’esprit que différents moteurs de recherche peuvent avoir d’autres règles d’indexation et que vous devez utiliser leurs outils pour les webmasters pour rechercher et gérer ces problèmes. Par exemple, utilisez les outils Bing Webmaster, Yandex Webmaster, Naver Webmaster et autres pour vérifier l'indexation dans les moteurs de recherche respectifs.
Je suppose que Google Analytics est l’une des plateformes d’analyse les plus utilisées, donc tout propriétaire ou éditeur de site Web la connaît. Le bon vieux Universal Analytics va bientôt être remplacé par Google Analytics 4. Voyons donc les deux versions de l'outil.
Comment
Pour collecter les pages de votre site dans Universal Analytics de Google, procédez comme suit :
Vous verrez les pages avec leurs statistiques de comportement des utilisateurs, telles que les pages vues, le taux de rebond, le temps moyen passé sur la page, etc. Faites attention aux pages avec le moins de pages vues au cours de tous les temps – ce sont probablement des pages orphelines.
Pour recréer un flux similaire dans Google Analytics 4 :
Tout comme avec la console, elle inclura les paramètres d'URL, etc. Vous pouvez exporter la liste des pages au format CSV ou Excel en cliquant sur le bouton Exporter en haut de la page.
Certains sites Web sont vraiment énormes, et même les puissants robots SEO peuvent avoir du mal à explorer toutes leurs pages. L'analyse des journaux est une bonne option pour rechercher et examiner toutes les pages de grands sites Web.
En analysant le fichier journal de votre site Web, vous pouvez identifier toutes les pages qui attirent des visiteurs du Web, leurs réponses HTTP, la fréquence à laquelle les robots visitent les pages, etc.
Les fichiers journaux reposent sur votre serveur et vous aurez besoin du niveau d'accès requis pour les récupérer ainsi que d'un outil d'analyse de journaux. Cette méthode est donc plus adaptée aux personnes férus de technologie, aux webmasters ou aux développeurs.
Comment
Voici les étapes pour trouver toutes les pages de votre site à l'aide de l'analyse des journaux :
Une autre façon de trouver toutes les pages d'un site Web consiste à vous référer à votre système de gestion de contenu (CMS), car il contiendra toutes les URL du site Web que vous avez créé une fois. Un exemple de CMS est Wordpress ou Squarespace, qui contiennent des outils de création de sites Web pour l'édition de contenu dans différents domaines : actualités et blogs, commerce électronique, sites d'entreprise, etc.
Comment
Bien que les CMS soient assez différents en apparence, les étapes générales s'appliquent à la plupart d'entre eux :
Gardez à l’esprit qu’il peut y avoir des catégories, des articles de blog ou des pages de destination, qui sont différents types de pages pouvant appartenir à différentes sections du CMS.
La plupart des CMS permettent de trier les URL par date de création, auteur, catégorie ou d'autres critères. Vous pouvez également utiliser le champ de recherche pour filtrer la liste des pages par mots-clés ou titres.
Pour retrouver toutes les pages d’un site Internet, il existe un large éventail de méthodes et d’outils. Celui que vous choisirez dépend du but et de l’étendue des travaux à réaliser.
J'espère que vous avez trouvé cette liste utile et que vous pourrez désormais collecter facilement toutes les pages de votre site, même si vous êtes nouveau dans le référencement.
Si vous avez une question sans réponse, n'hésitez pas à la poser dans notre groupe d'utilisateurs sur Facebook.