31187
•
17 minutes de lecture
•
L'indexation sémantique latente est une technique de recherche d'informations inventée bien avant l'arrivée d'Internet. À un moment donné, lorsque Google a commencé à améliorer ses algorithmes de classement, une controverse a éclaté sur les mots-clés LSI et sur leur intérêt pour le référencement des sites Web.
Dans cet article, je m'attarderai sur les origines de l'indexation sémantique latente et le concept de mots-clés LSI. Et je vais montrer quelques outils générateurs de mots clés LSI à utiliser dans la rédaction. Apprécier!
L'indexation sémantique latente, en abrégé LSI, est une technique mathématique qui permet de rechercher des relations entre les mots dans une collection de documents. Grâce à LSI, nous pouvons comparer une douzaine de textes et conclure que certains d'entre eux sont similaires par sujet. L’algorithme suscite des similitudes même si le mot-clé du sujet principal n’est pas utilisé directement dans certains textes.
Autrement dit,
Le besoin d'analyse sémantique latente est apparu à l'époque où les capacités informatiques augmentaient et où les programmeurs cherchaient à améliorer l'accès des utilisateurs à l'information. Le traitement de l'information liée au texte exigeait une analyse sémantique plus efficace. La technique LSI visait à résoudre plusieurs problèmes d’analyse de texte, à savoir la synonymie et la polysémie.
Que sont les synonymes?
La synonymie est un terme linguistique décrivant l'existence de mots différents pour une même chose ou un même concept. Par exemple, pour le chemin que vous parcourez, vous disposez d'un certain nombre de mots pour le décrire comme un itinéraire, une route, un trajet, un passage.
Qu’est-ce que la polysémie?
La polysémie est un terme linguistique désignant un mot ayant plusieurs significations. Les polysèmes ont néanmoins des significations différentes, mais liées. Prenez le mot conduire : vous pouvez conduire un véhicule, ou vous pouvez reconduire votre ami chez lui depuis un pub, ou vous pouvez simplement conduire pendant un long moment. Une autre chose est que vous pouvez rendre quelqu'un fou. Le mot peut désigner une détermination, un trajet, un large laissez-passer pour les véhicules, une partie informatique, etc.
Qu'est-ce que l'homonymie?
Un phénomène légèrement différent est l'homonymie lorsque les mots s'écrivent de la même manière (homographes) ou sonnent de la même manière (homophones), mais désignent des concepts différents, sans lien d'origine. Par exemple, il faut être ou ne pas être comme verbe, et il y a une abeille comme insecte.
Ces phénomènes linguistiques sont le moteur de tous les jeux de mots et de tous les humours en art et en littérature.
Pourtant, la synonymie et la polysémie sont la principale raison pour laquelle la correspondance exacte des mots clés ne convient pas aux moteurs de recherche.
LSI révèle des structures sémantiques sous-jacentes qui peuvent être cachées ou obscurcies en raison de la variabilité de la formulation. Cette technique permet de trouver des similitudes entre plusieurs documents d'un ensemble de textes et de récupérer les plus pertinents d'entre eux pour la recherche du chercheur.
LSI est une technologie brevetée, publiée en 1988 (et le brevet a expiré en 2008).
LSI utilise une matrice terme-document et la décomposition en valeurs singulières (SVD), une technique courante d'algèbre linéaire, pour apprendre les corrélations conceptuelles dans un corps de textes. À moins que vous ne soyez familier avec les opérations sur les matrices et les vecteurs propres, il faudra du temps pour comprendre comment cela fonctionne, mais voici un petit essai.
Les calculs identifient les cooccurrences dans le corpus des textes, permettant de révéler des concepts communs à plusieurs documents du recueil de textes. L'avantage du LSI est qu'il aide à éliminer le bruit et à transformer une matrice TDM très clairsemée en une matrice approchée de bas rang qui révèle des structures communes. Les inconvénients du LSI sont la complexité des calculs.
Il s'agit d'une animation d'un exemple LSA de l'introduction aux didacticiels de modélisation thématique.
LSI peut être utilisé pour comparer des termes entre eux, des documents entre eux et des termes entre eux. Dans un cas plus spécifique, il s'agit de trouver les termes voisins (ce sont les termes les plus proches par leur poids), en trouvant un groupe de mots étroitement liés à un concept. Il peut s'agir non seulement de synonymes, mais aussi d'opposés, ou simplement de mots qui vont souvent de pair avec le sujet principal. Grâce au regroupement de mots que fait LSI, il est efficace pour la recherche et la catégorisation de documents.
Les mots-clés LSI sont des mots sémantiquement liés au mot-clé du sujet principal de la page et peuvent être trouvés dans une variété de textes similaires.
Pour une compréhension simple de ce que sont les mots-clés LSI, examinons une requête aléatoire, par exemple « changement climatique ». Tout d’abord, pensez aux associations que vous faites avec le mot expression.
Si vous le tapez dans la barre de recherche, vous obtiendrez un tas de pages de toutes sortes. Google extrait la définition du terme de Wikipédia dans un extrait de code, mettant en évidence en caractères gras les termes les plus importants associés au changement climatique : « fonte des glaces », « réchauffement des océans », « élévation du niveau de la mer » et « acidification des océans ».
En bas de la page des résultats de recherche, nous trouverons quelques termes plus pertinents, tels que « réchauffement climatique », « émissions de gaz à effet de serre », etc. Ce sont des mots et des expressions qui apparaissent à côté de notre mot-clé principal dans la plupart des textes.
La question délicate à propos de LSI est...
Pour tous ceux qui demandent si Google utilise des mots-clés LSI, il y a une courte réponse du représentant de Google, John Mueller, une fois pour toutes :
Alors pourquoi Google est-il associé à l’analyse sémantique latente? Nous savons avec certitude que le moteur de recherche de Google distingue les polysèmes et les synonymes. Pour les requêtes populaires, au moins plusieurs résultats sur la SERP doivent couvrir à peu près le même aspect du sujet, puisque Google réussit à identifier le mot-clé et à distinguer les polysèmes (bien sûr lorsque vous le précisez mais aussi en fonction de votre historique de recherche), et même à interpréter le intention de la requête pour tirer les textes les plus pertinents.
De plus, chaque jour, Google obtient 15 % de recherches qu'il n'a jamais rencontrées auparavant. Comment les gère-t-il?
La vérité est qu’il est difficile de mentionner un document de recherche Google sur les mots-clés LSI montrant à quel stade LSI aurait pu être implémenté dans ses algorithmes. Bien sûr, Google utilise aujourd’hui des algorithmes de traitement du langage naturel plus avancés pour analyser le Web en constante expansion. Bill Slawski explique ici clairement pourquoi Google utilise à peine LSI pour la recherche et cite des brevets datant de 2017, indiquant à titre d'exemple qu'un nouvel algorithme de Google, RankBrain, est basé sur une approche vectorielle de mots.
Depuis les dernières mises à jour algorithmiques, Google utilise BERT pour améliorer la pertinence des résultats de recherche par rapport aux requêtes des utilisateurs. Le réseau neuronal pour le traitement du langage naturel est utilisé pour le classement des passages ou pour comprendre la sémantique profonde des vidéos, ce qui semble beaucoup plus compliqué que le LSI.
Lecture connexe MUM de Google : mises à jour de recherche et implications pour le référencement
LSI a été inventé au tout début d’Internet. Pour le Web aussi grand qu’il est aujourd’hui, LSI n’est pas pratique, et encore moins suffisant.
Une chose à garder à l'esprit est que LSI n'est qu'une des nombreuses techniques d'analyse sémantique, aux côtés de l'analyse sémantique latente probabiliste, de l'analyse en composantes principales, de l'allocation de Dirichlet latente, de Word2Vec, etc.
Bien que la technique LSI soit considérée comme trop ancienne et trop simple pour les besoins de recherche modernes, le terme « mots-clés LSI » est utilisé par les spécialistes du marketing de contenu pour décrire l'étendue du travail d'optimisation effectué sur une page. Alors, quelle est la valeur des mots-clés LSI pour le référencement?
Le principal avantage des mots-clés LSI est que vous pouvez les utiliser pour améliorer le référencement sur la page. Les outils LSI ne visent pas à modifier les algorithmes de Google. Ils se concentrent sur l’analyse de texte pour trouver des mots et des expressions qui apparaissent naturellement côte à côte sur la base de textes déjà disponibles sur le SERP.
LSI vous permet d'enrichir le contexte avec des mots-clés sémantiquement liés. L'utilisation de mots-clés LSI devrait vous aider à créer le contexte naturel de la requête et à couvrir le sujet plus en profondeur. Vous pouvez le traiter comme une sorte d’aide à la rédaction de contenu.
Le terme « rédaction LSI » est utilisé dans le marketing de contenu pour désigner le processus d'ajout de termes associés à votre contenu. En gros, la rédaction SEO a tendance à s’éloigner des techniques de bourrage de mots clés obsolètes et contre nature. Il se concentre plutôt sur la création de contenu convivial : les rédacteurs doivent rédiger des textes de manière naturelle et apporter une valeur ajoutée aux utilisateurs (la même chose que recherchent les ingénieurs de recherche).
Ainsi, lorsque nous parlons de mots-clés LSI, nous entendons trouver des mots-clés associés pertinents qui peuvent être ajoutés pour améliorer le contenu. Dans ce cas, nous en parlons comme d’un concept marketing utilisé par les créateurs de contenu.
Tout d’abord, réfléchissez. Si vous êtes un expert, vous aurez plein d’idées à développer dans votre article. Et si vous êtes à court d'idées? Utilisez des outils de mots clés.
La première méthode qui vous vient à l’esprit lorsque vous souhaitez rechercher des mots-clés LSI consiste à utiliser les suggestions de mots-clés Google. Cependant, lorsque nous parlons des outils de mots-clés habituels de Google, nous ne pouvons pas les utiliser pour désigner des générateurs de mots-clés LSI, car les algorithmes de Google ne concernent pas l'indexation sémantique latente.
Bien que la saisie semi-automatique de Google soit sans aucun doute la meilleure source de découverte de mots-clés, ce n'est pas toujours ce que nous entendons par mots-clés LSI. En outre, notez la différence entre les mots-clés à longue traîne et les mots-clés sémantiques LSI. Les mots-clés à longue traîne intègrent déjà votre mot-clé principal, ils s'intégreront très probablement dans votre contenu et vous souhaiterez probablement les suivre en tant qu'expressions de mots-clés cibles. Alors que les mots-clés LSI peuvent même ne pas inclure du tout votre mot-clé cible.
Dans le SERP, vous verrez toujours le résultat de recherche universel connu sous le nom de boîte Les gens demandent également. Cet endroit est plus susceptible de vous proposer quelques excellents sujets sémantiquement liés.
Vous verrez plus de questions et de réponses pendant que vous déballerez la boîte. Plus vous voyez de questions, plus Google suggère de questions. Cependant, les sujets proposés s’éloigneront de plus en plus de votre thème principal.
Les indices trouvés dans la boîte PPA constituent un excellent choix de mots-clés LSI à optimiser pour la recherche vocale mobile et les boîtes FAQ.
Voici un autre outil générateur de mots clés gratuit de Google. En bas de la page des résultats de recherche, allez inspecter les résultats des recherches associées, les sujets qui se trouvent être les plus fréquents à côté de votre terme de recherche principal. Dans des recherches similaires, vous trouverez quelques sous-thèmes intéressants à ajouter à votre contenu principal et à approfondir votre article. Les synonymes et termes associés sont un bon moyen d’enrichir votre contenu.
Google Images est une autre méthode simple pour rechercher des mots-clés à l'aide d'étiquettes. L'outil suggère les mots-clés courts les plus populaires, étroitement liés par la sémantique au mot-clé cible, et représentés en abondance dans les résultats d'images.
Lecture connexe : 20+ outils de recherche de mots clés gratuits
Un simple outil générateur de mots-clés LSI pour la recherche universitaire est XLSTAT, un module complémentaire pour Excel. XLSTAT propose un essai gratuit de deux semaines pour l'essayer, ainsi qu'une feuille de calcul de démonstration, montrant comment appliquer LSI sur votre matrice de termes de document.
Tout d'abord, vous devrez créer votre DTM avec des valeurs binaires pour les occurrences de mots dans vos textes. Ensuite, avec XSTAT activé dans Excel, allez dans Fonctionnalités avancées (en appuyant sur le bouton +) et sélectionnez Text mining > Latent Semantic Analysis. Procédez à la définition des paramètres souhaités pour vos données, puis cliquez sur OK pour appliquer.
L'outil vous fournira la liste des sujets que l'outil LSI tire de vos données. Pour interpréter rapidement la qualité des résultats, l'outil génère un éboulis, mesurant l'importance des sujets via les valeurs propres et le pourcentage de variabilité cumulée. Il existe également des visualisations des relations entre termes et entre documents.
LSI Graph est un bel outil de mots clés sémantiques qui parle de lui-même. Il permet d'effectuer 10 recherches par jour gratuitement. Allez simplement sur le site Web, collez votre mot-clé de départ et vous obtiendrez une liste de mots-clés LSI, accompagnée de statistiques de référencement qui vous aident à choisir les expressions de mots-clés les plus prometteuses. Les résultats apporteront un tas d’idées pour enrichir votre contenu avec plus de sujets ou de fonctionnalités.
Dans LSI Graph, vous pouvez voir le volume de recherche pour le mot-clé, les coûts par clic et les tendances sur une période de temps. LSIGraph effectue une recherche de mots-clés LSI en utilisant sa propre mesure exclusive connue sous le nom de valeur sémantique latente (LSV). Dans l'espace de travail de droite, vous verrez le contenu le plus performant avec des liens actifs pour les consulter rapidement.
LSI Graph offre également des fonctionnalités premium, notamment la gestion groupée de mots clés et l'outil Semantic Writer. L'outil vous permet d'optimiser le contenu dans l'application, de générer des mots-clés LSI et de les voir à côté de votre contenu, de mesurer le nombre de mots, la densité des mots-clés, etc. En fait, le Semantic Writer offre un coup de main aux rédacteurs SEO, avec un accent particulier sur la recherche. Mots-clés LSI.
Keysearch est un autre outil gratuit pour découvrir des mots-clés LSI pour votre contenu. L'algorithme de recherche de mots-clés derrière l'outil parcourt la première page des résultats de recherche Google pour votre mot-clé principal et analyse le tout sur les pages de classement pour trouver les mots et les expressions les plus fréquemment utilisés.
Encore une fois, vous obtiendrez toutes vos statistiques de recherche de mots clés, telles que les tendances de recherche, les coûts CPC et même la force des domaines classés sur le SERP pour le mot clé, ainsi que leurs liens, leur trafic organique et leur popularité sur les réseaux sociaux.
Keysearch propose un outil Content Assistant qui utilise l'algorithme de la fonction d'analyse approfondie. Cela ajoute un autre niveau à la recherche de mots-clés LSI. L'outil comprend des recherches associées de Google ainsi que les mots-clés les mieux classés pour le premier résultat dans Google. De cette façon, vous trouvez les termes clés les plus rentables de la meilleure page qui attirent le plus de trafic organique vers le site Web.
Ainsi, Keysearch combine les fonctionnalités d'un outil de recherche de mots clés avec un outil de rédaction de contenu qui permet de créer du contenu basé sur l'analyse SERP. Il s'agit d'un moyen simple et facile de générer des mots-clés LSI à ajouter à votre contenu, extraits par analyse automatique des meilleurs résultats, des recherches associées de Google et des boîtes de questions.
Content Editor fait partie de WebSite Auditor, un outil du logiciel SEO PowerSuite qui combine les fonctions d'un robot d'exploration de site et d'une application d'optimisation de contenu en un seul. Pour la création de contenu, WebSite Auditor dispose d'un module séparé pour auditer les pages individuelles et de l' outil d'assistant d'écriture intelligent pour optimiser les pages dans l'application.
Pour rechercher des mots-clés LSI, lancez WebSite Auditor et accédez au module Page Audit > Content Editor. Appuyez sur le bouton + pour ajouter l'URL de la page que vous allez optimiser (la page existante ou la nouvelle), puis ajoutez votre mot-clé cible pour la page.
L'outil Content Editor analysera le SERP pour les pages les mieux classées et fournira des conseils d'optimisation sur la page.
Dans la fenêtre principale, vous aurez l'espace d'édition où vous pourrez créer votre contenu et voir le score d'optimisation s'améliorer à droite dans l'application.
Alternativement, pour les créateurs de contenu, il existe une option permettant d'exporter les recommandations dans un fichier PDF et de les transmettre pour les utiliser dans un autre outil d'écriture.
Le champ du nombre de mots-clés est modifiable. Vous pouvez voir la fréquence des mots-clés existants sur la page et comment l'améliorer en utilisant plus ou moins de mots-clés. Vous pouvez modifier ce champ manuellement (et vous pouvez également ajouter manuellement d'autres mots-clés LSI).
Il existe un outil spécial TF-IDF dans WebSite Auditor qui signifie « Term Frequency — Inverse Document Frequency ». TF-IDF mesure l'importance d'une expression clé en la comparant à la fréquence du terme dans un large ensemble de documents. Fondamentalement, cette technique d'analyse de contenu suit les mêmes étapes que LSI avant l'application de SVD. Alors que LSI découvre quels sujets sont communs à quels documents dans une collection de textes, TF-IDF pèse simplement les termes qu'ils contiennent.
La beauté de l'outil TF-IDF dans Content Editor est qu'il montre l'utilisation des mots dans des graphiques clairement visualisés. Il affiche le nombre moyen de mots-clés sur les pages des concurrents et calcule le nombre de mots-clés que vous devez utiliser sur votre page. L'outil de suggestion rapide recommande d'ajouter un nouveau mot-clé ou d'utiliser moins de certains mots-clés pour éviter le bourrage de mots-clés.
L'éditeur de contenu fournit le nombre recommandé de mots-clés à utiliser dans votre contenu, extraits du contenu de vos meilleurs concurrents et filtrés par le paramètre TF-IDF. Vous pouvez dérouler la liste des concurrents et voir les URL, ainsi que le trafic généré par la page grâce à la recherche organique du mot-clé cible. Vous pouvez prévisualiser la version en texte brut de la page directement dans l'outil ou accéder au site par un lien rapide depuis l'outil.
Grâce à l'analyse de contenu, l'outil suggère des sujets et des questions sur lesquels vous devriez vous attarder dans votre contenu, extraits directement de Google SERP (section « Les gens demandent également » ). Cela vous aide à trouver plus d’idées de sujets et à couvrir votre thème principal de manière plus approfondie.
Au fur et à mesure que vous ajoutez du nouveau contenu, le poids de chaque mot-clé par rapport au nombre global de mots change. Un widget Word cloud spécial illustre le poids de vos mots-clés dans le contenu.
La mention de mots et d'expressions associés peut-elle améliorer le classement ? Pas exactement, l’effet n’est pas garanti. Vous ajoutez des mots-clés pertinents à votre contenu et développez le sujet, vous le couvrez plus en profondeur. En attendant, vous obtenez plus de mots-clés sur votre page et vos mots-clés cibles sont pris en charge par un contexte amélioré. Les algorithmes de recherche peuvent révéler des requêtes supplémentaires auxquelles vos pages sont destinées. Cela génère un trafic organique plus pertinent vers votre site et contribue à votre visibilité globale en ligne. Mais quels mots-clés supplémentaires sont les meilleurs pour l’optimisation des pages ?
Que les moteurs de recherche utilisent ou non LSI aujourd'hui, le concept de mots-clés LSI est utilisé par les référenceurs pour aider à la création de contenu. En comprenant le rôle des mots-clés LSI, vous pouvez efficacement les intégrer à votre stratégie de mots-clés. Gardez simplement à l’esprit que les algorithmes de Google utilisent des centaines de facteurs de classement où le contenu est roi.
Quel que soit l’outil ou la technique de recherche de mots clés que vous appliquez, concentrez-vous simplement sur la création de contenu de haute qualité. Ne doutez pas de la valeur des lectures longues, car un contenu de qualité obtient le vote des utilisateurs et les moteurs de recherche le voient.