Est-ce que les fautes de frappe aident mon classement de page? (Langue néerlandaise)

Question

En néerlandais, nous concaténons tous les mots qui sont un nom combiné. Quelques exemples de mots anglais où cela se produit: barre d'espace, sonnette et espace. En néerlandais, des mots comme "développement d'applications", séparés, les mots traduits en "app ontwikkeling" seront concaténés en "appontwikkeling". Cela arrive à n'importe quel mot, peu importe le nombre de mots: "fietszadelleer", qui signifie cuir pour selle de vélo (probablement pas le meilleur exemple, mais je regardais un vélo tout en pensant à un mot).

Ce que je vois souvent dans les pages néerlandaises très classées, c’est qu’elles sont pleines de fautes de frappe. Des mots comme "androidontwikkelaar", "marketingexpert" sont tous écrits avec des espaces (ce qui est grammaticalement faux).

Je peux penser pourquoi ils font cela pour 3 raisons:

Si les personnes recherchent une phrase avec des mots séparés, les deux mots sont déclenchés
L'algorithme de Google essaie de comprendre le sujet de votre article. Parce que peu de langues concaténent des noms, peut-être que Google ne comprend pas ces mots concaténés
Ils ne connaissent pas la grammaire néerlandaise (probablement pas le cas)

Faire délibérément ces fautes de frappe dans l'espace ("spatiefouten" ou faux: "spatie fouten") améliorera le classement de ma page/le trafic de recherche?

L Martin · Answer

En réalité, cela ne dépend pas de ce que Google comprend, mais des utilisateurs. C'est un problème très courant pour des choses comme l'optimisation de la langue néerlandaise. De nombreux utilisateurs effectueront des recherches de Word partielles qui pourraient être pertinentes et Google proposera des recherches similaires au bas de la page (. Les utilisateurs ont également recherché: ), mais malheureusement donne des résultats basés sur les noms individuels utilisés.

La compréhension linguistique de Google se fait du point de vue de la requête. Si les utilisateurs concaténent généralement le nom, il est préférable de le rejoindre. En fait, si c’est la façon habituelle de le faire, Google procédera même à la correction automatique.

S'il s'agit d'un nom concaténé rarement recherché, vous devrez ajouter des erreurs d'espace. C'est pourquoi vous le verrez partout. Parfois, il vaut mieux prévenir que guérir.

Je réalise qu'il est peu pratique de rechercher chaque combinaison de noms, mais une fois que vous comprenez votre langage démographique, cela peut devenir beaucoup plus facile. Une technique qui pourrait vous aider consiste à étudier les médias sociaux de vos utilisateurs et le Allocation de Dirichlet Latent des noms. Il existe guides sur la manière d'effectuer cette étude avec un programme appelé KNIME en ligne.

Martijn · Answer

Je suis fan de "Faites ce qu'il faut pour vos visiteurs, ne modifiez que si vous savez vous en profitez".

La règle est très simple: si deux mots peuvent être connectés (fiets zadel), vous devez les connecter (-> fietszadel). Ne le réinventez pas pour vos besoins.

Google connaît des synonymes ou des similitudes entre les mots (c'est pourquoi vous ne mettez pas "fiets, zadel, fietszadel" dans votre balise META de mot clé), je dirais donc de garder votre texte correct.

Je viens de chercher 'fiets zadel' dans Google et j'ai un 'Voulez-vous dire fietszadel?'

closetnoc · Answer

Rien n’importe vraiment si les ontologies ne sont pas considérées en premier.

Par exemple, je peux taper fastredcar qui n'est pas un terme de l'ontologie anglaise. Peu importe ce que les gens tapent dans la barre de requête et les correspondances trouvées, votre site ne peut jamais se classer pour un tel terme car le terme n'existe pas dans une ontologie et n'est donc pas indexé tel quel avec pondération.

Les ontologies permettent aux moteurs de recherche de comprendre le contenu. Ceci est basé sur des technologies de récupération d'informations (IR) plus anciennes que la plupart d'entre nous. Donc, pour fastredcar, si Google ne le reconnaît pas comme une voiture rouge rapide, il ne reconnaîtra pas le terme fastredcar simplement parce que ce n'en est pas un.

N'oubliez pas que Google ne le fait pas et n'a jamais termes de recherche correspondants. Les correspondances directes entre termes étaient le paradigme contre lequel réfutaient le document de recherche Google original écrit par Brin et Page. La création de Google repose sur le fait que les correspondances directes entre les résultats génèrent de mauvais résultats.

Cité depuis: L'anatomie d'un moteur de recherche Web hypertextuel à grande échelle écrit par Sergey Brin et Lawrence Page en 1997/98

Les moteurs de recherche automatisés reposant sur la correspondance des mots clés génèrent généralement trop de correspondances de qualité médiocre. Pour aggraver les choses, certains annonceurs tentent d’attirer l’attention des internautes en prenant des mesures destinées à induire en erreur les moteurs de recherche automatisés. Nous avons construit un moteur de recherche à grande échelle qui répond à de nombreux problèmes des systèmes existants. Il utilise particulièrement fortement la structure supplémentaire présente dans l'hypertexte pour fournir des résultats de recherche de qualité bien supérieure. Nous avons choisi le nom de notre système, Google, parce que c'est une orthographe courante de googol, ou 10 100, qui correspond bien à notre objectif de construire des moteurs de recherche à très grande échelle.

En utilisant le concept de correspondance directe des termes, les résultats sont des documents qui correspondent étroitement à la requête et non des documents très pertinents, ce qui est nécessaire pour un espace de présentation aussi réduit, tel que la première page des résultats de recherche. (Paraphrasé du document de recherche.) Pour cette raison, l'analyse sémantique est utilisée, y compris l'analyse topique. L'analyse thématique pondère l'intégralité du contenu et des segments de contenu en fonction de termes et de sujets reconnus dans les ontologies thématiques. Ces pondérations thématiques sont utilisées pour déterminer si un terme est utilisé dans un contexte thématique et non simplement arbitraire. Par exemple, je peux écrire une page Web sur les chats, mais je souhaite augmenter la recherche d'autres termes en les insérant dans le texte. Cependant, sans contexte, les termes voiture, pneu, moteur ne sont pas contextuels pour une page Web sur les chats. De plus, les scores de force topiques éliminent également les contenus courts et les contenus dilués.

Par exemple, j'ai travaillé avec un webmaster il y a quelques années, qui disposait d'un site Web sur les voitures et obtenait les résultats de recherche de vêtements et de chaussures pour femmes. Après un rapide examen, je me suis rendu compte que le problème était son utilisation des termes pour décrire une voiture aussi sexy, que courbes, svelte, vinyle, cuir, ajustement serré, etc. C'était avant le changement d'inclure Google Scholar qui reposait largement sur l'analyse sémantique dans l'algorithme de recherche habituel. Aujourd'hui, ce n'est pas un problème, d'autant plus que les adjectifs sont reconnus comme appartenant à des sujets utilisant les mêmes ensembles d'ontologies.

Heureusement, Google reconnaît que tous les termes valides n'existent pas dans les ontologies. Pour cette raison, Google crée sa propre ontologie en utilisant une simple IA (intelligence artificielle) qui permet de définir les termes utilisés dans plusieurs endroits à la fois en tant que terme et en tant que sujet à l'aide du contexte environnant et de l'analyse sémantique linguistique. Bien que cela ne soit pas toujours parfait, cela fonctionne.

Une autre considération est l'analyse de n Gram. En utilisant notre exemple, fastredcar peut être décomposé en termes simples pour aider à comprendre le terme lui-même. Ceci est fait en utilisant des termes tels que prototype où le terme est divisé en sous-ensembles en supposant qu'il n'existe pas déjà dans une ontologie. Le prototype serait décomposé en proto et type afin que le terme puisse être compris. Des ontologies de différentes langues et des racines communes sont utilisées pour cela. Fastredcar, par exemple, peut être décomposé en voiture rouge rapide afin qu’il soit compris.

Donc, pour répondre à votre question, l’utilisation de mon exemple, fastredcar, ne peut pas être pondérée telle quelle. Cependant, elle peut être pondérée comme voiture rouge rapide et peut renvoyer des résultats valides sous forme de termes distincts. Vous devrez prendre cela en considération lors de la concaténation de termes et si le moteur de recherche sera confondu ou non et quelles valeurs possibles seront attribuées. Il est possible que les termes que vous concaténiez se trouvent dans une ontologie. Ne connaissant pas le néerlandais, il est possible que certaines des concaténations que vous utilisez soient suffisamment communes pour être reconnues dans une ontologie personnalisée. Qui sait? C'est quelque chose à explorer. En règle générale, je dirais qu'il faut éviter autant que possible cette convention (sauf si vous êtes sûr qu'elle est correcte et correcte) pour mieux vous assurer que ce que vous entendez est bien compris par le moteur de recherche.

xji · Answer

Les technologies de recherche d'informations lemmatisent les termes de recherche. Cela signifie que les termes doivent être compris dans leur forme appropriée par le moteur de recherche au lieu d’être utilisés textuellement. Il en va de même pour les contenus indexés. Le problème avec une langue comme le néerlandais est que la technologie actuelle utilisée par Google risque de ne pas encore la prendre en charge suffisamment pour lemmatiser correctement tous les mots, en particulier ceux qui ne figuraient pas auparavant dans le dictionnaire, tels que Android developer.

La règle générale devrait donc être d'écrire le plus correctement possible sans vous soucier des détails que le moteur de recherche est censé prendre en charge, sauf si vous avez une bonne raison de croire que le moteur de recherche n'est pas grammaticalement correct à propos d'un terme ( Par exemple, lorsque vous effectuez une recherche dans Google, il indique "Voulez-vous dire" avec un espace ajouté entre les deux, vous devriez probablement également ajouter des espaces.