J'ai exploité des sites que j'ai développés au fil des ans grâce à divers vérificateurs de référencement en ligne et certains d'entre eux m'ont vérifié le rapport texte/html. Je me souviens d'avoir lu une ou deux fois plus à ce sujet. Je dois demander s'il existe une preuve définitive de sanctions SEO par Google, par exemple, lorsque vous avez effectué votre vérification préalable avec les attributs alt/title, schema.org, le graphique ouvert de Facebook, etc., ou lorsque ces conceptions "div au sein d'une div au sein d'une div" où vous vous retrouvez avec beaucoup de code?
UPDATE Je suppose que ma question n'était pas assez claire. Je comprends parfaitement que votre page doit être utile et significative pour votre utilisateur final et non pour Google. Lorsque vous avez marqué votre code afin que votre page ait une signification sémantique pour Google (comme vous devriez le faire!), Votre rapport de code ne cesse de grossir. Ma question était de savoir s’il existe une preuve définitive que Google pénalise votre page si le code dépasse le contenu d’un certain pourcentage. Est-ce vrai ou une sorte de légende urbaine SEO?
En supposant que la page HTML ait une taille raisonnable (retour en en 2006, elle était de 500 Ko , il est probable qu'elle soit beaucoup plus), Google ne se soucie pas du rapport texte-code de vos pages. Concentrez-vous plutôt sur la création de contenu de qualité, ne vous inquiétez pas de votre balisage du point de vue du référencement.
Du point de vue de l'utilisateur, il est bon d'avoir une page à chargement rapide (il faut donc éviter les peluches inutiles lorsque vous la repérez) et avoir une page qui convient à de nombreux navigateurs/périphériques (il est parfois utile d'utiliser des paramètres raisonnables. HTML) est également une bonne idée. Ces éléments n'influencent pas directement l'affichage de votre page par Google, mais si vous aliénez des utilisateurs, ils ne recommanderont probablement pas votre site à d'autres personnes.
Examiner le rapport texte-code uniquement n'est pas utile. La quantité absolue de texte utilisable doit être prise en compte pour. Tant qu'il restera au moins un texte après avoir supprimé toutes les balises, vous ne serez pas pénalisé.
D'un autre côté: s'il n'y a presque pas de balises significatives, il est difficile de dire en quoi consiste une page. Cela pourrait être une page presque vide avec juste un long pied de page.
Il y a des années, lorsque j'ai écrit mon premier robot d'exploration pour un réseau, je rencontrais d'énormes problèmes pour détecter le sujet principal de certaines pages: pas de titres ou trop de titres, certaines pages ne comportaient pas de balisage sémantique ou dépensaient principalement sur des blocs répétés. Nous avons dû changer les modèles pour obtenir de meilleurs résultats de recherche. Je suppose que les moteurs de recherche tels que Google rencontreront des problèmes similaires, mais ils ne peuvent pas modifier vos sites Web. :)
Le temps de chargement est un autre facteur: plus la taille de la page est grande, plus le chargement sera long. Un rapport temps de chargement/texte pourrait donc être utilisé comme métrique associée.
Plus le contenu unique que vous fournissez à vos utilisateurs et aux moteurs de recherche est grand, plus le robot d'exploration aura de chances de revenir, car les robots d'exploration utilisent également des ressources limitées et préfèrent les pages qui valent la peine.
Personne ne semble avoir explicitement déclaré que le temps de chargement d'une page est un facteur algorithmique mineur , ce qui est probablement le facteur de référencement le plus important dans le contexte de cette question.
Gardez simplement votre code propre et minimal, et ne le faites pas trop avec du balisage semnatique. Il n'est pas utilisé comme facteur de classement et son utilisation dans les SERP est actuellement limitée (nombre d'étoiles, recettes, etc.).