Pour le contenu textuel d'un site, par exemple un site en chinois, je pourrais utiliser des échappements HTML:
库存了电气和电子应用
领域的连接器,从重型
工业连接
Ou simplement des caractères codés UTF-8 (et non une représentation de ce qui précède - juste un exemple):
洁净 室, 测量, 与 外围 设备
Où les deux sembleraient identiques pour les visiteurs - mais différemment dans le source de la page. Avec un nouveau site, j'ai lu que la meilleure pratique acceptée semble simplement être d'utiliser UTF-8 dans la mesure du possible. Cependant, je travaille sur un site existant/existant et j'aimerais comprendre s'il y a une différence en termes de référencement?
Les deux ensembles de contenu textuel (dans un document HTML) sont-ils également visibles pour les moteurs de recherche (si les caractères/le contenu affiché sont identiques)?
Existe-t-il une différence entre la façon dont Google et d'autres moteurs de recherche locaux (tels que Baidu) gèrent le contenu?
Les deux ensembles de contenu textuel (dans un document HTML) sont-ils également visibles pour les moteurs de recherche?
Absolument oui: les deux variantes sont parfaitement égales. Tous les moteurs de recherche comprennent unicode (votre deuxième exemple), les entités HTML codées du premier exemple ne posent pas non plus de problème.
Le codage d'entité n'est rien d'autre qu'un codage comme win-8859-1, utf-8 ou win-1251. On dirait donc une URL wikipedia, écrite en russe:
Et les deux variantes sont entièrement prises en charge et comprises par les navigateurs et les moteurs de recherche.