J'ai quelque part près de 500 000 images téléchargées par l'utilisateur hébergées sur un CDN Cloudfront - en plus de notre hôte principal (exampledomain.com). Jusqu'à présent, peu d'entre eux avaient été indexés aux URL de distribution par défaut. Exemple:
https://d7oxxxxxxx.cloudfront.net/images/example_directory/subdirectory/LG_example_filename.jpg
J'ai donc ajouté un CNAME (nom de domaine alternatif) afin que les URL soient désormais devenues: http://media.exampledomain.com/images/example_directory/subdirectory/LG_example_filename.jpg
Et j'ai ajouté "media.exampledomain.com" en tant que domaine vérifié dans la console de recherche Google.
J'ai également un plan de site dynamique hébergé sur exampledomain.com qui répertorie toutes les images que je souhaiterais indexer - une image par page (il y a probablement près de 240 000 pages au total). Exemple:
<url>
<loc>http://www.exampledomain.com/directory/pagename</loc>
<changefreq>daily</changefreq>
<image:image>
<image:loc>
http://media.exampledomain.com/images/exampledirectory/subdirectory/LG_filname.jpg
</image:loc>
<image:title>Example Image Title</image:title>
<image:caption>Example Image Caption</image:caption>
</image:image>
</url>
D'après ce que j'ai lu, Google devrait commencer à indexer toutes les images. Cependant, je ne veux pas potentiellement attendre une semaine entière pour découvrir qu'il y a quelque chose que je n'ai pas fait ou que quelque chose d'autre pourrait empêcher les images d'être indexées. Autant que je sache, les URL de Cloudfront sont entièrement publiques et il n'y a pas de restrictions robots.txt sur le CDN. Je n'ai actuellement qu'une seule distribution Cloudfront active, alors je ne crois pas qu'il devrait y avoir de problème de contenu dupliqué. Y a-t-il autre chose que je puisse avoir besoin de rendre compte ou une manière que je peux voir à l'avance si cela va fonctionner?
Merci pour toute l'aide que vous pouvez apporter.
UPDATE:
Je suis sur cette piste depuis quelques jours maintenant. Les robots Google ont exploré et indexé toutes les pages de notre site à un taux de Nice Swift (plus de 50 000 pages par jour!). Cependant, il y a encore quelque chose avec les images. Je constate que plus de 160 000 images ont été envoyées dans le plan du site. Google en a répertorié environ 15 000, mais seules 50 ont été indexées. Quelqu'un a-t-il une idée des raisons pour lesquelles Google pourrait avoir des difficultés avec cela?
Voici un exemple de format pour l'une des URL. Un horodatage de 12-14 chiffres est ajouté à la fin de tous les fichiers:
http://media.exampledomain.com/images/category/id/LG_keywords_1442182082.5437.jpg
C'est à peu près ce que j'ai fait;
robots.txt
ainsi que dans Google Webmasters.Et Google indexe bien mes images. Si je recherche site:mysitedomain.com
sur Google; toutes les images du CDN sont également affichées :)
Mise à jour:
Dans le fichier robots.txt
de mon site Web, j'ai:
User-agent: *
Disallow: /harming/humans
Sitemap: http://www.website.net/sitemap.xml
Cela garantit que les autres moteurs de recherche (pas Google) trouvent également le plan du site. Plus d'infos ici: http://www.sitemaps.org/protocol.html#submit_robots
Le robots.txt
sur mon domaine CDN permet simplement l'exploration et ressemble à ceci:
User-agent: *
Disallow: