Nous rencontrons des difficultés pour que Google indexe les fichiers PDF de notre site. Il y a environ 50 PDF et la taille varie de 20 Ko à un peu moins de deux Mo. Ils ne sont pas protégés, peuvent être lus anonymement et dans PDF Reader, vous pouvez effectuer une recherche dans le document.
Ils sont répertoriés dans le fichier SiteMap.xml. Je peux même consulter les journaux IIS et voir Googlebot lire les fichiers PDF, mais, à l'exception de cinq, ils ne sont jamais inclus dans les résultats de la recherche.
Si je fais un filetye: pdf, seuls cinq PDF sont apparus. Si je recherche du texte que je connais dans un fichier PDF, celui-ci ne s'affiche jamais (à l'exception des cinq fichiers indexés).
Quelqu'un sait-il pourquoi les documents de plus de 45 ans et plus PDF ne sont pas inclus dans l'index, même s'ils figurent dans le plan du site et que Googlebot les lit?
tous les pdfs sont-ils situés au même endroit? Une fois, j’ai eu le problème que l’un de mes emplacements de pdf se trouvait dans un dossier exclu par le fichier robots.txt. Soumettez votre sitemap directement sur le site de l'outil google-webmaster et vous obtiendrez peut-être de précieuses informations sur le caractère silencieux des fichiers .pdf. dans mon cas, google m'a dit "hé, ces 54 documents pdf sont sur votre sitemap mais en raison des restrictions de robots.txt, nous ne pouvons pas les indexer". donc c'était très utile. Mais attention à ce que dit le commentateur, cela peut prendre un certain temps avant que cette information apparaisse.
Outils pour les webmasters de Google: https://www.google.com/webmasters/tools
Il peut y avoir beaucoup de retard entre la lecture initiale de votre contenu par Google et son apparition dans l'index. Nous avons récemment relancé un site, soumettant des sitemaps à Google lors du lancement. Il a fallu environ 3 semaines pour que les nouvelles pages apparaissent dans les résultats de recherche.
Depuis combien de temps avez-vous soumis ces PDF via votre sitemap?
(sauf pour les cinq indexés)
On dirait que vos PDF sont indexés, mais cela prend du temps. En supposant qu'il n'y ait aucune différence dans la manière dont les PDF non indexés ont été générés, alors je suppose que c'est simplement l'index qui prend du temps à mettre à jour.
Sur une légère tangente, un outil utile pour lequel je vous recommande de vous inscrire est Google Webmaster - il vous indique le taux d'analyse, les problèmes liés à votre site, les plans du site et l'indexation à environ un jour de Googlebot. frapper votre site. Cela pourrait vous faire gagner un peu de temps à parcourir vos IIS journaux.
Vous pouvez manuellement le soumettre à Google , ce qui accélère parfois le processus.
Vos fichiers PDF OCR sont-ils numérisés afin que le texte puisse être sélectionné et interrogé? Ou les fichiers PDF sont-ils en cours de numérisation sans OCR, auquel cas le texte sera stocké sous forme de grande image? Si le PDF contient toutes les images, Google ne peut pas l'indexer pour le moment. Ou Google a-t-il trouvé vos pages maintenant?