Comment faire des fichiers d'index de Google récupérés de la base de données?

Question

Nous utilisons Joomla avec Remository pour stocker et gérer les publications (ne me demandez pas pourquoi). Les fichiers (PDF) sont stockés dans une base de données et sont accessibles via des liens dynamiques et réécrits du formulaire.

http://domain.de/some/path/filename.html

Voici un exemple: n fichier

Les navigateurs actuels détectent de manière fiable qu’ils reçoivent un PDF. wget utilise le nom de fichier .html mais, une fois renommé, un fichier PDF est utilisé. curl se comporte de la même manière; canaliser sa sortie dans un fichier (nommé de manière appropriée) donne un fichier de travail. Tout cela me porte à croire que - contre toute attente, pourrait-on dire - les données fournies par notre système sont généralement valables et compréhensibles pour les clients.

Cependant, Google ne semble pas indexer PDF fichiers référencés par ces liens. Notre liste de publications est indexé, mais les PDF liés ne sont pas (ils n'apparaissent pas dans les recherches Web et Scholar).

Comment pouvons-nous dire aux robots de recherche de récupérer nos fichiers et de les indexer?

Itai · Answer

Vous ne pouvez pas leur dire mais leur donner un indice fort en fournissant un sitemap. Google peut ou non indexer ceux-ci même avec un sitemap. Il vous dira combien de fichiers de sitemap ont été indexés. Vous devez disposer d'un compte Google Webmaster Tools et enregistrer votre site Web auprès d'eux. Une fois cela fait, les soumissions de sitemap et l’état d’index apparaissent dans les rapports.

Du point de vue d'un moteur de recherche peu importe d'où viennent les données, seulement si elles sont accessibles. Vous faites peut-être quelque chose d'extraordinaire que Google n'aime pas, mais vos documents ne sont pas dans la base de données.

Sur le lien que vous avez fourni, je vois quelque chose qui essaie automatiquement de télécharger lorsque vous cliquez sur vos liens, ce qui peut être considéré comme un téléchargement drive-by indésirable. Soyez donc prudent et votre expérience utilisateur sera médiocre. Si le lien est censé être un téléchargement, il y a trop de pages. Vérifiez également vos types MIME, car ils peuvent simplement dérouter le robot d'exploration Google.