Nous développons actuellement un site qui compte actuellement 8 millions de pages uniques, dont le nombre passera immédiatement à 20 millions, voire à 50 millions ou plus.
Avant de critiquer ... Oui, il fournit un contenu unique et utile. Nous traitons en permanence les données brutes des enregistrements publics et en effectuant un nettoyage des données, des cumuls d'entités. et la cartographie des relations, nous avons été en mesure de générer un contenu de qualité, en développant un site très utile et unique, en partie en raison de l’ampleur des données.
PR vaut 0 (nouveau domaine, pas de liens), et nous obtenons environ 500 pages par jour, soit environ 30 000 pages indexées jusqu'à présent. À ce rythme, il faudrait plus de 400 ans pour indexer toutes nos données.
J'ai deux questions:
Notre principal concurrent a réalisé environ 20 millions de pages indexées en un peu plus d’un an, ainsi qu’un classement Alexa de 2000.
Qualités remarquables que nous avons en place:
Quelques stratégies potentielles:
Enfin, je devrais dire ceci. Le référencement et l'indexation ne sont que de petites étapes dans la gestion d'un site d'entreprise. Ne perdez pas de vue le retour sur investissement pour le référencement. Même si vous avez beaucoup de trafic de Google, peu importe si vous ne pouvez pas le convertir. Le référencement est important, mais il faut le garder en perspective.
Éditer :
En complément de votre cas d'utilisation, vous pouvez envisager de proposer des critiques ou des témoignages pour chaque personne ou entreprise. En outre, la distribution de badges d'utilisateur, comme StackOverflow, pourrait inciter au moins certaines personnes à créer un lien vers leur propre profil sur votre site. Cela encouragerait certains liens externes vers vos pages profondes, ce qui pourrait signifier une indexation plus rapide.
Comment obtenir des dizaines de millions de pages indexées par Google bot?
Cela ne se fera pas du jour au lendemain, cependant, je vous garantis que plusieurs de vos pages seraient plus rapidement spiderées si des liens entrants vers du contenu approfondi (notamment des pages de plan du site ou des index de répertoires pointant vers un contenu encore plus profond) étaient ajoutés à partir de sites de même taille, ont été autour pendant un moment.
Un ancien domaine sera-t-il suffisant pour obtenir 100 000 pages indexées par jour?
Douteux, à moins que vous ne parliez d'un domaine plus ancien qui a eu une quantité d'activité significative dessus (c'est-à-dire du contenu accumulé et des liens entrants) au fil des ans.
Existe-t-il des consultants en référencement spécialisés dans le processus d’indexation proprement dit?.
Quand vous posez la question de cette façon, je suis sûr que vous trouverez beaucoup de SEO qui proclament haut et fort "oui!" mais, au bout du compte, les suggestions de Virtuosi Media sont aussi utiles que celles que vous obtiendrez (sans parler du conseil potentiellement mauvais).
À partir de ce moment, vous devriez envisager d’utiliser les canaux de développement commercial et de relations publiques pour établir le classement de votre site à ce stade - obtenez davantage de liens vers votre contenu (de préférence en vous associant à un site existant proposant du contenu ciblé par région, afin de créer un lien vers votre site). Par exemple, pour attirer plus de visiteurs sur votre site (certains auront la barre d’outils Google installée afin que leur trafic puisse fonctionne vers la découverte de page), et si possible, faites parler de votre entreprise sur les nouvelles ou dans les communautés de personnes qui en ont besoin (si vous envisagez de facturer certains services, envisagez de faire de la publicité pour une période d’essai gratuite pour attirer l’attention).
Je sais que deux options sont possibles.
Un: un petit truc que j'ai essayé avec un site Web de trois millions de pages qui fonctionnait étonnamment bien était ce que mon collègue a inventé une boucle d'exploration. Vous devrez peut-être manipuler l'idée un peu pour l'adapter à votre site.
Fondamentalement, nous avons défini un jour où nous ne pensions pas que nous aurions beaucoup de trafic (Noël) et nous avons littéralement copié une liste de chaque lien sur notre site et les avons collés dans un fichier php appelé sur chaque page Web. (Le fichier php sidebar)
Nous avons ensuite été autorisés à nous rendre sur la console de recherche Google (anciennement Google Webmaster Tools) et à demander à Google de rechercher une URL et d’explorer tous les liens de cette page.
Étant donné que vous avez tellement de liens et que les pages de ces liens contiennent également une quantité abondante de liens, Google se met en boucle et explore le site de manière beaucoup plus rapide. J'étais sceptique au début mais cela a fonctionné à merveille.
Avant de faire cela, vous devez vous assurer que la configuration de la base de données est extrêmement efficace et que le serveur est très puissant. Dans le cas contraire, il pourrait surcharger le serveur ou nuire à votre référencement en raison du temps de chargement des pages.
Si ce n'est pas une option pour vous, vous pouvez toujours regarder dans les apis de la console cloud de Google. Ils ont une interface de console de recherche afin que vous puissiez écrire un script pour ajouter chaque page Web en tant que propre instance de site Web dans la console de recherche ou pour que Google récupère chacune de vos URL.
Les apis peuvent se compliquer extrêmement rapidement, mais ils constituent un outil extraordinaire lorsqu'ils sont utilisés correctement.
Bonne chance!
Une chose que je remarque avec les outils Google pour les webmasters est qu’ils permettent d’abord un taux d’analyse maximal d’environ deux requêtes par seconde. Puis, environ une semaine plus tard, s’ils trouvent que le site Web est fréquemment utilisé, ils vous permettront d’augmenter votre limite.
Je co-dirige un site Web qui héberge plus de 500 000 images originales et parfois, ma limite maximale est de 10 demandes par seconde car je reçois au moins 700 à 1 000 visites par jour, sinon plus.
Vous voudrez peut-être vérifier avec les outils pour les webmasters toutes les semaines pour voir si vous pouvez augmenter la limite d'analyse. Lorsque vous modifiez la limite d'analyse, Google la restaure à ses paramètres préférés après un certain jour (ce que l'interface vous indiquera). Puis ce jour-là, augmentez à nouveau la limite.
J'ai eu l'expérience de ce type de site. J'ai dirigé un répertoire d'articles il y a de nombreuses années et le pourcentage de pages indexées et surtout performantes était en corrélation directe avec le nombre de domaines de référence - c.-à-d. Le nombre de sites Web uniques reliant po. Un grand site avec des millions de pages nécessite plusieurs milliers les domaines raisonnables liant pour fonctionner de manière autonome.
Cela ne se fera pas du jour au lendemain, mais si vous construisez 5 à 10 bons liens par jour, vous serez alors en mesure de générer des revenus et de l'utiliser pour payer un équipement de référencement professionnel afin de créer des liens. pour vous.
Je suis en train de construire un site similaire riche en informations en ce moment, mais j'ai le même problème avec environ 4 millions de pages de contenu avec un taux de crawl de 700 à 1000 pages par jour.
Jouer au système n'est jamais une bonne idée si vous exploitez une entreprise légitime qui valorise sa réputation en ligne. En outre, si votre site fournit véritablement de la valeur, plus il dure longtemps (je suppose que vous faites une forme de marketing?), Plus il génère de backlinks, de sorte que votre PR augmentera et que votre taux d'analyse augmentera.
De plus, si vous avez une bonne structure de liens sur votre site (toutes vos pages peuvent être découvertes en un nombre raisonnable de clics/liens), il vous suffit de soumettre les index principaux via le plan du site. Une fois ces pages indexées par Google, celles-ci seront explorées par Google et Google indexera le reste des pages lui-même.
Je sais que deux options sont possibles.
Un: un petit truc que j'ai essayé avec un site Web de trois millions de pages qui fonctionnait étonnamment bien était ce que mon collègue a inventé une boucle d'exploration. Vous devrez peut-être manipuler l'idée un peu pour l'adapter à votre site.
Fondamentalement, nous avons défini un jour où nous ne pensions pas que nous aurions beaucoup de trafic (Noël) et nous avons littéralement copié une liste de chaque lien sur notre site et les avons collés dans un fichier php appelé sur chaque page Web. (Le fichier php sidebar)
Nous avons ensuite été autorisés à nous rendre sur la console de recherche Google (anciennement Google Webmaster Tools) et à demander à Google de rechercher une URL et d’explorer tous les liens de cette page.
Étant donné que vous avez tellement de liens et que les pages de ces liens contiennent également une quantité abondante de liens, Google se met en boucle et explore le site de manière beaucoup plus rapide. J'étais sceptique au début mais cela a fonctionné à merveille.
Avant de faire cela, vous devez vous assurer que la configuration de la base de données est extrêmement efficace et que le serveur est très puissant. Dans le cas contraire, il pourrait surcharger le serveur ou nuire à votre référencement en raison du temps de chargement des pages.
Si ce n'est pas une option pour vous, vous pouvez toujours regarder dans les apis de la console cloud de Google. Ils ont une interface de console de recherche afin que vous puissiez écrire un script pour ajouter chaque page Web en tant que propre instance de site Web dans la console de recherche ou pour que Google récupère chacune de vos URL.
Les apis peuvent se compliquer extrêmement rapidement, mais ils constituent un outil extraordinaire lorsqu'ils sont utilisés correctement.
Bonne chance!