J'ai plusieurs sites Web et je ne me souviens pas où j'ai écrit des lignes de code. Comme mes pages sont indexées par Google, je voudrais savoir si Google propose une fonction de recherche dans le code source HTML/le balisage lui-même, au lieu de permettant simplement une recherche dans la partie visuelle, rendue, d'une page?
Merci
Il existe un nouveau moteur de recherche appelé NerdyData qui vous permet de rechercher sur le code source HTML/CSS/JS
Ils indexent plus de 160 millions de domaines publics et j'ai trouvé les données utiles.
J'ai rencontré les ressources suivantes lors de mes voyages (certaines déjà mentionnées ci-dessus):
Moteurs de recherche axés sur le balisage HTML
Je voudrais également ajouter ce qui suit:
D'énormes archives de données d'exploration de sites Web
Comment pouvons-nous analyser ces données d'exploration?
Pour avoir une idée de la façon de commencer à analyser certaines de ces données massives, jetez un oeil à les cadres Big Data/Map-Reduce-type .
Google énumère quelques idées sur l'utilisation du projet Apache Spark pour analyser les vidages de Common Crawl . Pour comprendre le (s) format (s) de fichier utilisé (s) par Common Crawl , reportez-vous à ce qui suit:
L'article, Accessing-Common-Crawl-Dataset-on-S3 , décrit l'accès 250TB + vidage (s) de Common Crawl dans un manière à faible coût sans transfert de cette charge de données en dehors du réseau AWS/S3 d'Amazon. Bien sûr, cela suppose que vous êtes allez utiliser une combinaison AWS/EC2/S3 etc. pour analyser les données d'analyse.
Enfin, Patrick Durusau maintient quelques pages de blog intéressantes liées à l'utilisation de Common-Crawl .
Personnellement, je trouve ce sujet intrigant, je suggère que nous obtenions ces données d'exploration pendant qu'il est CHAUD! ;-)
Vous pouvez essayer PublicWWW pour la recherche dans la source/le balisage. Il permet de trouver n'importe quel HTML, JavaScript, CSS et texte brut dans le code source d'une page Web sur 167+ millions de sites Web.
Avec PublicWWW, vous pouvez:
Trouvez des sites Web connexes via les codes HTML uniques qu'ils partagent, c'est-à-dire les widgets et les ID d'éditeur.
Identifiez les sites à l'aide de certaines images ou badges.
Bien sûr, vous pouvez trouver non seulement vos sites Web qui utilisent un extrait de code/balisage.
Google ne peut pas rechercher votre code sur le site. Vous pouvez utiliser http://nerdydata.com/ C'est le meilleur moteur de recherche de code que j'ai utilisé! Je pense que vous obtiendrez votre code exact sur ce site.