web-dev-qa-db-fra.com

Sur quelles bases de données les plus grands sites du World Wide Web fonctionnent-ils?

Cette question est destinée à servir de liste de bases de données et de leurs configurations que les principaux sites Web utilisent et serait une excellente référence pour tous ceux qui envisagent d'adapter leur site Web à la taille de Twitter, Facebook ou même Google.

Veuillez garder vos réponses au minimum et assurez-vous de citer toutes les sources utilisées.

MODIFIER:

Veuillez également gras le nom du site Web et la base de données pour une numérisation plus facile.

65
niktech

Facebook.com

  • MySQL avec MyRocks. Utilisé pour stocker les informations utilisateur et les activités sociales telles que les likes, les commentaires et les partages.
  • Hive (Entrepôt de données pour Hadoop, prend en charge les tables et une variante de SQL appelée hiveQL). Utilisé pour "les travaux de synthèse simples, l'intelligence d'affaires et l'apprentissage automatique et de nombreuses autres applications"
  • Cassandra (Magasin de valeurs-clés multidimensionnel et distribué). Actuellement utilisé pour la messagerie privée de Facebook.

Actuellement en cours d'exécution 610 (bientôt 1000) nœuds Hadoop dans un seul cluster avec magasin de données Hive. Hive et Cassandra ont été open-source par Facebook.

Statistiques Facebook:

  • Plus de 200 millions d'utilisateurs actifs
  • Plus de 100 millions d'utilisateurs se connectent à Facebook au moins une fois par jour
  • Plus de 30 millions d'utilisateurs mettent à jour leur statut au moins une fois par jour
  • L'utilisateur moyen a 120 amis sur le site

Sources:

26
niktech
16
ACP

LinkedIn.com

  • Oracle (Base de données relationnelle)
  • MySQL (Base de données relationnelle)

Bases de données répliquées sur plusieurs serveurs pour une haute disponibilité. Chaque service spécifique utilise sa propre base de données spécifique au domaine.

Statistiques LinkedIn:

  • 22 millions de membres
  • 4+ millions de visiteurs uniques/mois
  • 40 millions de pages vues/jour
  • 2 millions de recherches/jour

Sources:

15
niktech

Flickr utilise MySQL .

YouTube utilise MySQL mais ils migrent vers Google BigTable .

Myspace utilise SQL Server .

Wikipedia utilise MySQL .

13
Mohammed Nasman

Microsoft.com

  • SQL Server (pas de surprise là-bas)

Statistiques Microsoft.com:

  • 250 millions de visites uniques/mois.
  • 70 millions de pages vues/jour.
  • 15 000 connexions/seconde.
  • Gère en moyenne 35 000 connexions simultanées à un total de 80 serveurs Web.

Sources:

12
Fredrik Mörk

Yahoo.com

  • PostgreSQL (modifié) - Un client peut se connecter à n'importe lequel des nœuds du cluster (ou à un sous-ensemble restreint aux règles). Une requête circule du client vers le serveur avec lequel il a choisi de se connecter. Le compilateur SQL sur ce nœud compile et optimise la requête sur ce nœud unique (pas de parallélisme).

Statistiques Yahoo.com:

  • 24 milliards d'événements par jour
  • 2 pétaoctets, revendique la plus grande base de données (mars 2008)

La source:

11
KahWee Teng

Twitter.com

  • MySQL (Base de données relationnelle).
  • Cassandra (magasin de valeurs-clés multidimensionnel et distribué). Twitter commence tout juste à utiliser Cassandra sur Twitter "(voir la deuxième source).

En mai 2008, Twitter avait 1 instance MySQL pour les écritures avec plusieurs instances esclaves MySQL pour les lectures.

Statistiques Twitter:

  • Nombre total d'utilisateurs: 1+ million
  • Nombre total d'utilisateurs actifs: 200 000 par semaine
  • Nombre total de messages Twitter: 3 millions/jour
  • 5% des utilisateurs de Twitter représentent 75% de toute l'activité
  • 72,5% de tous les utilisateurs se sont joints au cours des cinq premiers mois de 2009

Sources:

9
niktech

Digg

  • MySQL (Base de données relationnelle) pour la mise à l'échelle des lectures
  • MemcacheDB (magasin de valeurs-clés) pour la mise à l'échelle des écritures

Les deux magasins de données sont distribués sur plusieurs serveurs.

Statistiques Digg:

  • 30 millions d'utilisateurs
  • 26M uniques par mois
  • 2 milliards de demandes par mois
  • 13 000 requêtes par seconde, pic à 27 000 requêtes par seconde.

Sources:

8
niktech
5
stribika
3
duffymo