L’architecture technique de Wikipedia : quelques chiffres (1/2)
Technologies 10 réactionsCet article est le premier d’une nouvelle rubrique traitant des architectures complexes des sites et applications à fort trafic.
Tout le monde connaît Wikipedia, l’encyclopédie en ligne qui totalise près de 8 millions d’articles dans plus de 200 langues (15 langues ont plus de 100 000 articles). Tous les projets Wikipedia, Wiktionary, WikiBooks, WikiNews, etc., sont soutenus et hébergés par la fondation Wikimedia.
Commençons par quelques chiffres sur cette plate-forme pour situer le contexte :
- Wikipedia est le 9
ème site le plus plus consulté au monde selon Alexa, - plus de 350 serveurs répartis dans 3 datacenters différents (Floride, Amsterdam, Séoul),
- près de 50 000 requêtes HTTP/seconde en pic, pour une moyenne de 27 000 requêtes HTTP/seconde,
- 2,2 Gbits/s de bande passante moyenne pour 3,7 Gbits/s en pic,
- en moyenne, 2 000 nouveaux articles et 200 000 edits quotidiens,
- 1,3 To de stockage pour les images (plus de 4 millions de fichiers),
- 25 Go de données dans MySQL,
- un nombre de mots avoisinant les 2,5 milliards,
- une croissance exponentielle : doublant tous les six mois en terme de visiteurs/trafic/serveurs.
Dans le second article de ce dossier, je détaillerai l’architecture, la répartition de l’effort informatique, ainsi que les astuces utilisées par Wikimedia pour garantir un service de qualité avec peu de serveurs.
Sources :
Articles similaires :
2 229 views || Trackback






Vraiment impressionnant ! « une base de données MySQL de 25 Go» , une seul ?
@Plougy > je me suis mal exprimé je corrige. Il s’agit de 25 Go de données MySQL, réparties en plusieurs bases, et sur plusieurs serveurs.
Moi je me demande juste avec quel PDG de boite tu dois coucher pour avoir accès à ces chiffres ? ^^
Ok je sors…
C’est pas Google mais c’est impressionnant quand même. Excellent billet
Ah oui car une seul base de 25 Go m’étonnais…
« une nouvelle rubrique traitant des architectures complexes des sites et applications à fort trafic»
Il me tarde de lire les articles de cette nouvelle rubrique
Hum je vois que je ne suis pas le seul à être fasciné par l’architecture derrière les gros sites ! Je vais lire attentivement la suite
Mon rêve est d’arriver à lancer un jour un site demandant une (petite) grappe de serveur pour le faire tourner
Pour le moment je me contente de filer un coup de main dans l’hébergement de dépôts auxiliaires pour Ubuntu, ca donne un petit aperçu
C’est le genre de sujet que j’adore. Dommage que pas mal de sites connus considèrent ces données comme confidentielles.
rubrique intéressante
si on peut apprendre comment les mastodontes de l’internet gère leur truc, et bien pourquoi pas !
Sujet interessant.