100 minutes sans Gmail: Google explique panne

|
"Nous avons tourné notre attention à aider à assurer ce genre d'événement ne se reproduise pas», a écrit Ben Treynor, qui se décrit comme «VP ingénierie et la fiabilité du site Tsar» chez Google, dans une explication officielle blogged la nuit dernière des 100 minute Gmail panne hier, qui a concédé Treynor "a été un gros problème, et nous sommes le traiter comme tel."

Il a ensuite décrit en détail les événements qui ont conspiré pour provoquer la panne:

«Voici ce qui s'est passé: Ce matin (heure du Pacifique), nous avons pris une petite fraction des serveurs de Gmail en mode hors connexion pour effectuer des mises à niveau de routine. Ce n'est pas en soi un problème - nous le faisons tout le temps, et l'interface Web de Gmail s'exécute dans de nombreux endroits et envoie uniquement le trafic vers d'autres endroits où l'on est hors ligne.

Cependant, comme nous le savons maintenant, nous avions un peu sous-estimé la charge que certaines modifications récentes (ironie du sort, certains sont conçus pour améliorer la disponibilité du service) placé sur les routeurs demande - qui interroge les serveurs web directement sur le serveur Gmail de réponse appropriés. Ca 12:30 pm Pacific quelques-uns des routeurs demande sont devenus surchargés et en effet déclaré au reste du système "stop nous envoyant du trafic, nous sommes lents!". Cette transféré la charge sur les routeurs demande restante, provoquant un peu plus d'entre eux à également devenir surchargé, et à quelques minutes près de tous les routeurs demande était surchargé. En conséquence, les gens ne pouvaient pas accéder à Gmail via l'interface web parce que leurs demandes n'ont pas pu être acheminé vers un serveur Gmail. IMAP / POP et l'accès de traitement du courrier a continué à travailler normalement parce que ces demandes ne pas utiliser les routeurs même.

L'équipe d'ingénierie de Gmail a été alerté sur les lacunes dans les secondes (on prend un suivi très sérieux). Après avoir constaté que le problème principal était l'insuffisance des capacités disponibles, l'équipe a apporté beaucoup de demande en ligne supplémentaire routeurs capacité (flexible est l'un des avantages de l'architecture de Google), distribué le trafic à travers les routeurs demande, et l'interface Web de Gmail est revenu en ligne ».
Post Treynor a pris fin avec une explication détaillée des plans de Google pour empêcher une répétition du même problème:

"What's next ... Certaines de ces actions sont simples et sont déjà fait - par exemple, l'augmentation des demandes de capacités routeur bien au-delà de la demande de pointe pour fournir garde au toit. Certaines des mesures sont plus subtiles - par exemple, nous avons conclu que les routeurs désir de don ont t échec suffit d'isolement (à savoir s'il ya un problème dans un centre de données, il ne devrait pas affecter les serveurs dans un autre centre de données) et ne se dégradent pas proprement (par exemple, si la demande de nombreux routeurs sont surchargés en même temps, ils devraient tous simplement obtenir plus lente au lieu de refuser d'accepter le trafic et le déplacement de leur charge). Nous serons à pied d'œuvre au cours des prochaines semaines la mise en œuvre de ces améliorations de fiabilité et d'autres Gmail ".

Il termine ", Gmail reste plus que 99,9% à la disposition de tous les utilisateurs, et nous sommes résolus à respecter des événements comme celui d'aujourd'hui distinguent par leur rareté."

0 commentaires: