Retour à la liste

Bilan sur la coupure de service de cette après-midi

mercredi 08 décembre 2010 00:00:00

Bonjour, vous trouverez ci-joint un récit plus détaillé des causes de l'incident de cette après-midi ainsi que de la chronologie des détections et actions prises. La durée totale des perturbations a été de 6h, ce qui en fait l'interruption la plus notable depuis le lancement de notre chaîne temps réel. Nous vous rappelons que vous pouvez suivre notre niveau de service de façon mensuelle ici : http://operations.afnic.fr/fr/documents#qualite

Cause de l'incident Hier soir une première alerte a eu lieu vers 19h. Des migrations standards d'équipements d'un VLAN vers un autre ont brutalement rendu instable le stack complet de  switches de notre site de production. La situation a pu être rétablie en 25 minutes mais nous avons identifié un point d'analyse pour le lendemain. Vers 11h40, deux de nos switches maitres sont restés opérationnels pendant que trois switches esclaves ont entièrement perdu leur  configurations et leur OS et n'étaient plus synchronisables. Il s'est avéré dans les phases ultérieures de l'analyse qu'il s'agissait d'un problème interne aux équipements provoquant une lente dégradation sur la durée. Avec l'aide du support du constructeur nous avons pu identifier le processus ayant provoqué ce bug exceptionnel (reconnu par le constructeur). Nous avons donc recopié manuellement les configurations et procédé à un upgrade système des cinq équipements,  update qui était prévu lors d'une maintenance planifiée pour le 22 décembre qui est donc annulée.  A l'issue de ces actions, nous avons relancé l'ensemble des services qui avaient été éteint par sécurité en considérant que 3/5 de notre parc n'était plus joignable de façon stable. Chronologie Ci-dessous vous trouverez la chronologie des événements, communiqués et actions. 11h40 Début de l'instabilité suite à des bascules de ports d'un vlan vers un autre Détection immédiate de l'incident. 12h05 Premier billet de com sur le site des opérations optimiste après une résolution qui s'avère temporaire. 12h30 L'instabilité se propage et touche le site web également. Des communications sont effectuées immédiatement sur tweeter pour pallier l'instabilité du site web. Le problème d'instabilité des switches est compris en interne. Nous entamons une phase d'élaboration de plan d'action en lien avec le constructeur. 12h50 Annonce de perturbations pour une durée indeterminée. La durée fut calibrée par la suite mais le site des opérations n'était plus disponible. 14h Nous stabilisons les services principaux et nous préparons l'action de mise à jour. 15h Nous annonçons sur tweeter une opération de résolution d'une durée de 2h. Nous lançons l'opération de resynchronisation manuelle et de mise à jour système. 16h54 L'ensemble de l'opération est bouclée ainsi que la relance des services. Annonce de la reprise sur le site des opérations et sur tweeter. D'une façon globale nous vous rappelons qu'un projet de migration vers un datacenter et une architecture réseau encore plus robuste est planifiée pour le premier semestre 2011. Nous restons en vigilance et nous nous excusons auprès des bureaux d'enregistrement qui n'ont pu bénéficier de nos services d'enregistrement pendant plusieurs heures. Le service de résolution DNS n'a pas été impacté, les architectures de nos services essentiels étant découplées..
Haut de page

A propos de l'AFNIC

Créée en 1997, l’Afnic - Association Française pour le Nommage Internet en Coopération - est une association à but non lucratif. Désignée par l'État pour gérer les noms de domaine en .fr, elle en assure la promotion auprès des entrepreneurs et des particuliers. Gestionnaire historique du .fr avec plus de 3,2 millions de noms de domaine à ce jour, elle se positionne également comme fournisseur de solutions techniques et de services de registre : elle accompagne ainsi 14 projets de nouveaux domaines Internet de premier niveau dont le .paris et le .bzh. L’Afnic est implantée à Saint-Quentin en Yvelines : 80 personnes travaillent ainsi à ce bien commun qu’est l’Internet français. L’Afnic reverse 90% des bénéfices du .fr à la Fondation Afnic pour la solidarité numérique, qui finance des projets internet solidaire sur l’ensemble du territoire français. www.afnic.fr.