Retour à la liste

Bilan sur la coupure de service de cette après-midi

mercredi 08 décembre 2010 00:00:00

Bonjour, vous trouverez ci-joint un récit plus détaillé des causes de l'incident de cette après-midi ainsi que de la chronologie des détections et actions prises. La durée totale des perturbations a été de 6h, ce qui en fait l'interruption la plus notable depuis le lancement de notre chaîne temps réel. Nous vous rappelons que vous pouvez suivre notre niveau de service de façon mensuelle ici : http://operations.afnic.fr/fr/documents#qualite

Cause de l'incident Hier soir une première alerte a eu lieu vers 19h. Des migrations standards d'équipements d'un VLAN vers un autre ont brutalement rendu instable le stack complet de  switches de notre site de production. La situation a pu être rétablie en 25 minutes mais nous avons identifié un point d'analyse pour le lendemain. Vers 11h40, deux de nos switches maitres sont restés opérationnels pendant que trois switches esclaves ont entièrement perdu leur  configurations et leur OS et n'étaient plus synchronisables. Il s'est avéré dans les phases ultérieures de l'analyse qu'il s'agissait d'un problème interne aux équipements provoquant une lente dégradation sur la durée. Avec l'aide du support du constructeur nous avons pu identifier le processus ayant provoqué ce bug exceptionnel (reconnu par le constructeur). Nous avons donc recopié manuellement les configurations et procédé à un upgrade système des cinq équipements,  update qui était prévu lors d'une maintenance planifiée pour le 22 décembre qui est donc annulée.  A l'issue de ces actions, nous avons relancé l'ensemble des services qui avaient été éteint par sécurité en considérant que 3/5 de notre parc n'était plus joignable de façon stable. Chronologie Ci-dessous vous trouverez la chronologie des événements, communiqués et actions. 11h40 Début de l'instabilité suite à des bascules de ports d'un vlan vers un autre Détection immédiate de l'incident. 12h05 Premier billet de com sur le site des opérations optimiste après une résolution qui s'avère temporaire. 12h30 L'instabilité se propage et touche le site web également. Des communications sont effectuées immédiatement sur tweeter pour pallier l'instabilité du site web. Le problème d'instabilité des switches est compris en interne. Nous entamons une phase d'élaboration de plan d'action en lien avec le constructeur. 12h50 Annonce de perturbations pour une durée indeterminée. La durée fut calibrée par la suite mais le site des opérations n'était plus disponible. 14h Nous stabilisons les services principaux et nous préparons l'action de mise à jour. 15h Nous annonçons sur tweeter une opération de résolution d'une durée de 2h. Nous lançons l'opération de resynchronisation manuelle et de mise à jour système. 16h54 L'ensemble de l'opération est bouclée ainsi que la relance des services. Annonce de la reprise sur le site des opérations et sur tweeter. D'une façon globale nous vous rappelons qu'un projet de migration vers un datacenter et une architecture réseau encore plus robuste est planifiée pour le premier semestre 2011. Nous restons en vigilance et nous nous excusons auprès des bureaux d'enregistrement qui n'ont pu bénéficier de nos services d'enregistrement pendant plusieurs heures. Le service de résolution DNS n'a pas été impacté, les architectures de nos services essentiels étant découplées..
Haut de page

A propos de l'AFNIC

L’Afnic (Association française pour le nommage Internet en coopération) est une association française à but non lucratif. Depuis 20 ans, nous sommes l'office d'enregistrement pour la gestion des adresses internet sous l’extension .fr. Nous gérons également les extensions ultramarines .re (Ile de la Réunion), .pm (Saint-Pierre et Miquelon), .tf (Terres australes et antarctiques françaises), .wf (Wallis et Futuna), .yt (Mayotte). Ce qui représente plus de 3,2 millions de noms de domaine et sommes l’opérateur technique de 14 entreprises et collectivités ayant choisi d’avoir leur propre extension dont .paris, .bzh, .alsace, .corsica, .mma, .ovh, .leclerc ou encore .sncf. Nous sommes engagés à accompagner la transformation numérique des TPE/PME grâce à notre dispositif Réussir en .fr (www.reussir-en.fr) et proposons une offre gratuite d’accompagnement à la présence en ligne allant des outils de diagnostic aux formations sur le terrain dans toute la France. En tant qu’association, nous fédérons une communauté de plus d’une centaine de membres aux profils variés mais tous acteurs du web : bureaux d’enregistrement, entreprises, fédérations, utilisateurs, institutionnels, etc. Notre rôle s’inscrit dans une mission d’intérêt général plus large, qui consiste à contribuer au quotidien à un internet sûr et stable, ouvert aux innovations où la communauté internet française joue un rôle de premier plan. Par ailleurs, nous reversons 90% des bénéfices de la gestion du .fr à notre Fondation Afnic pour la solidarité numérique (www.fondation-afnic.fr) qui finance chaque année une trentaine de projets visant à réduire la fracture numérique sur tout le territoire français.