Incendie chez OVH

Uggla · Mars 10, 2021, 3:29

OVHcloud victime d'un important incendie à Strasbourg - Les Numériques

aselkim · Mars 10, 2021, 6:39

Perso ça me laisse dubitatif quant à leurs compétences.

DamyR · Mars 10, 2021, 7:42

J’attends de voir le postmortem, j’avoue être assez curieux sur ce point.

Par contre la réaction de certain me fatigue… Franchement, faut arrêter de penser que le cloud est magique et que boom plus besoin de backup ni de multi-site.

@aselkim On ne sait pas encore ce qui c’est passé exactement, pour moi on a pas encore assez d’élément pour juger.

Bref, bon courage à leurs équipes en tout cas

freezed · Mars 10, 2021, 10:57

Le suivi est sur la tâche travaux FS#49484

aselkim · Mars 11, 2021, 9:17

Est-ce qu’on peut vraiment parler de cloud dans le cas d’ovh ?

Oui c’est pour cela que j’attends aussi avec impatience le rapport post-mortem, cela dit, on peut déjà se demander :

Pourquoi le système anti-incendie n’a pas fonctionné.
Est-ce que les bâtiments étaient correctement conçus pour résister aux incendies.
Et surtout, pourquoi construire des datacenters accolés les uns aux autres… Au vu de la façon dont ça semble avoir été fait, pour moi il s’agit de salles indépendantes plutôt.

DamyR · Mars 11, 2021, 9:36

Est-ce qu’on peut vraiment parler de cloud dans le cas d’ovh ?

Même si c’est que de la VM à la demande, ça reste du cloud, tu ne gère pas le physique, c’est à la demande. J’ai du mal à voir pourquoi ne pas le classer dans du cloud.

Pourquoi le système anti-incendie n’a pas fonctionné.

On ne sait pas ils ont peut-être pas été suffisant pour l’instant on en sait rien pour ça que j’attends avant de me prenoncer.

Est-ce que les bâtiments étaient correctement conçus pour résister aux incendies.

A voir pour le coup j’ai jamais visité de DC OVH.

Et surtout, pourquoi construire des datacenters accolés les uns aux autres… Au vu de la façon dont ça semble avoir été fait, pour moi il s’agit de salles indépendantes plutôt.

Pour réduire les coûts et surtout simplifier l’implémentation en milieu urbain. En vrai beaucoup de fond, Equinix et autre c’est la même. Pour moi c’est un faux soucis, tant que c’est communiqué. Si tu as besoin de haute disponibilité tu fait du multi-région, OVH en a aussi plusieurs.

aselkim · Mars 11, 2021, 11:01

Il y a beaucoup à dire mais je ne suis pas là pour faire le procès d’OVH

DamyR · Mars 11, 2021, 12:56

On peut beaucoup en parler effectivement, mais c’est une vrai question de fond qui ne dépends pas que d’OVH.

lugirard · Mars 11, 2021, 4:47

Ca dépend de l’offre que tu prends je pense (Je ne connais pas les offres OVH) de base c’est un Host-provider (C’est dans le nom, On Vous Heberge). Maintenant ils on aussi je pense des offres de Cloud pour être considérer comme un cloud-provider, et justement facilité ton PRA, ta haute dispo etc…

Sur Azure t’as un service qui se nomme Azure backup par exemple, il est pas la pour faire jolie.

cchaudier · Mars 11, 2021, 5:49

@aselkim oui OVH est un fournisseur Cloud, il fournit toutes les briques de base IAAS et même quelques services managés.
Pourquoi pense tu que ce n’en est pas un ?
Qu’est-ce qui caraterise un fournisseur cloud selon toi ?

Octave Klaba tien un fils twitter d’information en plus du ticket fournis par @freezed ici : https://twitter.com/olesovhcom/status/1369478732247932929

Et il y a une vidéo assez transparante sur ce qu’ils savent actuellement.

Je suis d’accords avec @DamyR sur la réaction de certains sur Twitter.
Le cloud c’est pas magique, un EC2 chez AWS c’est pas de la haute dispo.
Si ta zone elle crame t’a le même problème ton site est down.
Si t’a pas pensé aux sauvegarde tu n’a pas de PRA activable.
Si on veux de la haute dispo, de la vrai hein, il faut y mettre le prix, il faut prendre des Ops et des architectes compétant et il faut une infra multicloud…

Cela va me donné l’occasion de faire un episode de podcast sur les sauvegardes justement.

aselkim · Mars 11, 2021, 7:10

Si je me réfère avec mon expérience avec leur offre de public cloud et qui remonte à 4/5 ans, je me souviens que :

Il n’y avait pas de gestion de l’autoscaling.
Pas de mécanisme de surveillance des VMs, de gestion du cycle de vie, …etc.
Il y avait une latence non négligeable entre les différents datacenters (par exemple entre GRA et SBG).
Très peu de services managés, il me semble qu’il y avait que le service de base de données managé à l’époque.

Hors si on fait du cloud c’est pour principalement 3 raisons :

Payer à l’usage.
Pouvoir gérer des changements de charge.
Pouvoir construire des architectures résilientes : multi-région, microservices, …etc.

A l’époque en tout cas il n’y avait pas tout ce qu’il fallait pour réaliser facilement tout cela.

Bien au contraire, lorsqu’on fait du cloud, on ne gère pas les serveurs comme des animaux de compagnie mais comme du bétail, en perdre est une routine.

Quelle team sérieuse fait du mono-zone sur AWS ? On fait du multi-région ou encore mieux du multi-cloud.

Sinon au moins chez AWS, les zones ne sont pas 2 datacenters collés l’un à l’autre.

A mon avis les plus impactés dans cet incident sont les petits exploitants qui font de la gestion de serveurs, les petites agences web, …etc.

PS/

Je n’ai rien contre OVH, je n’ai pas re-utilisé leurs services depuis 4 ou 5 ans, cela à probablement évolué depuis.
Même les principaux cloud providers ont connu des incidents majeurs.

Uggla · Mars 12, 2021, 7:48

Malheureusement oui. En fait certaines choses qui nous paraissent basiques comme de bons backups ne le sont pas forcement pour de petites sociétés, juste par méconnaissance du métier.
Je partage ici le cas de Candysan, qui montre bien la galère de subir un incident informatique quand on est pas prêt: Souhaitez nous bon courage :( - YouTube
et Sauvez Candysan - YouTube
Heureusement, ils n’ont pas tout perdu grâce à un backup du site principal vieux de 24h, mais c’est la grosse pagaille pour gérer le problème.
D’ailleurs si vous voulez les soutenir un peu: https://sauvezcandysan.com/

aselkim · Mars 12, 2021, 10:01

Intervention vidéo de Octave Klaba : https://www.ovh.com/fr/images/sbg/index-fr.html

Visiblement, la piste d’un départ de feu depuis un onduleur semble se confirmer.

cchaudier · Mars 12, 2021, 1:17

Je m’exprime sur le sujet dans La Trouvaille du Vendredi

freezed · Mars 13, 2021, 2:53

La page statut de l’incident accessible depuis la home page :

Statut de la situation à Strasbourg

cchaudier · Mars 18, 2021, 10:06

Ça m’a inspiré le podcast du jour :

aselkim · Mars 20, 2021, 10:31

jderrien · Mars 20, 2021, 2:03

Aie.