Sok vagy kevés 18 perc?

Az üzemzavar még hétfőn történt, amikor 18 percre leállít a Google Compute Engine (GCE) felhős szolgáltatása, gyakorlatilag az egész világon.

A vállalat szerdán adott szokatlanul részletes tájékoztatást a hibáról. A bejegyzés szerzője Benjamin Treynor Sloss, a Google folyamatos (24/7) szolgáltatásokért felelős vezetője, akik leírta, hogy a leállás feltehetően emberi ( és/vagy tervezési) hiba következtében történt. Egy rutinfrissítést végeztek a mérnökök, helyi idő szerint délután 14:50-kor, amikor is eltávolítottak egy használaton kívüli IP-blokkot. Ezek után érvényesítették a frissítést, ám a konzisztenciára és egyéb beállítások ellenőrzésére használt szoftverük hibát jelzett. Ekkor az lenne a bevett eljárás, hogy a rendszer visszaáll az előző helyes konfigurációra, ám nem ez történt, hanem a program a hibás konfiguráció paramétereivel frissített. Ennek lett a következménye a leállás.

A közlemény hangsúlyozza, hogy a hiba csak a GCE felhasználóit érintette, a többi felhős szolgáltatást nem. Ez azonban sok helyen okozhatott problémákat, ezért a Google az érintetteknek a szerződésben foglaltaknál nagyobb kárpótlást nyújt: 25 százalékos havidíj-kedvezményt, illetve a kreditek esetében 10 százalékot.

Száz százalékos rendelkezésre állás gyakorlatilag sehol sem biztosítható, ugyanakkor a helyzet mégis más az olyan globális felhőszolgáltatásoknál, mint a Google-é vagy a Microsoft-é, legalábbis horizontálisan: ha náluk lép fel komoly üzemzavar, akkor az gyakran nem korlátozódik régiókra, hanem globális problémát okoz.

Előzmények