Network problem
Incident Report for Litium AB
Postmortem

REPORT SUMMARY OF SERVICE INTERRUPTION NOVEMBER 18-19, 2019

We would like to apologize for the effects and consequences experienced by our customers due to the incident. We could not prevent what happened, but would like in this incident report to explain what transpired and which measures have consequently been taken. Litium is passionate about providing our customers with a secure and reliable service, and we pledge to do so.

Litium’s services were affected from Monday November 18 at 4:03 p.m. to Tuesday November 19 at 3:46 p.m. The service interruption was caused by one of Litium’s managed service providers experiencing a disruption to one of its services, which caused the sites to go down for many of its customers — including Litium and Litium's customers. Below is a description of what happened.

The incident was triggered by an extensive power outage in Stockholm. After the power outage, the managed service provider’s system monitoring and physical inspection indicated that everything in the data center was normal. A non-functioning component provided a false status, however, which had major consequences on power supply. The data center lost power after 45 minutes.

The power outage in the data center and the unscheduled system shutdown caused several additional problems. The most critical additional problem, which also caused most of the sites’ downtime, was a system check of data integrity. The process is automatically launched at startup, which takes place in several steps, and cannot be circumvented. These data storage clusters are vital for other services, which meant that the services either could not be started or had diminished capacity. The websites could not be accessed.

The first priority was to ensure that no data was lost and to minimize downtime. It was not possible to govern the order in which the system was restored. The majority of the websites could not be accessed until the most vital systems were functional again. When the data storage clusters were once again fully functional, work on starting up all of the necessary systems could begin. The main priority was for as many websites as possible to become accessible, and most of Litium’s customers were up and running within an hour of the data storage cluster becoming fully functional. Work on ensuring that all of our customers’ websites were accessible continued as full capacity was restored.

Without minimizing what happened, it is important to note that the incident was based on extremely unlikely events and on several events following one after another.

· It is very unusual for components in a distribution power station to become non-functional. At the same time, distribution power stations are regularly maintained and tested. The most recent test was conducted three weeks ago, and no faults were recorded.

· Litium’s most vital systems were found in the data storage cluster that requires a data integrity check.

· The power outage was unusually long.

Our architecture is based on best practice for the industry, and is used by both global and local operators.

We have initiated an investigation together with our managed service provider with the aim of preventing similar problems from arising in the future and to identify any deficiencies or needed improvements. Through statistics, however, we know that the current solution has a very high degree of availability.

The main corrective measure has involved replacing the faulty component in the distribution power station. In addition, procedures and checks have been extended to include the scenario that arose as well as similar scenarios. Due to the business-critical nature of our customers’ websites, Litium has always prioritized reliability of service. Despite the incident, we have complete confidence in our architecture and in our managed service provider.

At the same time, we would like to assure all of our customers that we, as always, will do everything in our power to ensure a very stable and high-performance service delivery as we approach Black Friday and Christmas shopping.

Detailed description

11/18/2019

3:15 p.m. A major power outage impacts the Vasastan area in Stockholm.

3:15 p.m. The UPS system takes over and supplies power to the data center.

3:16 p.m. The secondary power supply is launched through a diesel-powered generator to supply the UPS system with electricity in the event of a long disruption. System monitoring and physical inspection are conducted according to procedure. Status for everything is OK. Personnel is on site at the data center.

4:03 p.m. The UPS system stops supplying power to the data center, and all of the systems lose power.

4:50 p.m. Power supply to the affected area returns to normal.

5:25 p.m. After troubleshooting, the primary distribution power station is identified as the source of failure, even though the distribution power station indicated status as OK and power was supplied. Switchover to the secondary distribution power station commences.

6:05 p.m. The secondary distribution power station is now operational, and the data center has power again.

6:30 p.m. At startup, issues with some of the data storage clusters are identified. The problems result in the services not starting up or in them working at very low capacity. A system check is required to ensure none of the data is lost. The process is divided into several steps, which results in a longer startup time and that nothing can be influenced or avoided.

7:00 p.m.-11.10 p.m. Several systems which are not dependent on the affected data storage clusters become functional.

11/19/2019

2:53 a.m. One of the affected data storage clusters becomes functional. Several services start up.

7:55 a.m. All of the affected data storage clusters are fully functional, and work to restore all of the services begins.

8:50 a.m. The majority of Litium’s customers are up and running again. Work continues to restore functionality for the remaining customers.

11:10 a.m. A few of Litium’s customers are still not accessible. Some customers are experiencing somewhat reduced performance.

2:25 p.m. All of Litium’s services are working and have full performance.

3:46 p.m. The incident’s status is updated to “monitored”, and all customers have full functionality.

Measures

The fault in the primary distribution power station has been rectified. In accordance with our regular process, procedures and checks have been updated to cover this event and similar events. Even though disruptions are extremely rare, there are no ironclad guarantees against them. Litium continuously works together with our suppliers to minimize the consequences for our customers. An initial investigation has been conducted which shows that the current architecture is in accordance with best practice, and we have complete confidence in our managed service provider and the measures that have been undertaken.

RAPPORTSUMMERING DRIFTAVBROTT 2019-11-18/19

Vi vill be om ursäkt för de effekter och konsekvenser som denna incident har orsakat för våra kunder och deras kunder. Vi kan inte förhindra det som inträffat men vi vill med denna incidentrapport förklara vad som hände och vilka åtgärder som vidtagits. Litium brinner för, och lovar våra kunder, att leverera en trygg och säker tjänst.

Mellan måndagen den 18 november 2019 kl 16:03 och tisdagen den 19 november 2019 kl 15:46 var Litiums tjänster påverkade. Detta på grund av att Litiums driftleverantör drabbades av ett avbrott i en av sina tjänster som i sin tur orsakade att sajterna gick ner för ett stort antal av deras kunder, däribland Litium och Litiums kunder. Nedan följer en beskrivning av vad som hände:

Incidenten utlöstes av ett omfattande strömavbrott i Stockholm. Efter strömavbrottet indikerade driftleverantörens systemövervakning och fysisk inspektion att allt var normalt i datacentret. En icke fungerande komponent gav en felaktig status, som fick stora konsekvenser för strömförsörjningen, och datahallen blev strömlös efter 45 minuter.

På grund av strömbrist i datahallen och oplanerad nedstängning av systemen uppstod ett antal följdproblem. Det mest kritiska följdproblemet, som också orsakade merparten av sajternas nedtid, var en systemkontroll av dataintegriteten. Processen påbörjas automatiskt vid uppstart, vilken genomförs i flera steg, och kan inte förbigås. Dessa datalagringskluster är vitala för andra tjänster vilket orsakade att tjänsterna inte gick att starta eller hade nedsatt kapacitet. Webbplatserna var nu inte nåbara.

Prioritet sattes till att säkerställa att ingen data gick förlorad och minimera nedtid. Ordningsföljden för återställande av system var ej möjlig att styra. Först när ett av de mest vitala systemen kom igång var majoriteten av webbplatserna nåbara. När datalagringsklustren var i fullt bruk så kunde arbetet med att starta upp alla nödvändiga system påbörjas. Prioritet var att så många webbplatser som möjligt blev nåbara och större delen av Litiums kunder var uppe inom en timme från att datalagringsklustren var i fullt bruk. Arbetet fortgick sedan med att få alla kunders webbplatser tillgängliga samtidigt som full kapacitet återställdes.

Det är viktigt att markera, utan att förringa, att incidenten byggde på extremt osannolika händelser och att flera händelser följde varandra.

· Att ingående komponenter i ett ställverk går sönder är mycket ovanligt. Samtidigt underhålls och testas ställverket regelbundet. Senaste testet var för 3 veckor sedan. Testet gick igenom utan anmärkning.

· Litiums mest vitala system låg på det datalagringskluster som krävde kontroll av dataintegritet.

· Strömavbrottet var ovanligt långt.

Vår arkitektur är byggd på best practice för branschen och är vad som används av både globala och lokala aktörer.

Vi har nu inlett en utredning tillsammans med vår driftleverantör i syfte att förhindra att liknande problem uppstår igen och se över om det finns några brister eller förbättringar. Dock vet vi, genom statistik, att nuvarande lösning har en mycket hög tillgänglighet.

Den huvudsakliga åtgärden är att den felaktiga komponenten i ställverket har bytts ut. Därutöver har rutiner och kontroller utökats för att täcka det scenario som uppstod och liknande scenarion. Litium har alltid prioriterat driftsäkerhet med tanke på att våra kunders webbplatser är mycket affärskritiska. Vi har, trots incidenten, fullt förtroende för vår arkitektur och vår driftleverantör.

Vi vill samtidigt försäkra alla våra kunder att vi, som vanligt, gör allt för att säkerställa en mycket stabil och högpresterande leverans inför kommande Black Friday och julhandel.

Detaljerad beskrivning

2019-11-18

15:15 Ett större strömavbrott drabbade området Vasastan i Stockholm.

15:15 UPS-systemet tog över och levererade ström till datahallen.

15:16 Den sekundära strömförsörjningen genom ett dieselaggregat startade upp för att förse UPS-systemet med ström vid längre avbrott. Kontroll genom monitorering och fysisk besiktning genomfördes enligt rutin. Allt visade status OK. Personal finns på plats i datahallen.

16:03 UPS-systemet slutade att leverera ström till datahallen och alla system blev strömlösa.

16:50 Strömförsörjningen till det drabbade området återgick till det normala.

17:25 Efter felsökning så identifierades det primära ställverket som felkälla, trots att ställverket indikerade att status var OK och att ström levererades. Byte till det sekundära ställverket påbörjades.

18:05 Det sekundära ställverket är nu i bruk och datahallen har åter ström.

18:30 Vid uppstart identifieras problem med vissa datalagringskluster. Konsekvensen blir att tjänster inte startas eller arbetar med mycket låg kapacitet. Systemkontroll krävs för att säkerställa att ingen data går förlorad. Processen är uppdelad i flera steg vilket ger en längre uppstartstid och inget som går att påverka eller undvika.

19:00-23:10 Ett antal system, ej beroende på berörda datalagringkluster, tas åter i drift.

2019-11-19

02:53 Ett av de berörda datalagringklustren är åter i drift. Fler tjänster startas.

07:55 Alla berörda datalagringklustren är åter i full drift och arbetet med att återställa alla tjänster påbörjas.

08:50 Majoriteten av Litiums kunder är i drift. Arbetet fortsätter med att återställa funktionen för resterande kunder.

11:10 Ett fåtal av Litiums kunder är fortfarande inte nåbara. Viss reducerad prestanda för ett antal kunder förekommer.

14:25 Alla Litiums tjänster är åter i bruk och har nu full prestanda.

15:46 Statusen på incidenten uppdateras till ”övervakas” och alla kunder är i full drift.

Åtgärd

Felet på det primära ställverket har åtgärdats. Enligt normal process så har rutiner och kontroller uppdaterats för att täcka denna händelse och liknande händelser. Om än extremt ovanligt, finns inga fullständiga garantier mot avbrott. Litium arbetar ständigt tillsammans med våra leverantörer för att minimera konsekvenserna för våra kunder. En första utredning har genomförts vilken visar att nuvarande arkitektur är enligt best-practise och vi har fullt förtroende för vår driftleverantör och de åtgärder de genomför.

Posted Nov 22, 2019 - 12:38 CET

Resolved
Incident is now fully resolved. We are working on the incident report to be published here soon.
Posted Nov 20, 2019 - 19:01 CET
Update
All services are now operational and we are continuing to monitor in case of any further issues.
Posted Nov 19, 2019 - 15:46 CET
Monitoring
All services are now operational and we are monitoring eventual problems. We still have some isolated issues but affected customers are informed.
Posted Nov 19, 2019 - 14:25 CET
Update
All services are now operational and we are working on isolated issues for a few of our customers.
Posted Nov 19, 2019 - 11:10 CET
Update
Most services are now operational and we are working on remaining issues. Most customers is now also online.
Posted Nov 19, 2019 - 08:50 CET
Update
Most services are now operational. Work is continuing with full speed to get all services running.
Posted Nov 19, 2019 - 07:13 CET
Update
Still working on the problem, nothing new to report
Posted Nov 19, 2019 - 03:17 CET
Update
The work continues and we now have a few new services back in operation. We will keep providing information as we get it.
Posted Nov 19, 2019 - 01:28 CET
Update
Still working on the problem, nothing new to report.
Posted Nov 19, 2019 - 00:14 CET
Update
Still working on the problem, nothing new to report.
Posted Nov 18, 2019 - 23:15 CET
Update
Some services are now back in process. Work is continuing with full speed until all customers services are up and running. More information will come.
Posted Nov 18, 2019 - 21:51 CET
Update
The work on getting all services back to operational is continuing. More information to come.
Posted Nov 18, 2019 - 20:41 CET
Identified
The problem has been Identified. We are currently working on getting all services back to operational!
Posted Nov 18, 2019 - 19:00 CET
Update
We are continuing to investigate this issue.
Posted Nov 18, 2019 - 17:20 CET
Update
We are still working on the problem and will post more information as we get it.
Posted Nov 18, 2019 - 17:19 CET
Update
We are continuing to investigate this issue.
Currently we are not sure what the origin of the problem is but we know it's not limited to only Litium and customers.
Posted Nov 18, 2019 - 16:44 CET
Investigating
Currently our internet provider are experiencing network problems, we are working on solving this issue.
Posted Nov 18, 2019 - 16:16 CET
This incident affected: Cloud (Web servers, Database services, Network & infrastructure, Shared services) and Web resources (www.litium.se, www.litium.com, support.litium.se, docs.litium.com, demo.litium.com).