Episode Details
Back to Episodes
#17 Was können wir beim Incident Management von der Feuerwehr lernen?
Description
Was haben die Methoden der Feuerwehr zur Bekämpfung von Großschadensereignissen mit dem Incident Management von IT-Systemen gemeinsam?
Diese Frage klären wir in der folgenden Episode. Wolfgang, als Mitglied der freiwilligen Feuerwehr, gibt einen Einblick in das Prozedere, wenn die Feuerwehr ausrückt. Andy vergleicht dies mit dem Incident Management von Cloud-Systemen. Wir klären wie man den Schaden eines Incidents misst, was dies mit dem Vertrauen von Kunden zu tun hat, wie ordentliche Prävention aussehen kann und warum es dafür wenig Ruhm gibt, was man unter War- und Peacetime versteht, wie ein moderner “Schreiberling” aussieht, wie dreist Presseleute sein können und was eine kleine Konferenz in Kalifornien damit zu tun hat.
Bonus: Was Gartenschläuche und Stahl-Hochöfen damit zu tun haben und wieso Kaffee holen doch eine Strategie sein kann.
Feedback an stehtisch@engineeringkiosk.dev oder via Twitter an https://twitter.com/EngKiosk
Unsere aktuellen Werbepartner findest du auf https://engineeringkiosk.dev/partners
Links
- Datenverlust bei 1.500 Snapshots von Hetzner Cloud: https://www.golem.de/news/trotz-redundanz-datenverlust-bei-1-500-snapshots-von-hetzner-cloud-2204-164628.html
- Ceph Storage: https://ceph.io/
- Inside the Longest Atlassian Outage of All Time: https://newsletter.pragmaticengineer.com/p/scoop-atlassian
- Atlassian stoppt den Verkauf von On-Premise Lizenzen: https://www.atlassian.com/migration/assess/journey-to-cloud
- auditd: https://linux.die.net/man/8/auditd
- rsyslog: https://www.rsyslog.com/
- Incident.io: https://incident.io/
- 5-Why-Methode: https://de.wikipedia.org/wiki/5-Why-Methode
- Postmortem “Roblox Return to Service 10/28-10/31 2021”: https://blog.roblox.com/2022/01/roblox-return-to-service-10-28-10-31-2021/
- Postmortem “The Discovery of Apache ZooKeeper’s Poison Packet”: https://www.pagerduty.com/blog/the-discovery-of-apache-zookeepers-poison-packet/
- Postmortem “etcd: v3.5 data inconsistency”: https://github.com/etcd-io/etcd/blob/main/Documentation/postmortems/v3.5-data-inconsistency.md
- Postmortem: “Gocardless: Incident review: API and Dashboard outage on 10 October 2017”: https://gocardless.com/blog/incident-review-api-and-dashboard-outage-on-10th-october/
- Postmortem: “Monzo,Outage, 29. July 2019”: https://monzo.com/blog/2019/09/08/why-monzo-wasnt-working-on-july-29th
- Sammlung von verschiedenen Postmortems: https://github.com/danluu/post-mortems<