Spolehlivost webu - Site reliability engineering
![]() | Tento článek obsahuje seznam obecných Reference, ale zůstává z velké části neověřený, protože postrádá dostatečné odpovídající vložené citace.Květen 2016) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Spolehlivost webu (SRE) je obor, který zahrnuje aspekty softwarové inženýrství a aplikuje je na infrastrukturu a provozní problémy.[1] Hlavním cílem je vytvořit škálovatelné a vysoce spolehlivé softwarové systémy. Podle Bena Treynora, zakladatele společnosti Google Tým pro spolehlivost stránek, SRE je „to, co se stane, když má softwarový inženýr za úkol to, co se dříve nazývalo operace."[2]
Role
Inženýr spolehlivosti webu (SRE) stráví až 50% svého času prací související s operacemi, jako jsou problémy, pohotovostní služba a ruční zásahy. Protože software Očekává se, že systém, na který SRE dohlíží, bude vysoce automatický a samoléčebný, by měl SRE strávit dalších 50% svého času vývojovými úkoly, jako jsou nové funkce, škálování nebo automatizace. Ideálním kandidátem na spolehlivost webu je buď softwarový inženýr s dobrým administračním zázemím, nebo vysoce kvalifikovaný správce systému se znalostí kódování a automatizace.[3]
DevOps vs SRE
DevOps, vytvořený kolem roku 2008, je filozofií empatie mezi týmy a sladění obchodních vztahů. Je to také spojeno s praxí, která zahrnuje automatizaci manuálních úkolů, kontinuální integrace a průběžné dodávky. SRE a DevOps sdílejí stejné základní principy. Mnoho lidí považuje SRE (jak je uvedeno v knize Google SRE) za „konkrétní implementaci DevOps s některými výstřední rozšíření ". Jednotky SRE, které jsou samy vývojáři, přirozeně přinesou řešení, která pomohou odstranit bariéry mezi vývojovými týmy a provozními týmy."
DevOps definuje pět klíčových pilířů úspěchu:
- Omezte organizaci sila
- Přijměte selhání jako obvykle
- Provádět postupné změny
- Využijte nástroje a automatizaci
- Změřte všechno
SRE splňuje pilíře DevOps takto:[4]
- Snižte organizační sila
- SRE sdílí vlastnictví s vývojáři, aby vytvořili sdílenou odpovědnost[5]
- SRE používají stejné nástroje, které používají vývojáři, a naopak
- Přijměte selhání jako obvykle
- SRE zahrnují riziko[6]
- SRE kvantifikuje selhání a dostupnost normativním způsobem pomocí Ukazatele úrovně služeb (SLI) a Cíle na úrovni služeb (SLO)[7]
- SRE pověřuje bezúhonné posmrtné práce[8]
- Provádět postupné změny
- SRE doporučuje vývojářům a vlastníkům produktů, aby se rychle pohybovali snížením nákladů na selhání[6]
- Využijte nástroje a automatizaci
- SRE mají chartu pro automatizaci manuálních úkolů (nazývaných „dřina“)[9]
- Změřte všechno
- SRE definuje normativní způsoby měření hodnot[10]
- SRE v zásadě věří, že provoz systémů je softwarovým problémem
Viz také
- Cloudové výpočty
- Datové centrum
- Software vysoké dostupnosti
- Infrastruktura jako kód
- Provoz, správa a řízení
- Řízení provozu
- Spolehlivost inženýrství
- Správa systému
Reference
- ^ Co dělá spolehlivý inženýr?
- ^ Jsou SRE další vědci v oblasti dat?, TechCrunch, 2. března 2016, Donald Fischer
- ^ Jones, Chris; Underwood, Todd; Nukala, Shylaja (červen 2015). „Pronájem techniků spolehlivosti stránek“ (PDF). ;přihlásit se:. Sv. 40 č. 3. s. 35–39.CS1 maint: extra interpunkce (odkaz)
- ^ Google Cloud Platform (1. března 2018). „Jaký je rozdíl mezi DevOps a SRE? (Třída SRE implementuje DevOps)“. str. 35–39 - prostřednictvím YouTube.
- ^ „Google - Engineering Reliability Engineering“. landing.google.com.
- ^ A b „Google - Engineering Reliability Engineering“. landing.google.com.
- ^ „Google - Engineering Reliability Engineering“. landing.google.com.
- ^ „Google - Engineering Reliability Engineering“. landing.google.com.
- ^ „Google - Site Reliability Engineering“. landing.google.com.
- ^ „Google - Site Reliability Engineering“. landing.google.com.
Další čtení
- Engineering Reliability Engineering: Jak Google provozuje produkční systémy, O'Reilly Media, duben 2016, Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, ISBN 978-1-491-92912-4
- Praxe správy cloudových systémů: Navrhování a provozování velkých distribuovaných systémů, svazek 2, Thomas Limoncelli, ISBN 032194318X
- Google - rozhovor o spolehlivosti stránek s Benem Treynorem