A DevOps-on túl: a Site Reliability Engineer

Először DevOps néven terjesztették a rendszergazda új szerepének definícióját az informatikai közösségekben. A közösségek a szoftverfejlesztőkkel szorosan együtt dolgozó operatív “rendszergazda” személyét hosszú ideig nem tudták hova sorolni, míg végül megszületett a SRE, a Site Reliability Engineer elnevezés.

Angol nyelvű informatikai kifejezések magyarra fordításával gyakran bajban vagyok. A honosítás (magyarra fordítás) során elveszhet, vagy csorbulhat a lényeg, amely olyan jól és tömören visszatükröződik az eredeti angol kifejezésben. Ráadásul az angol változat gyakran már elterjedt, így még nehezebb bevezetni a magyar megfelelőjét. Érdemes egyáltalán a fordítással bajlódni?

Hasonlóan látom a Google által bevezetett “Site Reliability Engineer” kifejezés fordítását is. Website megbízhatósági mérnök. Nem. Webes alkalmazások megbízhatóságáért felelős mérnök. Hmmm. Eggyel közelebb. Talán.

How Google Runs Production Systems

Site Reliability Engineering

Szóval ki is az az “SRE”?

A kifejezés a Google-nél merült fel először. A szoftveróriás története a hihetetlenül gyors növekedésről szól. A Google volt az első olyan cég, ahol pontosan meghatározták és a gyakorlatban is alkalmazták az üzleti és informatikai célok, feladatok és értékek együttes kezelését, az IT súlyozott érvényesítését, az IT vezérelte üzleti modellt.

A Google abban az időszakban nőtt nagyot, amikor a tradicionális rendszergazda szerepköre is megváltozott. A tradíciók szerinti titkos tanok ismerője egyfajta varázsló volt. Csak ő látta át a rendszer egészét, csak ő látott bele a mélységekbe.

A szupergyors növekedéssel viszont a rendszerek száma és mérete is exponenciálisan nőtt, a hagyományos rendszergazdáknak tulajdonított varázserőre többé már nem lehetett alapozni. Szakítani kellett a hagyományokkal és a Google nem várhatott arra, hogy valaki más majd előáll a megoldással. Magukra kellett vállalják az úttörő szerepet.

Először DevOps néven terjesztették a rendszergazda új szerepének definícióját az informatikai közösségekben. A közösségek a szoftverfejlesztőkkel szorosan együtt dolgozó operatív “rendszergazda” személyét hosszú ideig nem tudták hova sorolni. Most akkor a DevOps egy ex-fejlesztő, aki mellesleg a rendszergazdai területen is otthonosan mozog? Vagy egy full-stack fejlesztő, akire a kódírás felelőssége mellett még a rendszer karbantartásának felelőssége is hárul? A DevOps egy automatizáló mérnök?

Minden cégnek, minden kis közösségnek megvan a maga definíciója. Az SRE azonban a DevOps-on is túlmutat.

Nézzük meg magát a kifejezést szavanként, hátulról indulva:

Az SRE elsősorban egy mérnök (engineer), aki a számítástechnikai és mérnöki tudományokra alapozva számítógépes rendszereket tervez és épít. Ezek a rendszerek a legtöbbször nagy kiterjedésű, elosztott rendszerek.

Másodsorban emeljük ki a középső szót: reliability, vagyis szó szerint megbízhatóság. A Google mérnökei szerint a megbízhatóság egy termék legfontosabb mérhető tulajdonsága. Mivel a megbízhatóság ennyire kritikus, érdemes állandóan a fókuszba helyezni. Ezért szerepel ez a szó a munkakör nevében.

Végül nézzük a “site” szót. Az eredetileg “website”-ot, vagyis weboldalt jelentő szót a Google sokkal szélesebben értelmezi: a Google alapvetően online (“webes”) szolgáltatásokat épít és üzemeltet. Így az SRE ezekért az online szolgáltatásokért (services) felelő szakember.

Cikksorozatunkban a Google által kiadott – angolul ingyenesen is elérhető – Site Reliability Engineering könyv alapján mutatjuk be a Google gyakorlatát. A következő részben megnézzük, milyen mérőszámok alapján érdemes és célszerű egy webes szolgáltatás megbízhatóságát mérni és nyomon követni.

Mit várunk a 2018-as évtől?

2017 számunkra az új lehetőségek és a stabil növekedés éve volt. Új munkatársakkal kibővült, közel száz fős csapatunkkal januártól nagyszabású…