Společnost Seznam.cz od března roku 2015 provozuje vlastní unikátní datové centrum, v němž většina instalovaných serverů běží na platformě Intel. To nese název Kokura a fyzicky se nachází na okraji Prahy v lokalitě Horních Počernic. Možnost do něj nahlédnout jsem dostal přibližně po půl roce od spuštění provozu, kdy je již vše v plném rutinním nasazení. Při té příležitosti jsem si nenechal utéct možnost vyzpovídat Vlastimila Pečínku, technického ředitele společnosti Seznam.cz a celého projektu.

Seznam.cz si s myšlenkou vlastního datového centra vážněji pohrával přibližně od poloviny roku 2012. V první fázi se společnost věnovala vnitřnímu třídění myšlenek o tom, jak by měl projekt vypadat, následně pak zadala dvěma externím firmám za úkol vytvořit nezávislé studie. Ke konci roku už měl management Seznamu v rukou dvě studie proveditelnosti a obě dávaly projektu zelenou.

Pro měření ekonomičnosti projektu si vedení společnosti stanovilo ukazatel TCO na kW IT. Ten si klade za cíl změřit, kolik peněz se vynaloží na jednotku instalovaného příkonu serveru. V tomto ohledu porovnává studie proveditelnosti projekt Kokura s pronajatým prostorem datacenter provozovaných u komerčních partnerů.

Počátkem roku 2013 se tak vedení rozhodlo vybudování vlastního datacentra skutečně realizovat. Následovalo rozhodování o výběru pozemku a řešení realizačního plánu projektu. O volbě pozemku rozhodovala hlavně tři kritéria: existence územního rozhodnutí, dostupnost adekvátních rozvodů elektřiny a dostupnost optiky. Když se našel vhodný pozemek ke koupi, bylo nutné ještě vyřešit změnu územního rozhodnutí a také příslušná stavební povolení. Legislativní kroky nicméně trvaly trochu déle, než se předpokládalo, takže všechna potřebná razítka získal Seznam až v červnu 2014.

Již v květnu tohoto roku byl ale odhalen základní kámen, o měsíc později následovalo první kopnutí do země a za dalších zhruba osm měsíců byla stavba hotova. V březnu 2015 přišly na řadu zátěžové zkoušky a od dubna se již do Kokury stěhovaly servery z datového centra TTC. Vyhrazené tříměsíční okno se v tomto případě smrsklo na polovinu, takže za zhruba šest týdnů bylo hotovo.

Zajímavostí je skutečnost, že Seznam pro provoz centra založil zvláštní společnost - Seznam.cz datová centra, s.r.o. „Ta je manažersky nastavená tak, aby vykazovala provozní zisk. A jejím jediným zákazníkem je právě Seznam.cz,“ upřesňuje Vlastimil Pečínka. Ten v současnosti počítá s tím, že Kokura bude z hlediska prostorových kapacit pro umístění serverů dostačovat zhruba na deset let. A až čas ukáže, jestli to byl od managementu správný tip či nikoliv.

Seznam.cz - datacentrum - II - 11.jpg

Vyplatí se vůbec vlastní datacentrum?

Datové centrum Kokura je určeno pouze pro účely Seznam.cz. Vlastník centra díky tomu může spoustu věcí ovlivnit, zejména to, jaký hardware používá, jak s ním chce nakládat, jak ho bude chladit, atd. Vedení firmy si spočítalo, že při velikosti Seznamu se jedná o ekonomicky příznivé rozhodnutí a už nedává smysl platit si externí infrastrukturu.

Podle Pečínky je posuzování ekonomického přínosu vlastního datacentra pro každou společnost specifické, protože záleží na tom, jak k příslušnému ekonomickému modelu která společnost přistupuje. „Seznam.cz, byť dnes působí do značné míry na mediálním trhu, je zároveň vnitřně hodně technologický. Společnost však technologie neprodává, ale používá je pro vlastní potřebu a zajištění konkurenční výhody oproti jiným mediálním firmám,“ vysvětluje Pečínka.

Pro Seznam však za výstavbou datacentra nestála čistě ekonomická úvaha. Potřeboval totiž sebedůvěru, že veškeré související kroky zvládne, a tu získal především jako dlouholetý významný partner jak v TTC, tak v Naganu (patřícím pod Cetin), v němž si své servery ponechal až dodnes. S provozovateli datacenter, jejichž kapacity si pronajímal, dříve technický tým Seznam.cz prošel veškerými problémy plynoucími z  provozu. Podle Pečínky se toho o správě datacentra nejvíce naučíte právě tehdy, když řešíte nějaký průšvih z reálného světa. Na tom Seznam vyrostl a i díky tomu jeho vedení získalo potřebnou sebedůvěru.

Pokud jde o celkový objem investice do Kokury, dal si Seznam za cíl, že jej kompletní centrum bude stát zhruba 200 milionů Kč. Zatím firma proinvestovala zhruba 150 milionů. Za ty peníze má v provozu jeden plný sál infrastruktury. Ten druhý je zatím prázdný a čeká na své vybavení technologiemi, racky či chlazením. Celých 200 milionů by se mělo dle plánu proinvestovat do konce příštího roku.

Návratnost investice se podle Pečínky pohybuje přibližně mezi 6 až 8 lety. Detailní výpočet zahrnuje celou řadu proměnných, například to, jak se bude vyvíjet cena elektřiny nebo jak poroste Seznam.cz jako jediný zákazník. Není bez zajímavosti, že samotná elektřina v Kokuře tvoří méně než 50 % OPEX – tedy provozních nákladů. U starších datacenter to mohou být klidně i tři čtvrtiny.

Intel - Seznam cz - 29_finLR.jpg

Lednička, kapičky a vzduch

S výše zmíněnými provozními náklady a energiemi souvisí i systém chlazení. Kokura využívá na české poměry celkem netypický koncept nepřímého free-coolingu. Management od počátku věděl, že nechce klasické chlazení – tzn. kompresor, který vyrábí chlad a ten se rozvádí vodou. I díky tomu, že firma stavěla na zelené louce, mohla budovu navrhnout tak, aby měla dvě chladicí jednotky hned vedle sálu. Není tak třeba žádné jiné distribuce ani žádného média na to, aby byl chladný vzduch doručen na sál. Je totiž foukán přes stěnu z chladících jednotek.

Nepřímý free-cooling spočívá v dělení na dva okruhy - venkovní vzduch představuje tzv. vnější okruh, uvnitř datacentra pak funguje tzv. vnitřní okruh. Na deskovém výměníku se oba vzduchy setkávají a venkovní ochlazuje ten vnitřní. Na výměníku obvykle dochází ke ztrátě kolem 4 stupňů Celsia. To znamená, že pokud je na sále potřeba stálá teplota 20 stupňů, tak do 16 stupňů venkovní teploty stačí jen „otáčet oba vzduchy proti sobě“.

Když venku nastoupí teploty nad 16 stupňů, musí se již začít „vyrábět“ chlad – nabízí se samozřejmě myšlenka okamžitě pustit kompresory (podobný koncept jako u ledničky), jenže to spotřebovává elektřinu a je to tudíž drahé, proto Seznam systém ještě doplnil o tzv. adiabatické přichlazování. „To spočívá v tom, že jsou venku před nasáváním vzduchu rozprašovány kapičky vody. Efekt je podobný, jako když si kapičky vody rozprašujete hadicí na zahradě – najednou se prudce ochladí,“ uvádí příklad Vlastimil Pečínka. Díky rozprašování vody je možné srazit další čtyři stupně venkovní teploty. Takže až do 20 stupňů venkovní teploty není třeba pouštět kompresory.

Při vyšší teplotě už kompresory běží a musejí dochladit teplotní rozdíl. Běží ale třeba jen minutu, předchladí si vzduch a potom se třeba na deset minut vypnou. Díky tomu se ukazatel PUE (Power Usage Effectiveness) v reálném provozu pohybuje kolem hodnoty 1,2. To znamená, že provozovatel dá na každou jednotku elektřiny spotřebovanou na provoz serverů jen 0,2 jednotky do chlazení. Dnes je pořád běžným standardem PUE 1,5. V ČR se ovšem setkáte i s datovými centry, která mají hodnotu PUE 1,7 nebo dokonce přes 2.

PUE se obvykle průměruje do celého roku, ale není bez zajímavosti, že například v polovině října bylo okamžité PUE okolo 1,18 a v největších letních parnech dosahovalo PUE nárazově až 1,6. Zimní měsíce napomohou dostat se k „ideální“ hodnotě 1,2.

Seznam.cz - datacentrum - II - 10.jpg

Jak se využívají technologie Intel

Servery v datacentru Kokura běží na platformě Intel, jejíž volba byla podle Pečínky zcela přirozenou reakcí na historický vývoj na trhu serverů a disků. Servery jsou vytíženy hlavně z hlediska I/O operací, tzn. čtení z disku či sítě, samotná výkonná CPU tak nevytěžuje ani zdaleka ze 100 % jejich výkonu.

Každým rokem Seznam nakoupí značné množství hardwaru, patří z tohoto hlediska v ČR k významným zákazníkům. V roce 2007 začala firma s virtualizací - u obnovy hardwaru byl proto u Seznam.cz dříve poměr až 1:7 – na sedm vyřazených strojů stačil jeden nový. V poslední době platí, že při zachování provozních potřeb nahradí firma jedním novým strojem v průměru necelé tři starší.

Z hlediska storage využívá Seznam v Kokuře klasickou kombinaci SSD a klasických disků. Kromě toho disponuje funkčním prototypem PODů - Point of Delivery. „Jde o alokační jednotku, rack poskládaný ze serverů s lokální storage, kde se SSD nachází v každém stroji, byť ony stroje byly původně koncipovány jako bezdiskové,“ dodává Vlastimil Pečínka a pokračuje: „Cílem je mít na disku operační systém – s tím má společnost lepší zkušenosti, než ho bootovat po síti. A SSD jsou využívány také jako disková cache.“

Jedna z optimalizačních úloh, jež lidé ze Seznamu nyní řeší, spočívá v tom, že část distribuované aplikace drží tzv. metadata (vypsat obsah schránky, udělat náhled na e-mail apod.). Limitace diskového subsystému na této aplikaci pak říká, kolik je „jedním kusem železa“ možné obsloužit uživatelů. „Tato optimalizace spočívá v tom, že Seznam samozřejmě chce, aby to nebylo například 100 tisíc uživatelů na jeden nod, ale aby jich tam bylo třeba 200 tisíc, což je determinováno především možnostmi I/O subsystému“ prozrazuje Pečínka. Výsledkem experimentů byly zkoušky různých variací a kombinací SSD a klasických SATA disků a následné nalezení kombinace s co nejlepším poměrem počtu uživatelů na hardware.

Pečínka dále tvrdí, že kdyby to šlo, tak se rád obratem zbaví mechanických částí pevných disků, které jsou nehospodárné a „topí“: „SSD jsou rychlejší, energeticky méně náročné a s menšími požadavky na chlazení. To jsou ale až sekundární důvody pro jejich volbu, tím primárním je samozřejmě nesrovnatelná rychlost.“ Seznam je podle něj ale závislý především na I/O, takže problémem zůstává jejich kapacita a cena. Naštěstí se ale první zvyšuje a druhé snižuje.

Pokud jde o poměr HDD a SSD, pak Seznam stále využívá drtivou většinu klasických disků. Už ale interně testoval terabajtové SSD disky a taková kapacita pro něj již začíná být velice zajímavá. Pečínka si myslí, že je to již otázka pouze dvou nebo tří let, než trh definitivně zlomí ve prospěch SSD – ty se tak definitivně stanou primární volbou a pohyblivé disky budou sloužit výhradně pouze pro archivaci.

LR_Kokura1.jpg

Kokura – provoz a bezpečnost

Seznam diverzifikoval svůj provoz do dvou datových center v průběhu roku 2007, přičemž tehdy se ještě jednalo o koncept „spící Růženka“. Veškerý provoz tehdy běžel z jednoho datového centra, zároveň však bylo vše nainstalováno i do druhého datacentra, kam nešel žádný traffic. To tak jen čekalo, kdyby primární centrum náhodou „spadlo“. Tento stav se však stal brzy neudržitelným, a tak se Seznam postupně přiklonil k plné paralelizaci do dvou datacenter.

Vývojáři obratem začali psát aplikace tak, aby fungovaly ve dvou datových centrech zároveň. Když jedno vypadne, tak se traffic automaticky přelije do druhého datového centra. Firma toho využívá, když instaluje nové verze svých aplikací. Většinou se jedná o celou řadu komponent, které úzce spolupracují, je proto lepší je odstavit od provozu, upgradovat, otestovat a pak teprve pustit zpět k uživatelům. „Aby to uživatel nepoznal, tak po dobu upgrade vše běží z jednoho datového centra na staré verzi, vývojáři Seznamu připravují novou a následně se mezi nimi jen přepne,“ doplňuje svůj výklad Pečínka. Obě centra dnes jedou v aktivním režimu, takže když v prohlížeči zadáte www.seznam.cz, tak ani nevíte, jestli se připojujete do Kokury nebo do Nagana, provoz se neustále přelévá.

Pokud jde o bezpečnost, je Seznam.cz podle Pečínky zcela pravidelným terčem pokusů o infiltraci, nejedná se ale o žádné velké útoky. Poslední velká vlna DoS (Denial of Service) napadení přišla v roce 2012. Pro jistotu ale disponuje vlastním CSIRT týmem (Computer Security Incident Response Team).  Ten je součástí projektu Fénix, který vznikl jako platforma nad NIXem (český peeringový uzel).