Technologický stack NVMe JBOF úložiště na 100Gbps technologii

V rámci naší cloudové infrastruktury jsme se rozhodli jít jinou cestou. Chtěli jsme úložiště, které nebude jen "stačit", ale bude rychlé, spolehlivé, tiché a připravené růst spolu s nároky moderních aplikací. Výsledek? Vlastní high-performance NVMe JBOF řešení, postavené na 100Gbps síťové technologii a šasi HPE J2000, které jsme si upravili na míru.

HPE J2000 samo o sobě není typické úložiště. Je to PCIe switch enclosure – pasivní šasi bez procesoru, bez řadiče, bez softwaru. Jen rychlé PCIe dráhy a spousta místa pro NVMe disky. Přesně to, co potřebujete, když chcete výkon bez kompromisů.

Skutečné srdce? GigaIO Kazan Onyx2

Uvnitř ale nejsou jen disky – hlavní roli hrají Kazan Onyx2 karty od GigaIO. Ty totiž fungují jako NVMe-oF targety, což je technicky řečeno způsob, jak zpřístupnit NVMe disky přes síť – a to extrémně rychle a bez zbytečných vrstev. Díky tomu si může každý hypervizor v clusteru sáhnout na disk, jako by byl lokálně připojený.

Pro běžného smrtelníka? Znamená to, že každý virtuální server, každý cloudový systém, má přímý a rychlý přístup ke svým datům, bez prodlev a bez přetížení, jaké známe ze starších storage řešení.

Pohled na JBOF

Hardwarový tuning: ne vždy stačí továrna

V ostrém provozu jsme zjistili, že Kazan karty se přehřívají – při běžné teplotě v serverovně (23 °C) měly až 43 °C a větráky hučely na 14 000 ot/min. Takže místo tichého úložiště jsme měli tryskové letadlo.

Řešení? Naše vlastní chlazení: upravili jsme airflow tunely, vyměnili hliníkové chladiče za měděné a doladili průtok vzduchu. Výsledek: 30 °C a 8 000 ot/min. Ticho, úspora energie, delší životnost – a hlavně žádný kompromis s výkonem.

Detail měděných pasivů Detail měděných pasivů
Detail měděných pasivů

100Gbps páteř, která nestíhá zčervenat

Každé JBOF je zapojeno do naší 100Gbps fabric sítě a využívá NVMe over Fabrics (NVMe-oF). Díky tomu jsou všechny disky okamžitě dostupné z libovolného serveru v clusteru, a to s latencí pod jednu milisekundu. Žádné klasické NFS, žádné bottlenecky.

A hlavně: bez centralizovaného úzkého hrdla. Potřebujeme více výkonu? Přidáme další disky, další JBOF nebo celý další rack. Škálování jako LEGO, ale pro datová centra.

100G síťová konektivita mezi JBOF a hypervizory

Izolované RAIDy: výkon i bezpečnost bez kompromisů

Každý disk přidělený zákazníkovi je součástí vlastního RAID1 svazku – a to napříč 2 až 3 JBOFy umístěné ve třech různých lokalitách. Ano, čtete správně – i jeden zákazník má k dispozici svůj vlastní redundantní diskový prostor, zcela oddělený od ostatních.

  • Odolnost proti výpadku celé lokality? ✅
  • Bezpečnost dat a přístupů? ✅
  • Možnost live migrace mezi lokalitami? ✅
  • Žádné sdílení výkonu ani IOPS? ✅
Foto j2000 předek

Výkon, co byste čekali spíš u lokálního SSD

Díky NVMe-oF, přímému přístupu a absenci middlewaru dosahujeme výkonu, který se běžně spojuje s lokálními NVMe disky:

  • až 700 000 IOPS pro čtení
  • až 350 000 IOPS pro zápis
  • sekvenčně až 6 000 MB/s čtení
  • sekvenčně až 4 000 MB/s zápis

A to vše na jedno jediné VM. Bez front, bez sdílení, bez hádek o výkon. Je jedno, jestli provozujete databáze, CI/CD, AI modely nebo cokoliv mezi tím – tohle řešení s vámi poroste.

Potřebujete dvojnásobek výkonu? Přidáme další JBOF. Potřebujete jinou lokalitu? Zapojíme další. Naše architektura je modulární a lineárně škálovatelná – to znamená, že výkon roste s každým novým blokem, bez nutnosti zásadní přestavby.

Chytré řízení jako třešnička na dortu

Za celým řešením stojí náš vlastní cluster management systém, který monitoruje každý disk, RAID, hypervizor i migraci. Pokud VM potřebuje změnit lokalitu, provede se jen jednoduché:

  1. RAID se odpojí ze zdrojového serveru,
  2. a znovu se připojí na cílovém,

protože díky NVMe-oF je každý disk dostupný odkudkoliv. A to vše bez čekání na replikaci nebo přesun dat.

Management nástroj s přehledem disků

Závěr? Výkon, škálovatelnost, klid na duši

Naše NVMe JBOF infrastruktura je postavená tak, aby:

  • byla extrémně rychlá a škálovatelná,
  • odolala i výpadku celé lokality,
  • zajistila plnou izolaci výkonu pro každého klienta,
  • umožnila živé migrace VM bez výpadků,
  • a hlavně – byla připravena na budoucnost.

Tohle není další „shared storage“ s fancy názvem. Tohle je infrastruktura postavená techniky pro techniky, která zohledňuje reálné potřeby vývojářů, provozáků i náročných zákazníků.

Sledujte náš blog, chystáme další technické detaily, tuningy a fotky z provozu – teprve začínáme.