Skoči na glavno vsebino

Nadgradnja Arnesove superračunalniške gruče

sreda, 15. 5. 2024 14:57

Na Arnesu smo nedavno posodobili svojo računsko gručo oz. superračunalnik, ki je zdaj veliko zmogljivejši.

Nadgradnja oz. pridobitev novih GPU-jev

Predvsem je k nadgradnji pripomogla pridobitev osmih novih H100 GPU računskih vozlišč. Vsako vozlišče je sestavljeno iz:

  • 2x Nvidia H100, 80GB HBM2e in
  • 2x AMD EPYC 9124 16-jedrni processor s 64 nitmi.

Trenutno smo v fazi raziskovanja, kako v našo gručo čim bolje vgraditi Multi-Instance GPU (MIG) oz. GPU z več instancami, ki omogoča razdelitev H100 GPU-ja na 7 ali manj instanc. Pri tem je vsaka instanca izolirana in ima svoja računska jedra, predpomnilnik in pomnilnik. To omogoča, da lahko ločeno poganjamo več aplikacij in se tako izognemo tekmovanju za vire GPU-ja.

Če GPU razdelimo na 7 delov MIG, lahko tako iz 16 GPU-jev dobimo 112 manjših izoliranih delov GPU-ja z 10GB spomina HBM2e. To pomeni, da lahko teoretično sočasno uporablja GPU z 10 GB HBM2e spomina kar 112 uporabnikov.

Nadgradnja Ceph storage in ERASURE

Dodali smo šest infrastrukturnih strežnikov (skupno jih je zdaj 16) za podatkovno shrambo AMD EPYC 7402P, z naslednjimi komponentami:

  • 24 jeder, 48 niti,
  • 2,8 GHz,
  • 180W,
  • 192GB RAM,
  • 28X 12TB HDD,
  • 4X 4TB SSD,
  • 2X 1TB SSD.

Pred nadgradnjo so bili podatki shranjeni tako, da je bil podatek shranjen na dveh različnih strežnikih. Po nadgradnji podatkovne shrambe smo za boljšo zagotovitev redundantnosti podatke prestavili na “Erasure code 8+3” sklad. To pomeni, da je objekt razdeljen na 8 delov in vsebuje 3 redundantne, oziroma paritetne dele, ki so uporabljeni za rekonstrukcijo objektov ob izgubi podatkov. Vsak del se nahaja na drugem podatkovnem strežniku.

Prednosti takšnega sklada so:

  • boljša odpornost z več uporabnega prostora (sedaj EC 8+3 – 72,7%, prej 2x replikacija – 50%),
  • ob izpadu treh ali manj strežnikov bomo podatek še vedno lahko rekonstruirali.

V shrambo smo sicer dodali 168 HDD in 36 SSD diskov, skupno je zdaj v shrambi 448 HDD in 96 SSD diskov, kar pomeni:

  • 3,3 PB surovega HDD prostora oz. 2,4 PB razpoložljivega prostora in
  • 250 TB SSD prostora.

Nadgradnja prijavnih vozlišč

Trenutno smo v fazi nadgradnje prijavnih vozlišč. Dvem obstoječim virtualnim prijavnim vozliščem bomo dodali dve fizični prijavni vozlišči. Za dostop do teh vozlišč bo po novem potrebna dvofaktorska avtentikacija.

Dve obstoječi virtualni prijavni vozlišči 16c z 32 GB RAM-a poganja virtualizacijska platforma Proxmox (KVM), dva nova strežnika, ki jih bomo dodali, pa bosta vsebovala AMD EPYC 9254 (24c, 4,15GHz, 200W) ter 128 GB RAM-a.

Skupna zmogljivost Arnesovega superračunalnika po nadgradnji

Po nadgradnji je pričakovana zmogljivost Arnesovega superračunalnika okoli 1 PFLOPS, od tega približno 0,8 PFLOPS GPU ter približno 0,2 PFLOPS CPU.

S 75 CPU vozlišči in 32 GPU vozlišči je na Arnes gruči na voljo približno 24,5 TB RAM-a.

Naročite se na RSS obvestila

Pomoč uporabnikom

01 479 88 00
(delavniki, 8:00–16:00)