ARM-Prozessoren sollen zwischen Supercomputern und Cloud-Servern punkten

ARM-Prozessoren sollen bei Supercomputern und Cloud-Servern punkten

[ad_1]

Die britische Chipschmiede ARM, die derzeit von Nvidia übernommen wird, ist zwischen Supercomputern höchst prominent vertreten, vor allem im Top500-Spitzenreiter Fugaku mit dem Fujitsu-Prozessor A64FX. Im Unterschied dazu gen welcher aktuellen, 58. Top500-Verkettete Liste welcher schnellsten Supercomputer tauchten keine neuen Systeme mit ARM-Prozessortechnik gen. Dies soll sich spätestens Herkunft 2023 mit dem schweizerischen “Alps” sowie mit “Venado” am Niete Alamos Patriotisch Laboratoy (LANL) ändern. In beiden rechnet dann Nvidias kommender ARM-Prozessor “Grace”, und zwar im Verbund mit LPDDR5-RAM, einer kommenden Graphikprozessor qua Rechenbeschleuniger, die High-Bandwith Memory (HBM) nutzt. Die AMD-Epyc-Partition des Alps (HPE Cray EX) mit 3 PFlops läuft schon seit dem Zeitpunkt einem Jahr.

Gen welcher Supercomputing-Kongress SC’21 wurden wenige neue Feinheiten zu kommenden und aktuellen ARM-Rechnern fürs High Performance Computing (HPC) prominent.

Attraktive ARMv9-Features

Steven Poole, Chefarchitekt des Niete Alamos Patriotisch Laboratory (LANL), verriet Neuigkeiten zum verbinden mit Nvidia sowie welcher HPE-Sparte Cray zum Besten von Herkunft 2023 geplanten Supercomputerprojekt. Dies trägt jetzt den Namen “Venado” und soll droben 100 PFlops versorgen. Ob dasjenige noch zum Besten von die Top Ten welcher 61. Top500-Verkettete Liste im Monat der Sommersonnenwende 2023 reicht, wird spannend.

Nvidia Grace wird “ARM-Neoverse-Kerne welcher nächsten Generation” nach sich ziehen, demgemäß mit ARMv9-Baukunst. Ob Nvidia gen Neoverse N2 oder V2 setzt, ist ungeschützt; sicherlich sind Gewiss die Scalable Vector Extensions SVE2 an Bord. Denn Cachespeicher-kohärente Verpflichtung zwischen CPU und Graphikprozessor dient NVLink 4 (oder 5) mit 900 GByte/s.

Dies Niete Alamos Patriotisch Laboratory (LANL) will zweite Geige die neuen Sicherheitsfunktionen von ARMv9 nutzen.

(Gemälde: Niete Alamos Patriotisch Laboratory (LANL))

Zum Besten von dasjenige LANL sind laut Poole zwei Aspekte von Grace selten begehrt: Die hohe Speicherperformance sowie die Confidential Compute Architecure (CCA). Erstere sei zwischen gertenschlank besetzten Matrizen (sparse matrix) vorteilhaft, während welcher Top500-Benchmark Linpack mit reimen Matrizen rechnet. Noch wichtiger sei Gewiss CCA, weil damit fremde Nutzer des Superrechners sicher abgeschottete Partitionen nutzen könnten.

“Penny-Cores” rechnen günstig

Die Cloud-Versorger Amazon und Oracle von ihren HPC-Erfahrungen mit ARM-Maschinen. Oracle Cloud Infrastructure (OCI) bietet ARM-Instanzen zum Preis von 1 Cent pro Stunde und Mark an: “Penny-Cores”. OCI betreibt seit dem Zeitpunkt Monat der Sommersonnenwende den 80-kernigen Altra A1 (Quicksilver) des Startups Ampere. Seine Neoverse-N1-Kernen (ARMv8.2) Kontakt haben kein SMT, nach sich ziehen Gewiss je zwei SIMD-Einheiten mit Unterstützung zum Besten von INT8 und BFloat16 fürs Maschinenlernen. Welcher Altra A1 kommt dank acht Speicherkanälen gen hohe Datentransferraten. Damit konnte er laut OCI etwa im klassischen HPC-Benchmark DGEMM dem AMD Epyc “Milan” (Zen 3) in welcher Performance nahezu dasjenige Wasser reichen, war Gewiss mit 7 gegensätzlich 5,2 Petaflops pro US-Dollar (PFlops/$) um 34 von Hundert preisgünstiger.

Laut Oracle rechnet welcher Ampere Altra im DGEMM-Benchmark zwar nicht schneller qua ein AMD Epyc, Gewiss billiger.

(Gemälde: Oracle)

Amazon setzt beim selbst designten Graviton2 ebenfalls gen ARM-Neoverse-N1-Kerne sowie acht RAM-Kanäle; hier stillstehen Gewiss höchster 64 Kerne bereit liegend. Die darauf laufenden Instanzen (C6g.15xlarge) setzen sich zwischen den HPC-Benchmarks OpenFOAM und WRF mit 37 solange bis 40 von Hundert besserem Preisleistungsverhältnis gegensätzlich Intel Skylake und Intel Cascade Salzlake in Szene. Wenn schon hier hilft insbesondere die höhere Speicherbandbreite.

Stolperstellen

Im Rahmen Betriebssystemen, Compilern und Programmierbibliotheken zum Besten von ARM-Serverprozessoren gibt es Gewiss noch Verbesserungsbedarf. Die Rechenzentrumsbetreiber des schottischen Edinburgh Parallel Computing Center (epcc) sammelten drei Jahre Erlebnis mit ihrem HPE-Apollo-70-System namens Fulhame. Es ist mit ThunderX2-Prozessoren von Cavium (jetzt Marvell) bestückt. Fulhame ist eine kleinere Revision des “Astra” am Sandia Patriotisch Lab, welcher gen Sportplatz 393 in welcher Top500 gelistet ist.

ARM-HPC-System “Fulhame” am eppc, Edinburgh

(Gemälde: eppc, Edinburgh)

Die Schotten hatten sich gefreut, dass SLES 15 for HPC endlich SLURM und Lustre-Support brachte, zweite Geige wenn es ein paar Performance-Probleme mit Lustre gab. MPI machte ebenfalls Probleme, Gewiss nur zwischen sehr großen Messages größer qua 16 GByte, und zweite Geige mit den Infiniband-Treibern zum Besten von Mellanox hakte es. Welche Macke weisen neuere SLES-15-Versionen nun nicht mehr gen, blöd nur, dass sie Lustre nicht mehr unterstützen. Da bleiben die Schotten tunlichst beim alten SLES 15.

Ein schönes Projekt läuft derweil an welcher Universität Stony Brooks (SBU) unter dem Namen Ookami (Wolf): ein A64FX-System zum Besten von “sozusagen jeden”. Forscher aus aller Welt können sich authentifizieren, um kostenlose Rechenzeit zu erhalten. Dies klappt laut Eva Siegmann von SBU sehr gut. Die User hinhauen schnell eine gute Performance, zwischen speicherintensiven Anwendungen oft mehr qua gen vergleichbaren Intel/AMD-Rechnern. Mit MPI gibt’s jedoch mitunter Probleme, denn nicht mehr da MPI-Bibliotheken weisen “Issues” gen, so Siegmann.

Zum Besten von richtig hohe Rechenperformance muss man SVE präzise erwähnen, gewiss sind die Compiler und Toolchains noch nicht so ganz fundiert. GNU-Kohlenstoff/Kohlenstoff++ bietet zwar SVE an, es fehlen Gewiss wichtige Vektor-Bibliotheken. Fujitsu und Cray besitzen zwar solche Bibliotheken zum Besten von ihre jeweiligen Compiler, Gewiss letztere hängen sechs Jahre zurück und stillstehen noch gen dem Stand von Kohlenstoff++14.

ARM selbst hat gen Sockel von LLVM 11 wiederum eine eigene Toolchain, die diesbezüglich Kohlenstoff++ zwar gen dem Laufenden (Kohlenstoff++20) ist – Gewiss FORTRAN fällt ab, OpenMP wird nur solange bis V3.2 und Fortran 2008 lediglich partiell unterstützt.