Betrieb von HPC-Clustern

Administrative Aufgaben der Gruppe HPC Services

Beschreibung

Die Admins der Gruppe „HPC Services“ kümmern sich um den reibungslosen Betrieb und die Verfügbarkeit der HPC-Systeme. Dies beginnt beim Kontakt zur Haustechnik des RRZE sowie den Fachabteilungen der Abteilung Gebäudemangement der zentralen Universitätsverwaltung, geht über den Aufbau und die Wartung der HPC-Hardware bis hin zur Installation und Wartung der Software.

Die derzeit vom RRZE betriebenen HPC-Systeme erzeugen unter Volllast knapp 500 kW Abwärme. Der (Kühl)-Infrastruktur kommt daher eine zentrale Bedeutung zu und stellt bei Neuinstallationen eine der größten Herausforderungen dar.

Im Testcluster des RRZE wird stets neue HPC-Hardware evaluiert und für Spezialaufgaben verwendet.

Die Überwachung („Monitoring“) und Software-Installation der HPC-Cluster ist weitgehend automatisiert. Ein sicherer Betrieb erfordert das regelmäßige Einspielen von Sicherheitsupdates. Als Betriebssystem kommen Linux-Distributionen mit langen Supportzeiträumen zum Einsatz (z.B. SuSE SLES, CentOS, Ubuntu LTS), auch wenn deren Software-Repositories nicht immer die aller neuersten Versionen von Anwendungen enthalten. Von mehreren Nutzergruppen benötigte Anwendungssoftware wird üblicherweise über „modules“ zur Verfügung gestellt.

Im Rahmen der Gauß-Allianz soll eine verstärkte Abstimmung mit anderen HPC-Rechenzentren erfolgen.

Umfang

Für Studierende:

  • Zur Unterstützung werden regelmäßig engagierte studentische Hilfskräfte gesucht. Typische Aufgaben sind die Evaluation neuer Hard- und Software. HPC-Vorkenntnisse (z.B. aus der Vorlesung Programming Techniques for Supercomputers (PTfS)) sind dafür wünschenswert.

Für alle HPC-Nutzer:

  • Informationen über Ausfälle, Wartungstermine und Systemänderungen werden stets im MOTD ("Message of the Day") gelistet und beim Einloggen auf die HPC-Systeme angezeigt.
  • Je nach Wichtigkeit werden Nachrichten auch über die HPC-Benutzermailingliste oder das RRZE-Blog verbreitet.
  • Informationen zum Systemzustand und zur Queue-Belegung finden sich auch im "HPC-Kundbereich" der RRZE-Webseite. http://www.rrze.de/dienste/arbeiten-rechnen/hpc/kundenbereich/

Für Externe:

  • Im Rahmen verfügbarer Kapazitäten kann die HPC-Gruppe auch HPC-Consulting für Externe gegen Entgelt erbringen, z.B. Hinweise zur Hardware-Auswahl und dem Betrieb von HPC-Systemen. Nähere Auskünfte erteilt die HPC-Gruppe nach Einzelfallprüfung.

Links zur Dokumentation

  • http://www.rrze.de/dienste/arbeiten-rechnen/hpc/systeme/
  • http://www.rrze.de/dienste/arbeiten-rechnen/hpc/systeme/hpc-environment.shtml
  • OTRS-Tickets: hpc-support@fau.de

Kontakt

High Performance Computing (HPC)

Kategorien: HPC
Tags:
Lesezeichen zum Permalink
Letzte Änderung:
← Zurück zu HPC