SSCK News
AUTOMATISIERUNG DER KONTINGENTÜBERWACHUNG (18.9.2007)
EINLEITUNG
Wie Sie vielleicht wissen, haben wir seit über einem Jahr ein Kontingentüberwachungssystem auf dem Landeshöchstleistungsrechner installiert, das 3 Parameter überwacht: die verbrauchte CPU-Zeit, den belegten permanenten Plattenplatz und den Bewilligunszeitraum. Falls eine der 3 Ressourcen verbraucht bzw. überschritten ist, springt eine Ampel (SSCKState) auf rot, wobei derzeit eine rote Ampel keine direkten Folgen für Sie hat. (Randnotiz: Grüne Ampel --> alles in Ordnung, gelbe Ampel --> Ressource(n) fast überschritten, Rote Ampel --> Ressource(n) überschritten). Im Zuge von manuellen Überprüfungen der Ampeln rufen wir die "Rotsünder" an und bitten Sie, einen Folgeantrag zu stellen.
ÄNDERUNG: ROTE AMPEL -> ABWEISEN VON BATCHJOBS AB 1.11.2007
Um eine faire Betriebsmittelvergabe bei einer ansteigenden Zahl von aktiven Projekten (> 65) auf dem HP XC4000 Cluster zu gewährleisten, werden wir das Kontingentüberwachungssystem zum 1.11.2007 scharf stellen, d.h. bei einem Wechsel der Ampel (SSCKState) von gelb auf rot wird Ihr Account teilweise gesperrt! Teilweise heisst hier, dass Sie sich zwar noch einloggen können, aber keine Batchjobs mehr möglich sind.
ÄNDERUNG: AB SOFORT NEUE REGELN FÜR WECHSEL DER AMPELFARBEN
Unter welchen Umständen wechseln die Farben der Ampel:
a) sind 90% der bewilligten CPU-Zeit verbraucht, springt die Ampel von grün auf gelb. Ist die bewilligte CPU-Zeit vollständig verbraucht, springt die Ampel von gelb auf rot. (Diese Regel ändert sich nicht!)
b) Ist das Plattenplatzkontingent überschritten, wechselt die Ampel von grün nach gelb. Ist das Plattenplatzkontingent um mehr als 150% überschritten, wechselt die Ampel von gelb nach rot. (Diese Regel ändert sich! Bisher rote Ampel bei Überschreiten des bewilligten Plattenplatzkontingents!)
c) Ist der Bewilligungszeitraum überschritten, wechselt die Ampel von grün nach gelb. Ist der Bewilligungszeitraum um mehr als 90 Tage überschritten, wechselt die Ampel von gelb nach rot. (Diese Regel ändert sich! Bisher rote Ampel bei Überschreiten des eingetragenen (Abfrage: kontingent_get) Bewilligungszeitraums!)
SEHR WICHTIG FÜR DEN BENUTZER
Gelbe Ampel bedeutet, dass Sie sich den derzeitigen Stand Ihres Kontingentes mit dem Kommando kontingent_get anschauen sollten!!!
GELBE AMPEL WEGEN CPU-ZEIT-VERBRAUCH --> FOLGEANTRAG STELLEN
Bei Überschreiten der 90% Marke der CPU-Zeit sollten Sie einen Folgeantrag für Ihr Projekt über die Webseite http://www.rz.uni-karlsruhe.de/ssck/proposals stellen, da CPU-Zeit einzig und allein über einen Projektantrag erhöht werden kann.
GELBE AMPEL WEGEN PLATTENPLATZMANGEL --> KONTAKT AUFNEHMEN MIT RZ
Bei Überschreiten des Plattenplatzkontingents sollten Sie Kontakt mit dem Rechenzentrum aufnehmen (Herr Laifer, Herr Häfner, Herr Augustin). Sind Ihre Plattenplatzanforderungen nicht zu hoch, kann eine Erhöhung des Plattenplatzkontingents direkt nach Absprache erfolgen. Nur bei sehr hohen Plattenplatzanforderungen muß ein Folgeantrag gestellt werden!
GELBE AMPEL WEGEN ABGELAUFENEM BEWILLIGUNGSZEITRAUM --> EMAIL AN RZ
Eine Verlängerung des Bewilligungszeitraums kann per Email an ssck-projects@lists.uni-karlsruhe.de erfolgen,sofern nicht mehr als 90% der CPU-Zeit verbraucht sind.
PROJEKT-LEBENSZYKLUS UND KONTINGENTZUTEILUNG
Beim Stellen eines (Folge-)Projektantrags tritt nun natürlich die Frage auf, wann CPU-Zeit bzw. Plattenplatz (bei sehr hohen Plattenplatzanforderungen) auf Ihrem Konto gutgeschrieben wird. Aus diesem Grund wird nachfolgend die Kontingentzuteilung über den gesamten Lebenszyklus eines Projektes erläutert:
- Vorabaccount läuft 4 Wochen; nach 4 Wochen wird das noch nicht beantragte Projekt vorläufig gesperrt (Vorabaccount ist dabei ein Account, für das noch kein Projektantrag gestellt wurde.)! Derzeit erscheint eine Beschränkung der Ressourcen in dieser Projektphase als nicht notwendig.
- Projektantrag ist gestellt; Projekt ist in der Bewilligungsphase. Projektgruppe bekommt dann 50 Prozent der angeforderten CPU-Ressourcen und 50 Prozent des Plattenplatzes. Falls nach 3 Monaten kein Bescheid zu dem Projektantrag vorliegt, werden die angeforderten Ressourcen vorläufig (ohne dass daraus ein Rechtsanspruch abzuleiten wäre), d.h. bis zur Entscheidung des Obmanns, vollständig freigeschaltet.
- Folgeantrag ist gestellt; Projekt ist in der Bewilligungsphase. Projektgruppe bekommt dann 50 Prozent der angeforderten CPU-Ressourcen auf die bereits bewilligten CPU-Ressourcen aufaddiert und 50 Prozent der positiven Differenz des angeforderten und bereits bewilligten Plattenplatzes. Falls nach 3 Monaten kein Bescheid zu dem Projektantrag vorliegt, werden die angeforderten Ressourcen vorläufig (ohne dass daraus ein Rechtsanspruch abzuleiten wäre), d.h. bis zur Entscheidung des Obmanns, vollständig freigeschaltet.
ZUSAMMENFASSUNG
Die neuen Regeln für die Wechsel der Ampelfarben gelten ab sofort. Batchjobs werden ab 1.11.2007 abgewiesen, sollte Ihre Ampel bzw. der SSCKState dann auf rot stehen, d.h. Auswirkungen einer roten Ampel machen sich erst ab dem 1.11.2007 bemerkbar. Dennoch sollten sie ab sofort bei gelber oder roter Ampel die Handlungsanweisungen (siehe unter GELBE AMPEL ...) beachten!
Older News
Liebe nicht kommerzielle Benutzer des Landeshöchstleistungsrechners HP XC6000,
am 15. Januar 2007 hat der offizielle Betrieb des neuen Landeshöchstleistungsrechners HP XC4000 (xc2), der auf AMD Opteron CPUs basiert, begonnen. Gleichzeitig firmiert der jetzige Landeshöchstleistungsrechner HP XC6000 (xc1) zum Universitätsrechner um. Was bedeutet das für Sie? Alle Projekte, die derzeit auf der xc1 laufen und Ende des Jahres 2006 nicht beendet sind, werden von der xc1 auf die xc2 verlagert. Hierfür wird von uns auf der xc2 der gleiche Account wie auf der xc1 eingerichtet. Den Umzug Ihrer Verzeichnisse und Daten müssen Sie selbst vornehmen. Hierzu haben Sie maximal bis zum 5. März Zeit. Am Ende dieser Mail finden Sie ein mögliches Kommando, mit dem Sie alle Verzeichnisse und Daten umziehen können. Sobald Sie Ihre Daten umgezogen haben, können Sie auf der xc2 unter den gleichen Bedingungen wie auf der xc1 arbeiten, insbesondere wird auch Ihr Kontingent übernommen und ab diesem Zeitpunkt auf der xc2 abgerechnet.
Für Angehörige der Universität Karlsruhe (mit wk.... Accounts) gilt:
Sobald die xc1 offiziell zum Universitätsrechner umfirmiert, d.h. ab 15. Januar 2007, werden Ihre Tätigkeiten auf diesem Rechner nicht mehr abgerechnet und es müssen keine Projektanträge für deren Benutzung gestellt werden. Wenn Sie auf der xc1 über den Januar hinaus rechnen wollen, müssen Sie über BIT8000 einen Antrag auf Benutzung des Universitätsrechners HP XC6000 stellen; das zugehörige Antragsformular finden Sie auf der Webseite http://www.rz.uni-karlsruhe.de/download/3240.php. Dabei behalten Sie bis zum 5. März Ihre jetzige Benutzernummer. Ab dem 5. März wird die HP XC6000 umkonfiguriert und dabei aus dem hww-Verbund herausgenommen. Dies bedeutet für diejenigen, die einen Antrag auf Benutzung des Universitätsrechners HP XC6000 gestellt haben, dass das "wk" am Anfang ihrer User-ID und der Zugriff von maximal 3 IP-Adressen entfällt. Für diejenigen, die keinen Antrag auf Benutzung des Universitätsrechners HP XC6000 gestellt haben, bedeutet es, dass ihre Daten auf der HP XC6000 nach dem 5. März gelöscht werden. Also bitte dringend beachten: wenn sie bis spätestens 5. März kein Account auf der HP XC6000 beantragen und noch Daten auf der HP XC6000 (von ihrem Projektaccount) haben, sind Ihre Daten nach dem 5. März verloren!!!
Important Remark in English:
To get an account on HP XC6000 you have to fill a new form even if you had already an project account.
If you have not sent back the filled form to the Computing Centre up to the 5. of March your (project) data will be lost on the xc1.
Für externe (wissenschaftliche) Nutzer (mit we.... Accounts) gilt:
Ihre Accounts wurden auf der xc1 (HP XC6000) am 12. Februar gesperrt. Ihre Daten sind nach dem 5. März gelöscht. Sollten Sie Ihre Daten noch nicht umkopiert haben, nehmen Sie bitte umgehend mit uns Kontakt auf (per Email an ssck-projects@lists.uni-karlsruhe.de).
rsync -av $WORK/ <userid>@xc2:\$WORK/xc1_work Um die Konsistenz der Daten zu gewährleisten, sollten während des Kopiervorgangs (rsync) weder Batchjobs auf der xc1 noch Batchjobs auf der xc2 laufen. Anschließend befinden sich Ihre Verzeichnisse und Daten aus dem Homeverzeichnis der xc1 im
Verzeichnis $HOME/xc1_home auf der xc2 und die Verzeichnisse und Daten aus dem Workverzeichnis der xc1 im Verzeichnis $WORK/xc1_work auf der xc2. Sie können sie von dort nach Belieben mit dem Kommando 'mv -i' an die gewünschte Stelle verschieben. Bitte löschen Sie nach dem erfolgreichen Umkopieren der Daten von der xc1 auf die xc2 alle nicht benötigten Daten auf der xc1, sofern Sie keinen Antrag auf weitere Benutzung der xc1 stellen.
Am 12. Januar 2007 fand um 10 Uhr ein Workshop zum neuen AMD Opteron basierten Landeshöchstleistungsrechner HP XC4000 statt! Er löst das Itanium2 basierte HP XC6000 System ab.
Nachfolgend die Agenda des Workshops unter Angabe der Referenten:
10:00 Begrüßung und Vorstellung des Programms (Rudolf Lohner)
10:15 Organisation, Infrastruktur und Architektur (Rudolf Lohner)
11:00 Projektmanagement auf der HP XC4000 (Hartmut Häfner)
11:15 ----- Kaffeepause -----
11:30 Einführung in die Benutzung des Systems (Hartmut Häfner)
12:15 Interaktive Jobs und Batch System (Slurm) (Horst Gernert)
12:45 ----- Mittagessen -----
14:00 Architektur des Opteron und Benchmarks (Hartmut Häfner)
14:30 Numerische Bibliotheken und Tools (Hartmut Häfner)
15:00 CAE Codes (Paul Weber)
15:30 ----- Kaffeepause -----
16:00 Das parallele Dateisystem HP SFS / Lustre (Roland Laifer)
16:30 Diskussion
17:00 Offizielles Ende der Veranstaltung
Neue SMP-Knoten auf der XC1 verfügbar! (Juni 2005)
In die XC1 wurden zusätzliche SMP-Knoten (HP Integrity rx8620, sog. fat nodes) integriert.
Jeder dieser Knoten besitzt 8 CPUs Intel Itanium2 (1,6 Ghz, 6 MB L3 Cache) 64 GB Hauptspeicher sowie 500 GB lokalen Plattenplatz ($TMP). Zur Zeit stehen zwei dieser Knoten als "Login"-Knoten und 8 als eigene Partition für Jobs der Klasse p(roduction) zur Verfügung. Diese Knoten lassen sich nur von Jobs nutzen, welche komplett auf einen dieser Knoten passen, also für die tasks * threads < 9 und tasks * real memory < 64 GB gilt. Durch diese neuen Knoten ergibt sich nun die Möglichkeit, die XC1 für Programme zu nutzen, die mehr als zwei Threads bzw. mehr als 12 GB HSP pro Task benötigen. Die für einen Job geltenden neuen Limits werden durch das Kommando "job_info" angezeigt. Jobs, die von ihren Ressourcenanforderungen her geeignet sind, sowohl auf den bisherigen 2 als auch auf den neuen 8 Wege Knoten zu laufen, werden vom System automatisch auf "dünne" oder "dicke" Knoten verteilt. Wenn man gezielt "thin nodes" oder "fat nodes" anfordern möchte, so geschieht dies durch Angabe der -d Option (destination) beim job_submit Kommando (siehe job_submit -H). Diese Option sollte aber nur verwendet werden, wenn es dafür zwingende Gründe
gibt, da davon auszugehen ist, dass sie zu einer längeren Wartezeit des Jobs führt.
Weiteres entnehmen Sie bitte unserem Handbuch (http://www.rz.uni-karlsruhe.de/rz/docs/HP-XC/ug/ug.pdf).
Wenn Sie Fragen, Anmerkungen, Beschwerden, ... haben, so teilen Sie uns diese bitte per E-Mail an xc-hotline@uni-karlsruhe.de mit.
