URZ Compute-Server Kautz |
![]() |
Kautz - SiCortex SC5832
Aktuelles:
|
Mit der Installation einer SC5832 der Firma SiCortex im Januar 2009 steht den Nutzern unserer Universität ein massiv paralleler MPI-Rechencluster zur Verfügung. Die Kautz ist für spezielle Anwendungen mit hohen Anforderungen an Kommunikations- und Compute-Leistungen bestimmt.
| Architektur: | distributed memory |
| Prozessor (CPU): | 972 x MIPS64 x 6 Cores - 700MHz, 2 FLOP/clk (64bit-DoublePrecision) |
| Hauptspeicher (RAM): | 3888 GB (4 GB/Knoten, 3.6 GB free) |
| Festplatten (HD): | 27 TB LUSTRE Filesystem (ca. 1GB/s), 2012 wegen mangelnder Stabilitaet durch NFS ersetzt (100MB/s) |
| 6 I/O-Nodes, 12 FC-4Gbps, 3 RAID-Boxen (je 9+3 SATA 1TB), Problem: hdparm -T nur 160MB/s (single thread) | |
| Netzwerk: | spezielles MPI-Netzwerk (Kautz-Graph, peak=nodes*1.5GB/s, spinpack.mpi_stress 340GB/s (350MB/s/node), 3GB/s(2nodes)) |
| Netzwerkanschluss: | 2 x Gigabit Ethernet (ssh: 3.9MB/s, -c arcfour128 9.1MB/s) |
| Stromverbrauch: | ca. 21 kW bei Volllast, Idle: 11 kW |
| Performance-Daten: | 8.2 TFLOPs peak, ca. 300 GB/s MPI-BW, Linpack 4.73 TFLOPs, 5.13 TFLOPs = 64% peak using hpl-2.0 (mpicc,mpif77,libf77blas.a,libatlas.a N=570000 NB=48 P*Q=75*76 WR00C2C2 -n 5700 -N 950, 20.5 kW Aug09) |
weitere Informationen finden Sie unter:
wikipedia/SiCortex,
www.SiCortex.com (Insolvenz 2009, offline seit 2010), sowie
www.Megware.de/de/cluster/computecluster/sicortex/(offline seit 2011),
Datasheet (PDF)
#!/bin/bash # srun-options: # -K = kill job if a task does exit with nonzero value # ACHTUNG: please use maximum 3GB/node to avoid system crashs! (2012-06) # --cpus-per-task=1 --task-mem=500 = 500 MB/task * 6 tasks/node = 3.0 GB/node # --cpus-per-task=2 --task-mem=1000 = 1000 MB/task * 3 tasks/node = 3.0 GB/node # --cpus-per-task=3 --task-mem=1500 = 1500 MB/task * 2 tasks/node = 3.0 GB/node # --cpus-per-task=6 --task-mem=3000 = 3000 MB/task * 1 tasks/node = 3.0 GB/node # in case of less than 6 tasks/node think about sharing nodes (option -s) # please always define number of nodes, p.e. -N 3-7, MinNodes will be used else # echo -n "JOBID=$SLURM_JOBID NNODES=$SLURM_NNODES NPROCS=$SLURM_NPROCS" echo " MEM=$SLURM_TASK_MEM WTIME=$SLURM_TIMELIMIT" echo "NODELIST=$SLURM_NODELIST" echo "job-class=partition= $(squeue -j $SLURM_JOBID -h -o \"%P\")" # # *** next line is for your parallel-job *** srun -K --cpus-per-task=1 --task-mem=500 ./a.out # mpi-executable # # output some job-infos: # job[step]id, begintime, time=d-hh:mm:ss, nnodes, ntasks, CPUs, lnodes squeue -j $SLURM_JOBID -o "%.7i %.14b %.11M %.6D %.6C %n"
# MPI Job abschicken (6*150=900 cores), max. 18 h
sbatch -p scx-comp --nodes 50-150 --time 18:00:00 job.sh
# MPI big Job abschicken (6*950=5700 cores), max. 48 h
sbatch -p big --nodes 950-950 --time 48:00:00 job.sh
# MPI Job abschicken (200-400 Nodes), max. 80 min
sbatch -p scx-comp --nodes 200-400 --time 01:20:00 job.sh
# bitte immer eine max. Zeit vorgeben, sonst Verkuerzung der Laufzeit moeglich
# Langlaeufer ab z.B. 4h werden durch zyklische Aenderung von MaxTime ggf. seltener gestartet
# Kurzlaeufer werden dadurch priorisiert
# Luecken werden nur mit Jobs gefuellt (back-fill), die auch in die Restlaufzeit aller laufenden Jobs passen
sinfo # Knoten- und Partitionsinformationen
squeue -l # Jobliste anzeigen
scancel JOBNUMMER # Job loeschen
scontrol show partitions # alle Queue-Limits anzeigen
scontrol show jobs # alle Jobeigenschaften anzeigen
Der Zugang erfolgt aus der UNI-Domain über
ssh
kautz.urz.uni-magdeburg.de (141.44.8.32) mit Public-Key.
Wenn Sie Windows und Excced für den Zugang (grafisch) benutzen,
beachten Sie bitte die Konfigurationshinweise des URZ.
Accounts können im
Kontaktbüro
des Rechenzentrums beantragt werden.
Füllen Sie dazu bitte
Formular A
aus.
Bitte beachten Sie, dass unsere Computeserver nicht der Aufbewahrung von Daten
dienen. Deshalb sind die Plattensysteme nur teilweise mit Redundanz
ausgestattet und auf Backups wird zugunsten von Performance und Stabilitaet
verzichtet.
Sichern Sie bitte selbst Ihre Resultate zeitnah und entfernen Sie angelegte
Dateien, um anderen Nutzern genug Speicher fuer deren Rechnungen zur Verfuegung
stellen zu koennen. Danke!
Für Fragen und Probleme wenden Sie sich bitte an
mailto:Joerg.Schulenburg(at)URZ.Uni-Magdeburg.DE?subject=WWW-Kautz
oder Tel.0391-67-58408.
19.01.09 - Lieferung (Fotos) + Inbetriebnahme der SC5832
29.01.09 - MPI-Benchmark Vergleich (mpi_stress.c from SpinPack)
03.02.09 - Lustre FS rekonfiguriert
21.02.09 - Lustre Stabilitaetsprobleme, kein login moeglich (Fehlkonfiguration)
03.02.09 - 6*dd und IOR-2.10.2 erreicht max. 1080MB/s (6 Streams on OST_00..05)
bei mehr Streams 400-800 MB/s (summarisch)
05.03.09 - 400 Nodes down durch Nutzer (srun ... srun), kill + slurmd restart
08.03.09 - Ausfall Lustre FS /home, 11:11 reboot!
09.03.09 - Lustre auf TCP via SC-Fabric umgestellt, stabiles Lustre (/home = 150MB/s)
m20n13-tx2=disabled (possible trigger of lustre bugs)
19.03.09 - Erfahrungsbericht (pdf) beim Treffen des ZKI Arbeitskreis Supercomputing
31.03.09 - Ausfall Lustre FS /home (?), 15:00 reboot
07.04.09 - System down for maintenance, board m20 replaced (reboot)
17.04.09 - head node crashed, head node rebooted, jobs not affected
22.04.09 - Einweihung (Talks: T. Blum, J. Schulenburg, H.-W. Meuer, J. Richter, L. Tobiska, G. Janiga)
03.05.09 - 17:11 Ausfall Temperatursensor msp1.PoL_11 + shutdown, 05.05. Board getauscht
05.05.09 - LustreError on head-Node, head-node rebooted, jobs not affected
08.06.09 - IO-node m10n1 hanging
10.06.09 - LustreErrors (/lustre, /lustre1, 3.6. m11n26+m17n13 + 9.6. m17n13 fabricd errors) - reboot
15.06.09 - LustreErrors (/lustre1, 13.6. fabmon errors at m23n10) - reboot
18.08.09 - LustreErrors (fabmon errors 16.6.+17.08. 23:22 m17n13,m21n9, 22.6. m11n26) - reboot + stress test
20.08.09 - 04:26 new fabmon-errors on m17n13,m21n9 (m0n1?) (2 nodes disabled) ca. 16:00 reboot + stress test
22.08.09 - 06:00 Ausfall Klimaanlage (Power off bis Montag 24.08.09)
22.09.09 - reboot node m17n0, dead lustre client (caused by bit-errors?)
09.10.09 - 2bit-Memory-Error on scx-m17n0 explored (Node disabled)
16.11.09 - reboot machine (Lustre inkonsistent)
29.11.09 - ca. 17:00 Ausfall Klimaanlage (Power off)
12.12.09 - Ausfall Node m29n8 ECC Error (am 18.12. auskonfiguriert)
13.01.10 - 18:00 Ausfall Klimaanlage (Wasser-Rueckkuehlung)
08.03.10 - 13:30 Connection timed out to m29n18, L2 CSW ECC Error, Jobs crashed
17.06.10 - 20:00 Ausfall Klimaanlage + Notabschaltung
25.07.10 - 02:16 Crash Node m24n18 Error: "ICE9-dma"
04.09.10 - 18:45 Crash Node m24n18 Error: "ECC" (6.9. reboot + set down)
06.09.10 - 2bit-Memory-Error on scx-m24n18 explored (Node disabled)
08.09.10 - Crash Node m34n26 Error: "ECC" (set down) + Job6339 crashed
13.09.10 - 08:50 maintenance - test stability at 633 MHz
(Test-Ergebnis: m34n26=stabil, m17n0,m24n18=2-bit-errors)
21.09.10 - kernel panic m10n1 (unused IO-node, reboot m10n1 on 11.10.)
13.10.10 - kernel panic m10n1 (unused IO-node, PCI-Probleme, reboot m10n1)
13.10.10 - partitionsparameter angepasst (MaxTime=15d zur Schadensbegrenzung)
08.11.10 - ca. 14:47 Ausfall m17n13 unknown reason ... ??? (full reboot)
11.11.10 - crash m29n8 Error: "ECC" (reboot m29n8 + set down)
14.11.10 - crash m10n1 (unused IO-node, reboot m10n1)
23.11.10 - node m10n1 + m34n26 crashed, boot problems ... bad RAM m34n26
25.11.10 - Board m34 getauscht
06.12.10 - crash m10n1 (unused IO-node)
09.12.10 - 21:30 Job 6611 (n=6*250) crashed (Bus error), no reason found
18.12.10 - 03:48 USV meldet Kurzschluss, Hauptsicherung ausgeloest, OFF
20.12.10 - 09:15 48V*100A Netzteil (1 von 6) ausgefallen, getauscht
26.03.11 - Ausfall Lustre, Reboot
27.05.11 - ab 14:00 Abschaltung wegen Arbeiten an der Klimaanlage (bis max. Montag)
10.06.11 - 146GB-HD des RAID-5 am SSP getauscht (Predictive Failure)
23.01.12 - 4 Nodes ausgefallen (m16n20,m20n10,m21m17,m25n24 not_reachable)
bisher laengste uptime von 967 nodes fuer ca. 6 Monate
25.01.12 - seit ca. 14:00 Probleme mit Lustre (kein login, timeout)
2*reboot, Problem mit Timer CPU2 m21n17, node deaktiviert
27.04.12 - partition (queue) modifiziert, scx-comp bis 100 Nodes, neu: big
um grossen Jobs zeitweise eine bessere Chance zu geben
16.05.12 - neue fill-partition "short" max. 4h (oder weniger)
alle Partition-MaxTimes werden zyklisch geaendert, so dass
Kurzlaeufer (z.B. 4h) schneller drankommen,
Langlaeufer kommen seltener zum Start
(z.B. kommt ein 10d Job erst nach etwa 10d seine Chance)
05.06.12 - system bugs bezueglich OOM+malloc entdeckt (Jobkills+NodeCrashs)
overcommit_ratio = 98 (-70MB, 100 causes OOM by memeater + scfab)
07.06.12 - temporary full lustre-FS (user jobs)
08.06.12 - reboot to clear nodes, set overcommit_ratio = 95 and
activate sbatch/srun-wrapper scripts to limit memory/task + time
11.06.12 - 100%CPU durch verklemmten "node_clock_agent" belegt,
Prozesse fuer ca.3 Tage ca. 50* langsamer, Agent gekillt
12.06.12 - Datenverlust (genullte Bereiche) im user-job-logfile (lustre)
- Probleme Disk6 im RAID5-Verbund waehrend mkfs m2n1:/dev/sdc
- Folgeprobleme mit Lustre, OOM auf m2n1 durch LustreServer? etc.
13.06.12 - wiederholt verklemmte Promise VTrak E310f (FC-RAID) Firmware (kein Zugriff mehr)
- Fehlfunktion des VTrak RAID (Drive offline, Spare springt nicht an)
- 17:17 VTrak: Spare nach Resets + Plattenwechsel doch angesprungen
und nach RAID5-Rebuild + Lustre restart Betrieb stabilisiert
19.06.12 - power off um msp19 + msp31 fuer reboot wiederzubeleben, Jobs weg,
home-filesystem lustre durch nfs ersetzt (robuster? ggf. Datenverluste!)
09.07.12 - m25n24 mit ECC-Fehlern abgestuerzt, auskonfiguriert (8 nodes down)
28.08.12 Klimaausfall 3h nach Spannungsdrop 03:43 bis max Tn+29C ohne Ausfall
logs: WARNING: TIMEOUT on scx-msp$m MspEnv_Power_Pol_$n: ... (30GB/d)
01.09.12 Ausfall m19n6, 10.09.12 Ausfall m7n14 (Nachwehen? reboot geplant)
13.09.12 booten hing, deshalb master neu gestartet, jobs geloescht
15.10.12 Ausfall 146GB-HD des RAID-5 am SSP (Platte ersetzt)
28.11.12 20:56-22:24 Ausfall Node m19n8 (Ursache unklar, Core#4 haengt?, 13.12.)
13.06.13 slurm durch OOM instabil? Nodes m21n1,2,5,... disconnected
14.06.13 15:30 reboot cluster (failed!), power off/on
18.06.13 m35n10 nicht per JTAG/I2C erreichbar, Board m35 getauscht
RAMs m24n18 m16n20 m17n0 mit Bitflips und sporadischen L2-ECC-Crashs
m24n18,m17n1 wandert mit zu n8,n1 und wurden getauscht
weitere RAM-Tests (OOM fuehrt zu slurmd und sshd crashes)
19.06.13 weitere RAMs getestet und getauscht (CEs m3n11 m12n7 m29n13 m19n20 m4n23 m25n24 m19n15)
20.06.13 weitere RAMs getauscht (CEs m29n8 ...)
21.06.13 keine weiteren ECC-Fehler bei memtest, Normalbetrieb ab ca. 12:00
23.06.13 08:42 correctable ECC-Error (CE) on m19n8 (was m19n15), no action
29.06.13 10:25 correctable ECC-Error (CE) on m17n8, no action
12.07.13 11:06 correctable ECC-Error (CE) on m12n8, dma-errors
08.08.13 Austausch RAMs m19n8 und m12n8, testtausch m10+m12 wegen m10n1
26.08.13 02:30 Crash m14n20 (Ursache unklar, reboot node)
21.10.13 08:00 kernel panic m10n17 (Ursache unklar, reboot node)
21.12.13 23:00 Klimaprobleme im Serverraum, set queue big down (less heat)
04.02.14 14:27 Ueberlastung NFS (?), OOM@m2n1, 5 Knoten aufgehaengt (5*reboot)
08.02.14 00:50 Absturz node m22n23 (Ursache unklar, warmboot 12.02.)
03.03.14 Ausfall node m24n7 und m27n14 (bleiben bis reboot offline)
18.09.14 unerwarteter I/O-error m11n19 im Anwenderprogramm, reboot geplant
19.09.14 Fr-Di System boot bleibt beim module (scfab,scio,sceth) laden haengen
25.09.14 Fehler gefunden: m11n19 hat defekte Bits im L2-cache bemerkt, auskonfiguriert
20.04.15 8ter Knoten m2n1 mit nfs ausgefallen (Folge?), RAM-Tausch m11n19
2h-Diagnose + RAM-Tausch m15n13 m25n18 m13n4 m0n21 + Diagnose 3h
21.04.15 RAM-Tausch m17n8 m29n17 m4n8 m15n13 + neuer Diagnose-Lauf(3h)
18 getauschte DIMMs von 1864 2GB-ULV-DDR2-DIMMs in 6 Jahren (1% Ausfallrate)
m15n13 hat L2-Bitfehler im Diagnose-Test auch nach DIMM-Tausch (set down)
12.10.15 m17n13 sc-Netzwerkproblem (link: m17n13-rx0 - m21n9-tx2)? warmboot hilft nicht
13.10.15 Folgeausfall komplettes sc-Netzwerk
reboot fails mit ECC-Fehlern auf m10n16, DIMMs m10n16+m16n12 getauscht
14.10.15 diagnose-run 8h, 3 nodes mit ECC-Problemen, 1 instabiler Link
15.03.16 reboot, NFS-node hatte nach 8 Tagen parallel file-read Out-Of-Memory (5700 tasks)
13.06.16 login problems, new (pedantic) network router, bad netmask corrected
26.07.16 node m2n1 (nfs-server) crashed (CPU-Error+kernel-panic), reboot
26.09.16 1 of 2 power units defect (power redundancy lost), ok after replug
20.10.16 Teilausfall Rueckkuehlung + Bedampfung (30C, 30% RF WL), jobs suspended
06.12.16 22:00 Ausfall Kaltwasser der Klimaanlage (auto-shutdown 02:13 38C)
22.12.16 17:15 breakdown board 34 incl. network, trying reboot
11.02.17 Out-of-Memory on master (up=881days, slapd=2.5GB), plz send an email if nodes show problems (full reboot required)
09.03.17 m4n5 lot of ECC-errors, /var/log 100% filled, node configured out
18.08.17 Stromausfall durch Abschaltung (statt Bypass) ueberhitzter USV,
Klimatisierung der USV durch Nager stillgelegt,
Probleme mit Board34 beim wiedereinschalten
01.11.17 Ausserbetriebnahme
IB-Cluster t100(2016),
HP GS 1280 marvel(2003-2009),
8-Wege-QuadOpteron meggie(2009),
der kleine Bruder SC072-PDS asgard(2009),
ISUT-Cluster comp2,
weitere Infos zu
zentralen Compute-Servern im CMS
Author: Joerg Schulenburg, Uni-Magdeburg URZ, Tel. 58408 (2009-2015)