fragen stichworte

Wiederherstellung nach "Ungültige Laufwerksbewegung" (HP SmartArray P411)

Aufgrund des Hurrikans Matthew hat unser Unternehmen alle Server für zwei Tage heruntergefahren. Einer der Server war ein ESXi-Host mit einem angeschlossenen HP StorageWorks MSA60.

Als wir die Dinge heute wieder hochgefahren haben und sich beim vSphere-Client angemeldet haben, haben wir festgestellt, dass keine unserer Gast-VMs verfügbar ist (sie sind alle als "nicht erreichbar" aufgeführt). Wenn ich mir den Hardwarestatus in vSphere anschaue, werden der Array-Controller und alle angeschlossenen Laufwerke als "Normal" angezeigt, die Laufwerke werden jedoch alle als "nicht konfigurierte Festplatte" angezeigt.

Wir haben den Server neu gestartet und versucht, das RAID-Konfigurationsprogramm aufzurufen, um zu sehen, wie die Dinge von dort aussehen. Wir haben jedoch die folgende Meldung erhalten:

An invalid drive movement was reported during POST. Modifications to the array configuration following an invalid drive movement will result in loss of old configuration information and contents of the original logical drives

enter image description here

Unnötig zu sagen, dass wir sehr verwirrt sind, weil nichts "bewegt" wurde. Nichts hat sich verändert. Wir haben einfach den MSA und den Server eingeschaltet und haben seitdem dieses Problem.

Der MSA ist über ein einzelnes SAS-Kabel angeschlossen, und die Laufwerke sind mit Aufklebern gekennzeichnet. Ich weiß, dass die Laufwerke nicht verschoben oder gewechselt wurden:

---------------------
| 01 | 04 | 07 | 10 |
---------------------
| 02 | 05 | 08 | 11 |
---------------------
| 03 | 06 | 09 | 12 |
---------------------

Im Moment weiß ich nicht, welche Marken und Modelle die Laufwerke haben, aber es handelt sich um 1-TB-SAS-Laufwerke.

Ich habe zwei Hauptfragen/Bedenken:

  1. Da wir die Geräte lediglich aus- und wieder eingeschaltet haben, was hätte dazu führen können? Ich habe natürlich die Möglichkeit, das Array neu zu erstellen und von vorne zu beginnen, aber ich mache mir Sorgen über die Möglichkeit, dass dies erneut vorkommt (vor allem, weil ich keine Ahnung habe, was es verursacht hat).

  2. Gibt es die Chance eines Schneeballs, dass ich unsere Array- und Gast-VMs wiederherstellen kann, anstatt alles neu erstellen und unsere VM-Backups wiederherstellen zu müssen?

antworten

Richtig, das ist eine sehr prekäre Situation ...

Der HP Smart Array Controller kann also eine bestimmte Anzahl physischer Laufwerksbewegungen verarbeiten, bevor die Array-Konfiguration beschädigt wird. Denken Sie daran, dass sich HP RAID-Metadaten auf den physischen Laufwerken befinden und nicht auf dem Controller ...

Bei dem MSA60 handelt es sich um ein 3,5-Zoll-SAS-JBOD-Gehäuse der ersten 3,5-Zoll-Klasse. Es wurde 2008/2009 ausgelaufen. Es ist alt genug, dass es sich nicht im kritischen Pfad von irgendwelchen vSphere-Bereitstellung heute.

In diesem Fall versucht der P411-Controller, Sie zu schützen. Möglicherweise ist ein Fehler bei mehreren Laufwerken aufgetreten, ein Firmware-Fehler aufgetreten, eine der beiden Controller-Schnittstellen an der Rückseite des MSA60 oder ein anderer ungerader Fehler verloren gegangen.

Das klingt auch nach einem älteren Server-Setup. Daher würde ich gerne den betroffenen Server und die Firmware-Version des Smart Array P411 erfahren.


Ich würde vorschlagen, die Stromversorgung aller Komponenten abzuschalten. Warten Sie ein paar Minuten. Einschalten ... und POST-Anweisungen sehr genau beobachten.

Weitere Informationen finden Sie in meiner Antwort hier:
Logische Laufwerke auf dem HP Smart Array P800 werden nach einem Neustart von

nicht erkannt

Möglicherweise gibt es eine Option zum erneuten Aktivieren eines zuvor ausgefallenen logischen Laufwerks mit der Option, F1 oder F2 zu drücken. Wenn angezeigt, versuchen Sie es mit F2.

Ihr werdet das nicht glauben ...

Zuerst versuchte ich einen frischen Kaltstart des vorhandenen MSA, wartete ein paar Minuten und schaltete dann den ESXi-Host ein, aber das Problem blieb bestehen. Ich habe dann den Host und MSA heruntergefahren, die Laufwerke in unser Ersatz-MSA verschoben, es hochgefahren, ein paar Minuten gewartet und dann den ESXi-Host hochgefahren; das Problem blieb immer noch bestehen.

An diesem Punkt dachte ich, dass ich ziemlich fertig war, und während der Initialisierung des RAID-Controllers gab es nichts, wo ich eine Option hatte, ein fehlgeschlagenes logisches Laufwerk wieder zu aktivieren. Ich bootete also in die RAID - Konfiguration, verifizierte erneut, dass keine logischen Laufwerke vorhanden waren, und ich erstellte ein neues logisches Laufwerk (RAID 1 + 0 mit zwei Ersatzlaufwerken; genau wie vor etwa 2 Jahren, als wir diesen Host zum ersten Mal eingerichtet haben Lager).

Dann lasse ich den Server wieder in vSphere booten und habe über vCenter darauf zugegriffen. Das erste, was ich getan habe, war, den Host aus dem Inventar zu entfernen und ihn dann wieder hinzuzufügen (ich hatte gehofft, alle unzugänglichen Gast-VMs auf diese Weise zu löschen, aber sie löschten sie nicht aus dem Inventar). Sobald der Host wieder in meinem Inventar war, entfernte ich alle Gast-VMs nacheinander. Sobald das Inventar gelöscht war, verifizierte ich, dass kein Datenspeicher vorhanden war und dass die Platten im Grunde bereit und als "Datenplatten" bereit waren. Also habe ich einen neuen Datenspeicher erstellt (wieder wie vor ein paar Jahren mit VMFS). Ich wurde schließlich aufgefordert, eine Mount-Option anzugeben, und ich hatte die Option "die vorhandene Signatur behalten". An diesem Punkt dachte ich, es wäre einen Versuch wert, die Signatur zu behalten - wenn die Dinge nicht funktionierten, konnte ich sie immer wegblasen und den Datenspeicher erneut erstellen. Nachdem ich den Prozess zum Erstellen des Datenspeichers mit der Option zum Unterhalten der Signatur beendet hatte, habe ich versucht, zum Datenspeicher zu navigieren, um festzustellen, ob etwas darin enthalten ist - es schien leer zu sein. Aus reiner Neugierde ging ich zum Host und checkte von dort aus, und zu meiner Überraschung konnte ich alle meine alten Daten und all meine alten Gast-VMs sehen! Ich bin zurück in vCenter gegangen und habe den Speicher erneut gescannt und die Konsole aktualisiert, und alle unsere alten Gast-VMs waren dort! Ich habe jede VM neu registriert und konnte alles wiederherstellen! Alle unsere Gast-VMs sind zurück und kommunizieren erfolgreich im Netzwerk.

Ich denke, die meisten Leute in der IT-Community würden zustimmen, dass die Chancen, dass so etwas passiert, extrem gering bis unmöglich sind.

Soweit es mich betrifft, war das ein Wunder Gottes ...