Benutzer-Werkzeuge

Webseiten-Werkzeuge


it-wiki:linux:ceph:maintenance

Ceph maintenance

Ceph-Überwachung und Fehlerbehebung

Es ist wichtig, den Zustand einer Ceph-Bereitstellung von Anfang an kontinuierlich mithilfe der Ceph-Tools zu überwachen.

Die folgenden Ceph-Befehle können verwendet werden, um zu sehen, ob der Cluster fehlerfrei ist (HEALTH_OK), ob Warnungen (HEALTH_WARN) oder sogar Fehler (HEALTH_ERR) vorliegen. Wenn sich der Cluster in einem fehlerhaften Zustand befindet, geben Dir die folgenden Statusbefehle auch einen Überblick über die aktuellen Ereignisse und die zu ergreifenden Maßnahmen.

# single time output
ceph-node1# ceph -s
# continuously output status changes (press CTRL+C to stop)
ceph-node1# ceph -w

Um eine detailliertere Ansicht zu erhalten, verfügt jeder Ceph-Dienst über eine Protokolldatei unter /var/log/ceph/. Wenn mehr Details erforderlich sind, kann die Protokollebene angepasst werden.

Weitere Informationen zur Fehlerbehebung bei einem Ceph-Cluster findest Du auf der offiziellen Website.

OSDs ersetzen

Eine der häufigsten Wartungsaufgaben in Ceph ist der Austausch der Festplatte eines OSD. Wenn eine Festplatte bereits ausgefallen ist, kannst Du die Schritte unter OSDs zerstören ausführen. Ceph erstellt diese Kopien, wenn möglich, auf den verbleibenden OSDs neu. Diese Neuverteilung beginnt, sobald ein OSD-Ausfall erkannt wird oder ein OSD aktiv gestoppt wurde.

Bei der Standardgröße/Mindestgröße (3/2) eines Pools beginnt die Wiederherstellung erst, wenn Knoten der Größe „Größe + 1“ verfügbar sind. Der Grund dafür ist, dass der Ceph-Objekt-Balancer CRUSH standardmäßig einen vollständigen Knoten als „Fehlerdomäne“ verwendet.

Um eine funktionierende Festplatte zu ersetzen, führe die Schritte für OSDs zerstören durch. Die einzige Ergänzung besteht darin, zu warten, bis der Cluster HEALTH_OK anzeigt, bevor Du das OSD stoppst, um es zu zerstören. Verwende in der Befehlszeile die folgenden Befehle:

ceph osd out osd.<id>

Mit dem folgenden Befehl kannst Du überprüfen, ob das OSD sicher entfernt werden kann.

ceph osd safe-to-destroy osd.<id>

Wenn die obige Prüfung ergibt, dass das OSD sicher entfernt werden kann, kannst Du mit den folgenden Befehlen fortfahren:

systemctl stop ceph-osd@<id>.service
ceph osd destroy {id} --yes-i-really-mean-it

Ersetze die alte Festplatte durch die neue und verwende dasselbe Verfahren wie für „OSDs erstellen“. ceph osd create [{uuid} [{id}]]

Scrub & Deep Scrub

Ceph stellt die Datenintegrität durch Scrubbing von Platzierungsgruppen sicher. Ceph prüft jedes Objekt in einer PG auf seine Integrität.

Es gibt zwei Formen des Scrubbings: tägliche, kostengünstige Metadatenprüfungen und wöchentliche, gründliche Datenprüfungen. Beim wöchentlichen, gründlichen Scrubbing werden die Objekte gelesen und Prüfsummen verwendet, um die Datenintegrität sicherzustellen. Wenn ein laufendes Scrubbing die geschäftlichen (Leistungs-)Anforderungen beeinträchtigt, kannst Du den Zeitpunkt anpassen, zu dem die Scrubbings ausgeführt werden.

it-wiki/linux/ceph/maintenance.txt · Zuletzt geändert: 2024/07/10 06:23 von marko