Mein Homelab hat sich selbst gekillt – live miterlebt
Es war ein Samstag. Die Sonne schien. Ich wollte eigentlich nur kurz ein apt update && apt upgrade machen, dann Mittagessen, dann vielleicht ein bisschen im Garten sitzen. Drei Stunden später saß ich vor einem schwarzen Bildschirm, hatte vier Arch-Wiki-Tabs offen und überlegte ob nicht doch Gartenarbeit das bessere Hobby wäre.
Was passiert ist
Das Update lief durch, Proxmox hat einen Kernel-Upgrade mitgenommen. Neustart. Schwarzer Bildschirm. Kein GRUB, nichts. Das System kam nicht mehr hoch. Nicht vollständig, jedenfalls – irgendwas am Bootloader war durcheinandergeraten, vermutlich durch eine Kombination aus dem neuen Kernel und einer Partition die ich mal in einem YouTube-Tutorial anders konfiguriert hatte als empfohlen.
Das erste Problem: ich hatte keinen aktuellen Snapshot. Meinen letzten Proxmox-Backup-Job hatte ich vor zwei Wochen manuell gestoppt weil der NAS-Platz knapp war, und nie wieder neu gestartet. Klassiker.
Wie ich's wieder hinbekommen hab
Live-ISO gebootet, chroot in das System, GRUB neu installiert. Klingt simpel, war es nach dem dritten Versuch auch. Der erste Versuch ist an einem falschen Pfad gescheitert, der zweite an einer fehlenden EFI-Variable die ich nicht sofort gesehen hab. Beim dritten Mal hat's geklappt.
Gesamtausfallzeit: knapp drei Stunden. Datenverlust: keiner, weil die VMs auf separaten Volumes lagen und die unbeschädigt waren. Was verloren gegangen ist: mein Samstag nachmittag und ein bisschen Selbstvertrauen.
Was seitdem anders ist
Der Proxmox Backup Server läuft jetzt auf einem separaten kleinen Rechner, unabhängig vom Haupt-Host. Tägliche automatische Snapshots, Retention 7 Tage. Und vor jedem Update – auch kleinen – kommt ein manueller Snapshot. Das dauert zwei Minuten. Das Debugging danach dauert Stunden. Die Rechnung ist einfach.
← zurück zu Linux 📂 Archiv