DevOps
Wnioski po pierwszej awarii serwera proxmox
Aktualizować jest rzeczą ludzką ...
Po ostatniej aktualizacji z proxmox 7.4 do 8.0 okazało się, że serwer przestał się uruchamiać samodzielnie, pojawił się błąd już przy konsoli GRUB z informacją, że identyfikator dysku nie jest znany.
Machine UUID... Booting from Hard Disk... error: disk 'lvmid/....' not found. Entering rescue mode... grub rescue>
Table of Contents
Symptomy
W takiej sytuacji konieczne jest wsparcie się dodatkowym narzędziem, np wersją instalacyjną proxmox i wybranie opcji ratowania: RESCUE, która uruchomi instancje na dysku. Inne przydatne narzędzie to rescutex.
Jak już możliwe było logowanie do shell proxmox, to okazało się, że internet nie funkcjonuje, winne były ustawienia sieciowe, które uległy zmianie: karta sieciowa zmieniła identyfikator: /etc/network/interfaces
Wnioski
Widząc jak łatwo można uszkodzić serwer, poprzez prostą aktualizację, wydawało się konieczną, postanowiłem, ze stworzę lepszą wersję tego samego serwera bazując na backupach, która oczywiście są dostępne, bo od tego zacząłem całą przygodę z proxmox.
Postanowiłem wykorzystać świeżo zakupionego mini-pc NUC 13 PRO z procesorem 1340p, który jest nieco szybszy niż wcześniej używany 1240p, ale płyta główna jest na 99% ta sama.
Wziąłem też pod uwagę możliwe awarie w przyszłości i zamiast jednego dysku wykorzystałem dwa. NUC 13 posiada dwa porty M.2 dla SATA i PCIE4.
Zasoby
Przeznaczyłem SATA dla systemu debian na którym działa proxmox oraz PCIE dla NVME 5000MB/s 2TB dla danych, partycji maszyn wirtualnych LVM.
Tak wygląda widget z panelu webUI proxmox, gdzie widać maksymalne zużycie pamięci RAM, jest to spowodowane uruchomieniem na raz ponad 10 maszyn desktop fedora. Pamięć RAM w tym zestawie to makysmalnie 64GB. Dostęp do maszyn jest dość szybki, korzystam z połączenia przy użyciu protokołu SPICE
Źródła
- Specyfikacja NUC 13 PRO
- proxmox
- Jak zmienić wielkość partycji w proxmox
- https://www.youtube.com/watch?v=33ubleU4OFc
- https://www.youtube.com/watch?v=Gy5iWpbZbDg
- Logical Volume Manager (LVM)
- Recover From Grub Failure
- https://system-administrators.info/?p=7147
- Hiren’s BootCD PE
- rescatux
- 🤔 Jak radzicie sobie z frustracją w pracy developera? - 24 listopada 2024
- Walidacja pomysłu SaaS - 29 lipca 2024
- Dlaczego liczba 2 jest idealna w IT? Analiza fenomenu dualności - 29 lipca 2024