Dans le but de pouvoir stopper proprement un hyperviseur VMware et ses machines virtuelles en cas d’alerte onduleur, voici une solution pour intégrer un client NUT (Network UPS Tools) natif à vSphere Hypervisor (ESXi 5.0, 5.1, 5.5, 6.0, 6.5, 6.7, 7.0, 8.0 testés). Le client NUT est installé dans l’hyperviseur et peut être contrôlé et paramétré depuis l’interface de configuration de ESXi ou depuis le vCenter s’il est géré.
Réflexion du 30/05/2024 : Broadcom a racheté VMware et a fait un grand ménage dans les formules commerciales. La plus impactante pour ce projet est l’arrêt des licences gratuites pour ESXi. Aujourd’hui les versions 7 et 8 sont celles qui continuaient d’être activement supportées par VMware. Aussi longtemps que je serai en mesure d’exécuter ESXi dans mon lab je continuerai de mettre à jour le client NUT pour ESXi.
Mise en garde 01/11/2023 : Sous ESXi 8.0 et à partir de la version 2.5.0 du client Nut, dans l’interface client HTML, vous ne verrez pas les descriptions associées aux UserVars du client NUT à jour tant que le host ESXi n’aura pas rebooté.
Mise à jour du 19/10/2022 : ESXi 8.0 est sorti ce 11/10/2022, seules les versions du module avec un numéro de version supérieur à 2.3.2 pourront s’installer sur cette nouvelle version de ESXi (abandon du support des binaires 32-bits et checksum SHA256 requis dans la signature du module).
Principe
La procédure consiste à installer dans l’hyperviseur les binaires et scripts nécessaires à la réception des alertes onduleur. Le schéma classique minimal des connexions entre les éléments d’un réseau électrique protégé par un onduleur est le suivant :
Cette solution n’est pas officiellement supportée par VMware et elle ne s’applique qu’à des hyperviseurs standalone. Elle ne peut pas convenir pour des fermes d’hyperviseurs en cluster de haute disponibilité sous le contrôle d’un vCenter. Seul le client NUT est ajouté à l’hyperviseur, l’onduleur doit être surveillé par un serveur NUT indépendant.
Caractéristiques et fonctionnalités
- La méthode d’installation utilise un fichier VIB (vSphere Installation Bundle). Il n’y a rien d’autre ce qui permet une installation rapide et sûre et une désinstallation propre en utilisant les standards de VMware.
- La compatibilité du module a été assurée pour qu’il fonctionne sur toutes les versions de ESXi entre 5.0 et 8.0. Cependant pour les versions 5.x l’installation automatique par déploiement de ViB n’est pas possible, il faut l’installer manuellement en suivant les instructions ci-dessous et passer outre les avertissements de sécurité. A partir de la version 6.0 de ESXi il n’y a plus ce soucis.
- C’est un client NUT 2.8.1 qui est inclus dans le paquetage. Il peut se connecter aux serveurs avec une version plus ancienne (disons 2.6.4 mais je n’ai pas testé les serveurs plus anciens).
- Actuellement seule la version pour processeur x86 est disponible. Il n’y a pas de version pour ESXi ARM (je n’ai ni le besoin ni la plateforme de test/développement pour ça).
- Le client (secondary dans la terminologie NUT) peut se connecter au serveur (primary) en privilégiant une connexion SSL/TLS si elle est disponible. Il ne sera pas fait de vérification de validité de certificat serveur et il n’y a pas de certificat client configurable.
- Le client peut envoyer un mail très succinct à une adresse configurable lors de la réception d’un évènement onduleur (perte du secteur, batterie faible, engagement de l’arrêt, retour du secteur). L’outil mail est très simple et il récupère les informations pour l’envoi des messages du DNS (enregistrements MX). Vous pouvez aussi utiliser un relais SMTP personnel.
- Le client peut se connecter à plusieurs serveurs NUT s’il y a plusieurs onduleurs (cas des serveurs avec une redondance d’alimentation). Il utilisera le même compte et le même mot de passe pour se connecter aux différents serveurs NUT. A vous de déclarer ce compte sur tous les serveurs NUT.
- Normalement il est possible de préciser le port TCP de connexion au serveur NUT sous la forme onduleur@serveur:port mais ESXi impose des règles de firewall pour le trafic sortant et seul le port 3493 est autorisé. C’est le port par défaut des serveurs NUT.
- Il est possible de demander l’arrêt du système ESXi après un laps de temps sur batterie configurable. Le client reste à l’écoute de l’évènement batterie faible et le système entamera sa procédure d’arrêt soit après le temps imparti soit sur évènement de batterie faible, au premier des deux qui surviendra quand le système est sur batterie. L’attente est interrompue si le courant secteur est rétabli entre temps, mais si la procédure d’arrêt a déjà été initiée, elle ira jusqu’à l’extinction du host ESXi.
- Le redémarrage du serveur après une coupure de courant est aussi une phase importante mais c’est à vous de le prévoir avec d’autres outils. Personnellement (mais ce n’est qu’une suggestion) j’aime bien l’idée d’un chef d’orchestre qui redémarre automatiquement. Il surveille le retour des services tels que le réseau, le serveur NUT etc… et il envoie des trames WOL pour réveiller les machines dans l’ordre désiré. Configurez votre serveur NUT pour qu’il ordonne à l’onduleur de couper effectivement le courant pendant un petit laps de temps même si le courant est revenu pendant la procédure d’arrêt. La plupart des onduleurs ont cette fonction avec les libellés « Interval to wait after shutdown with delay command » et « Interval to wait before (re)starting the load ». Certains onduleurs ont aussi une valeur « Minimum battery level for restart after power off » qui est interessante pour attendre que l’onduleur ait suffisamment rechargé ses batteries avant de faire redémarrer le système. Le risque est de se retourner dans une situation où un second arrêt propre serait impossible si une nouvelle coupure de secteur se produit juste après le redémarrage (ce qui est plutôt fréquent).
- Le client tourne avec le compte root. C’est habituellement déconseillé par la documentation du projet NUT mais l’hyperviseur a un nombre très limité de comptes locaux. Ce nombre de compte s’est beaucoup réduit au fil des versions. Des comptes restants, root est le seul encore utilisable.
Téléchargement du module
Pour toutes les versions de ESXi, l’installation peut se faire en ligne de commande sur l’hyperviseur : un fichier TAR compressé doit être déposé sur l’hyperviseur.
Téléchargez ici le fichier
Télécharger “NutClient-ESXi (binaires)” NutClient-ESXi-2.8.2-2.6.2.x86_64.tar.gz – 821,90 Ko
A partir de ESXi 6.0 vous pouvez utiliser le bundle offline pour une installation en ligne de commande en appelant la commande « esxcli software vib install -d » . Ou par le manager de mises à jour du vCenter si vous en avez un.
Téléchargez ici le bundle offline.
Télécharger “NutClient-ESXi (offline bundle)” NutClient-ESXi-2.8.2-2.6.2-offline_bundle.zip – 823,83 Ko
Vous pouvez créer votre propre package personnalisé à partir des sources. Elles sont distribuées sous licence GPLv3 (GNU Public License version 3). Utilisez un environnement de développement linux 64 bits tel que CentOS 7 avec les outils de compilation et développement C habituels. Un fichier INSTALL décrit la procédure. Les sources sont disponibles également dans un dépot git publique : NutClient-ESXi
Téléchargez ici les sources
Télécharger “NutClient-ESXi (sources)” NutClient-ESXi-2.8.2-2.6.2-src.tar.gz – 121,64 Ko
Installation
Activez l’accès ssh à votre host ESXi si ce n’est pas déjà fait. Cela est fait à partir de l’interface d’administration ESXi ou de la console DCUI. A partir de l’interface d’administration : dans la rubrique gérer de votre hôte, onglet services, dans la liste sélectionnez TSM-SSH et démarrez le service. Le service ssh sera actif jusqu’au prochain reboot de l’hyperviseur ou pendant un temps limité selon la version de votre ESXi.
Copiez le fichier NutClient-ESXi-2.8.2-2.6.2.x86_64.tar.gz dans le répertoire /tmp du host ESXi. Ici je vous donne l’exemple depuis une machine linux (remplacez 10.0.0.8 par l’adresse IP du host ESXi ou son nom FQDN). Depuis Windows vous pouvez utiliser l’outil gratuit WinSCP.
[root@linux ~]# scp NutClient-ESXi-2.8.2-2.6.2.x86_64.tar.gz root@10.0.0.8:/tmp The authenticity of host '10.0.0.8 (10.0.0.8)' can't be established. RSA key fingerprint is 89:49:ce:6d:... ...:40:76:7a:4a:fe. Are you sure you want to continue connecting (yes/no)? yes Warning: Permanently added '10.0.0.8' (RSA) to the list of known hosts. Password: (saisir le mot de passe administrateur ESXi) NutClient-ESXi-2.8.2-2.6.2.x86_64.tar.gz 100% 869KB 1.9MB/s 00:00
Passez votre hyperviseur au niveau d’acceptance Communauté si ce n’est pas déjà fait !
Connectez-vous root en ssh à l’hôte ESXi et tapez la suite de commandes suivantes pour installer le VIB (l’opération peu être longue si votre système est installé sur une clé USB lente) :
~ # cd /tmp /tmp # tar -xzf NutClient-ESXi-2.8.2-2.6.2.x86_64.tar.gz /tmp # sh upsmon-install.sh Installation Result Message: Operation finished successfully. Reboot Required: false VIBs Installed: Margar_bootbank_upsmon_2.8.2-2.6.2 VIBs Removed: VIBs Skipped:
Vous n’avez pas besoin de rebooter pour commencer à utiliser le client NUT sur votre système. Vous devez toutefois le configurer avant son premier lancement.
Vous pouvez supprimer les fichiers qui ont été créés dans /tmp et désactiver le service SSH
Configuration
A l’aide de l’interface d’administration du ESXi, rendez-vous dans la rubrique gérer de l’hôte. Sélectionnez les paramètres avancés de l’onglet Système et filtrez la liste sur UserVars.Nut, vous avez 8 variables à configurer :
- UserVars.NutUpsName : Nom de l’onduleur sur le serveur NUT (sous la forme nom_onduleur@nom_ou_ip_serveur). Plusieurs onduleurs peuvent être saisis séparés par un espace. Il n’y aura pas d’arrêt système tant que le dernier onduleur encore debout n’aura pas donné l’ordre d’arrêt.
- UserVars.NutUser : Nom du compte de connexion au serveur NUT
- UserVars.NutPassword : Mot de passe du compte de connexion au serveur NUT
- UserVars.NutFinalDelay : Secondes qu’il faudra attendre après la réception de l’événement batterie faible pour procéder à l’arrêt du système
- UserVars.NutOnBatteryDelay : Délai en secondes après le début du passage sur batterie de l’onduleur pour stopper le système. Si la valeur est 0 alors le client NUT attendra l’évènement batterie faible pour stopper le système. La valeur par défaut est 0, c’est le fonctionnement normal pour garder le système en fonctionnement le plus longtemps possible. Si l’onduleur repasse sur secteur avant la fin du délai, le système ne sera pas stoppé.
- UserVars.NutSendMail : A mettre à 1 pour que le client NUT envoie un e-mail à chaque évènement important de l’onduleur. La valeur 2 permet d’avoir dans le mail l’état des l’onduleurs lors de l’évènement.
- UsersVars.NutSmtpRelay : Nom ou IP d’un relai SMTP pour y faire transiter le mail. Laisser vide ou saisissez none pour ne pas utiliser de relai (none par défaut).
- UserVars.NutMailTo : Adresse e-mail à laquelle envoyer les évènements de l’onduleur
- UserVars.NutMinSupplies : Pour les systèmes multi onduleurs. Le nombre d’onduleurs qui doivent être en capacité d’alimenter le système avant d’entamer un arrêt. Ce nombre doit être inférieur ou égal au nombre d’onduleurs définis dans UserVars.NutUpsName. Si vous ne respectez pas cette contrainte, le client ne démarrera pas. Avec un seul onduleur, laissez la valeur à 1.
Notez qu’à chaque modification de ces paramètres il sera nécessaire de faire un arrêt/relance du service pour leur prise en compte.
Lancement du service
A l’aide de l’interface d’administration du ESXi, rendez-vous dans la rubrique gérer de l’hôte. Sélectionnez l’onglet Services, trouvez et sélectionnez le service NutClient dans la liste:
Dans les actions du service, choisissez la stratégie démarrage (Démarrer et arrêter avec l’hôte me semble un bon choix). Vous pouvez également le démarrer immédiatement ou l’arrêter.
Astuces
Utilisez la rubrique démarrage automatique de l’onglet Système de l’hôte ESXi pour décider de l’ordre de démarrage et d’arrêt (ou suspension) des machines virtuelles. Cet ordre sera respecté par la procédure d’arrêt sur alerte onduleur. Un bug de ESXi fait que les valeurs par défaut ne sont pas respectées. Vous devez configurer ces paramètre pour chaque VM au moins une fois (quitte à la dé-configurer ce qui la fera réellement suivre les règles par défaut).
Important : L’arrêt propre des OS dans les machines virtuelles n’est possible que si les vmware tools sont installées. Sinon l’arrêt sera brutal, préférez alors une suspension dans la configuration d’arrêt de la VM.
Là encore je rappelle que cette solution n’est pas adaptées aux fermes cluster avec haute disponibilité. Si HA est activé sur la machine hôte le mécanisme d’arrêt propre des VM n’est plus respecté et l’arrêt sera brutal pour toutes les VM.
UEFI secure boot
Si votre hôte ESXi est configuré pour booter en mode UEFI secure boot, l’installation du ViB restera compatible avec cette configuration. En revanche vous ne pouvez pas descendre le niveau d’acceptation à CommunitySupported quand secure boot est activé. Vous devrez :
- rebooter pour aller dans les paramètres UEFI de votre carte mère
- désactiver le secure boot dans les paramètres UEFI de votre carte-mère
- booter (sans secure boot)
- descendre le niveau d’acceptation à CommunitySupported
- Rebooter une seconde fois pour retourner dans les paramètres UEFI
- réactiver le secure boot
- booter (avec secure boot).
Vous aurez secure boot actif et le niveau d’acceptation minimal à CommunitySupported.
Désinstallation
Pour désinstaller le client NUT, utilisez le script upsmon-remove qui se trouve dans le fichier que vous avez téléchargé :
/tmp # sh upsmon-remove
Test
Pour estimer le temps nécessaire au serveur pour s’éteindre sur alerte onduleur tapez la commande « /opt/nut/sbin/upsmon -c fsd » sur le host ESXi (par ssh ou sur la console). La procédure d’arrêt est immédiatement lancée (ne faites pas ça si vous n’aviez pas prévu d’arrêter votre machine).
Hi René,
In the « Update of 29/01/2017 » notice for Version 2.0 it states that « The VIB is independent, so it is no longer necessary to use the installation scripts to deploy the VIB. You can use the VMWare deployment tools. The scripts were used to create UserVars.Nut * variables, which is now integrated into the VIB. »
Does that mean upsmon-install.sh does not need to be run and instead one can just issue a command like:
esxcli software vib install -v -f
I ask because the Installation section on this page still instructs the use of:
sh upsmon-install.sh
Regards,
Bob
You Can use both methods. If you look into install script you will see that it contains only one esxcli command
I’m getting the following message:
[root@ESX01:/tmp] ./upsmon-install.sh
Installation Result
Message: Host is not changed.
Reboot Required: false
VIBs Installed:
VIBs Removed:
VIBs Skipped: Margar_bootbank_upsmon_2.7.4-2.0.0
Any ideas as to what that might be?
Is it already installed?
I’m not seeing it as a service, or under UserVars
What is the output of command :
esxcli software vib list | grep ups
Nothing.
[root@ESX01:/tmp] esxcli software vib list | grep ups
[root@ESX01:/tmp]
I need to know more about your configuration,
what is the output of commands :
esxcli software acceptance get
and
uname -a
[root@ESX01:/tmp] esxcli software acceptance get
CommunitySupported
[root@ESX01:/tmp] uname -a
VMkernel ESX01 6.0.0 #1 SMP Release build-5050593 Feb 9 2017 23:27:25 x86_64 x86_64 x86_64 ESXi
Sorry, I can’t reproduce your issue. I’ve made a fresh ESXi 6.0.0 install and upgraded to your build but the install procedure works as expected :
[root@localhost:/tmp] esxcli software acceptance get
CommunitySupported
[root@localhost:/tmp] uname -a
VMkernel localhost 6.0.0 #1 SMP Release build-5050593 Feb 9 2017 23:27:25 x86_64 x86_64 x86_64 ESXi
[root@localhost:/tmp] ./upsmon-install.sh
Installation Result
Message: Operation finished successfully.
Reboot Required: false
VIBs Installed: Margar_bootbank_upsmon_2.7.4-2.0.0
VIBs Removed:
VIBs Skipped:
[root@localhost:/tmp]
Hey, I have the UPS client installed on two ESXi 6.0 servers, but the config settings are nowhere to be found in Advanced Settings under UserVars. Have they been moved to a different place?
If you have just installed the package and you don’t want to reboot you may try to restart the hostd service from ESXi shell and then reconnect to GUI. Be sure that no other job is running like taking a snapshot or moving a VM. Type : /etc/init.d/hostd restart
I’ll give that a try, though I injected the .vib file into the ISO when first installing rather than running the installer so both hosts have since rebooted.
Oh, I see. I think that this kind of installation is not supported (yet) by the VIB. You will need to execute manually :
/etc/init.d/install-upsmon start install
And then, if UserVars are still not visible, try the hostd restart
Ah OK. That worked fine thanks for your help.
bonjour,
j’ai une question sur l’utilisation de se client nut,
comment régler l’extinction du serveur ESXI lorsqu’il reste par exemple 30% de batterie ?? car actuellement il me l’arrête vers 10% et le temps d’extinction est limite, l’onduleur coupe avant l’arrêt total de celui-ci..
merci
Les seuils se règlent au niveau du serveur NUT et sur l’onduleur. Voir la doc officielle de NUT
merci de ta réponse, connais tu la valeur à modifier dans le serveur nut ? j’ai un onduleur APC Backup 650 (connecté en USB)
Je ne connais pas tous les onduleurs. Tu peux connaitre si le driver utilise un seuil en % de batterie en ligne de commande avec
upsc nom_onduleur@serveur
Tu verras une valeur battery.charge.low qui est le seuil pour envoyer les évènements LOWBATT et SHUTDOWN.
Pour modifier cette valeur sur le serveur tu peux taper la commande :
upsrw -s battery.charge.low -u adm_account -p adm_password nom_onduleur
Il te demandera de saisir la nouvelle valeur, tu peux vérifier avec upsc qu’elle a bien été modifiée. Cette valeur est enregistrée dans l’onduleur et est indépendante de NUT.
Il y a aussi des onduleurs qui utilisent une estimation du temps restant qu’ils calculent en fonction de la charge, c’est bien souvent la valeur battery.runtime.low chez APC qui est une durée exprimée en secondes. On peut aussi la modifier avec upsrw.
Ensuite il y a aussi des onduleurs qui utilisent les deux seuils, le premier des deux atteint déclenche l’évènement.
I just upgraded from 1.4 to 2.0 on my esxi 6.0 box. I am unable to get « upsc ups@x.x.x.x » to work. I wanted to make sure every thing is working correctly but when running that command it says upsc not found
upsc command has moved to be VMWare community acceptance level compliant. Now you have to give full path : /opt/nut/bin/upsc
Thanks for the fast response!
Hi,
will upsmon shutdown also active VM’s gracefully?
BR
Active? Upsmon shutdowns only the hypervisor. Then you can gracefully shutdown VMs with VMware tools installed and selecting the action to apply on hypervisor power off.
in upsmon.conf only poweroff is set as SHUTDOWNCMD. As far as i know « poweroff » doesn’t shutsdown autostart VM’s gracefully. But maybe i’m wrong. I have to test it tonight.
Maybe SHUTDOWNCMD « shutdown.sh && poweroff » would be better, i will try it tonight..
Poweroff does shutdown auto start VM
hmmm, i tried both now. With poweroff i didnt find nothing in logs (of VM) that could proving a orderly shutdown process, its just like a power loss and in ESXI syslog also nothing, last entry here is from upsmon itself, thats it.
With shutdown.sh && poweroff i can prove graceful shutdown on linux VM and also ESXI syslog is chatty after the initial upsmon log-entries, like stopping services terminating watchdog processes and so on.
So its really doesnt look like that poweroff shutdown both autostart VM’s and ESXI itself.
Regards
It’s under gnu licence. You’re free to change to code to match your needs. Me and many users are using the current ViB and VM can be suspended or powered off (if vmware tools installed) on UPS low batt event as configured in the auto startup settings.
Sure, just wanna commute. Anyway, thanks for the work..
Thank you. I’m just sharing a configuration I’ve made for my needs. I’m not paid for it and I’m out of spare time to add functions for all users. I want to keep it as simple as possible to prevent disturbing the hypervisor.
I found some time to make a test and poweroff is doing th job as expected even on latest ESXi 6.5 version. The VM are suspended or gracefully shutdown (needs vmware-tools installed in it) if autopower is configured.
Note that autopower default behaviour is never applied on VMs that have never been explicitely configured (and then unconfigured). This is a strange behaviour (bug?) since the ESXi 4. In that case VM will be terminated abruptly.
Salut Rene,
I just installed you package on a VMWare 5.5 ESXi …
and did some troubleshooting as I coudln’t get the notification emails to work.
It seems like the mailserver doesn’t like the « (ESXi at HOSTNAME) » that you add to the sender name in brackets. I removed that part and the emails got through … maybe something you could remove in a future version ?!?
Cheers
Holger
You removed it and it works for you ? You’ve done the job! It was tested with postfix and sendmail MTA, so if it does not work it must be a mail server configuration issue or restriction. I won’t change it.
Hi René,
I has server with two power supply and its connected to different ups. I want shutdown server if both ups become in « On Battary » and « Low battary » state. How make configuration in ESXi’s NUT client?
Regards,
Konstantin
Only « Low Battery » state is used by this client to shutdown. Why would you want to shutdown on « On Battery » state ? UPS is made for that, to prevent shutdown on every power loss. You need to configure Low Battery level on servers or UPS to allow the clients to have enough time to shutdown properly.
You can provide several UPS to client : just use a space to separate them in the UserVars.NutUpsName (eg: ups1@server1 usp2@server2). Client will user the same user/password for both, so you need to configure the same account on both servers.
Hey,
thanks for this vib package.
For my understanding:
– Do the VMs perform a gracefully shutdown as well when the hypervisor begins its shutdown process?
– I need the shutdown to be started as soon as the battery goes online. Waiting for battery-on-low is too late for us!
Right now, the « Master » of the battery is a different server. ESXi is just the client connecting via upsname@master-server to master-server. The master-server is configured to start its shutdown process after 300 seconds of waiting after battery takes over.
When do I have to expect that the shutdown-signal gets send from master-server to ESXi-server? Will this signal be sent after 300 seconds of waiting as well, because at this point master-server starts its shutdown process?
ESXi servers needs to shutdown first.
Thereafter all other servers.
(due to iSCSI things…)
Thanks!
Chris
VMs can be gracefully shutdown or suspended if you configure the auto start in the vcenter or esxi to do so. For VM shutdown you must install the VMware tools in the VM. Shutdown will be initiated if nut server sends a FSD or SHUTDOWN event. To match you needs you must configure the nut server to send this event after 300 seconds on battery. You must read NUT upsmon and upssched manuals to write your configuration. Maybe you can ask the NUT team for support.
Dear René,
thanks for your quick reply. I installed vmware tools on all virtual machines and they now shutdown gracefully when the hypervisors executes poweroff – cool, merci beaucoup! 🙂
However, I have one question regarding the shutdown proccess initiated by power failure / battery:
– My FreeNAS server is the NUT-master server and it is connected to ups-battery.
– My FreeNAS server is configured to initiate the shutdown command after 300 seconds power-failure. If the power happens to come back before the time of 300 seconds is up the shutdown is cancelled. After 300 seconds, shutdown is initiated! (Battery has a capacity of 10-20 mins, depending on load)
– My ESXi-host should be the NUT-slave. I have installed your .vib package and configured the UserVars accordingly.
My question is:
How exactly handles your .vib package the shutdown command received from my FreeNAS server? Let’s say, battery is still on level 80% when your .vib package receives the shutdown command. => will the ESXi host then perform shutdown as well? Or is a critical battery level necessary, that your .vib package performs the shutdown?
By the way: How exactly does a shutdown command look like which is sent from a NUT-master?
Thanks so much for your help!
Au Revoir et merci beaucoup pour l’aide
Chris
As soon as the NUT client installed in the ESXi receives the SHUTDOWN event from the NUT server it will start a VM shutdown and then the hypervisor shutdown. You can’t stop it, once it’s started it will go on until the final power off. ESXi is not a slave (in the NUT meaning), it’s a client.