Horovod est un framework permettant d’entraîner des modèles d’intelligence artificielle en utilisant plusieurs GPUs.
Cette installation d'Horovod est expérimentale
Version installée
Le module intègre python 3.6, tensorflow 2.3.0 et horovod :
Version d’Horovod | 0.20.3 |
---|---|
Version de python | 3.6.12 |
Version de tensorflow | 2.3.0 |
Si vous souhaitez utiliser Horovod avec d’autres applications d’intelligence artificeille, contactez-nous !
Utilisation et exemples
Pour utiliser horovod :
module load horovod/tf2.3.0
Des exemples de scripts python sont disponibles dans le répertoire $HOROVOD_EXAMPLES
Le script suivant permet de faire tourner l’exemple tensorflow2_keras_synthetic_benchmark.py
#! /bin/bash #SBATCH --job-name=Horovod_test #SBATCH -N 1 #SBATCH -n 36 #SBATCH --gres=gpu:4 #SBATCH --time=00:30:00 module load horovod/tf2.3.0 horovodrun --verbose --gloo -np 4 -H localhost:4 python3.6 $HOROVOD_EXAMPLES/tensorflow2/tensorflow2_keras_synthetic_benchmark.py
Pendant l’exécution de l’exemple, n’oubliez pas de vérifier que les quatre GPUs sont effectivement utilisés avec la commande :
placement --jobid xxxxxx