SuperBench de Microsoft : la clé pour une infrastructure cloud IA fiable
Déjouer les défaillances insidieuses dans les infrastructures cloud IA
L’infrastructure cloud alimentant les charges de travail d’IA modernes est essentielle à la technologie d’aujourd’hui. Cependant, assurer la fiabilité de ces systèmes distribués à grande échelle représente un défi de taille. Un simple incident dans un nœud peut avoir des effets en cascade, causant des temps d’arrêt importants ou une dégradation des performances. C’est pourquoi Microsoft a développé SuperBench, un système de validation proactive visant à renforcer la stabilité des infrastructures cloud IA.
Le fléau des défaillances grises
Un problème récurrent est celui des dégradations cachées dues aux redondances matérielles. Ces défaillances grises n’engendrent pas de pannes immédiates, mais affectent progressivement les performances au fil du temps. Insidieuses, elles échappent souvent aux outils de surveillance classiques, conçus pour détecter les défaillances binaires évidentes. Leur nature sournoise complique l’analyse des causes racines, empêchant les fournisseurs cloud d’intervenir avant que la situation ne dégénère.
Quand la redondance devient un problème
Traditionnellement, les fournisseurs cloud se reposaient sur les redondances matérielles comme filets de sécurité. Cependant, l’utilisation répétée de ces composants redondants peut elle-même entraîner une régression de performances. Dans les clusters Azure A100 par exemple, la perte de certains liens redondants des commutateurs InfiniBand peut provoquer une baisse du débit, surtout sous certains schémas de trafic. Cette dégradation progressive passe souvent inaperçue jusqu’à impacter sérieusement les charges de travail d’IA.
SuperBench en action
C’est ici qu’intervient SuperBench. Ce système se compose de deux éléments clés : un Validator qui apprend les critères de référence pour identifier les composants défectueux, et un Selector qui optimise le calendrier et la portée de la validation. SuperBench peut exécuter divers benchmarks d’IA représentatifs des charges de travail réelles, lui permettant de détecter les moindres régressions avant qu’elles n’affectent les utilisateurs.
Une technologie de pointe
La puissance de SuperBench réside dans sa modélisation probabiliste. Le Validator analyse la distribution cumulée des résultats de référence pour apprendre à distinguer les performances normales des anomalies. Pendant ce temps, le Selector prédit la probabilité d’incidents grâce à un modèle statistique. Il détermine ainsi le moment optimal pour lancer des benchmarks spécifiques, équilibrant temps de validation et impact potentiel.
Des résultats impressionnants
Déployé en production sur Azure, SuperBench a validé des centaines de milliers de GPU. Les tests ont démontré une augmentation spectaculaire du temps moyen entre les incidents, jusqu’à 22,61 fois supérieure. Tout en réduisant de 92,07 % le temps de validation requis, SuperBench a permis d’accroître de 4,81 fois les heures GPU utilisateur. Ces chiffres saisissants illustrent l’efficacité du système à prévenir les problèmes de performance avant qu’ils n’impactent les charges de travail d’IA critiques.
En se concentrant sur la détection précoce des dégradations cachées, SuperBench apporte une solution robuste au défi complexe du maintien de services d’IA fiables à grande échelle. Microsoft a ainsi établi une nouvelle norme pour la maintenance des infrastructures cloud, assurant l’exécution fluide et performante des charges de travail d’IA dans un paysage technologique en constante évolution.