Actualités Geek
Christophe  

Cisco façonne sa stratégie pour les réseaux d’IA basés sur Ethernet

Cisco a pour mission de garantir qu’Ethernet constitue le principal support des réseaux d’intelligence artificielle, aujourd’hui et à l’avenir.

Il a largement contribué au développement d’Ethernet au sein de l’IEEE et d’autres groupes industriels au fil des années, et il est désormais l’un des principaux fournisseurs à la tête de l’Ultra Ethernet Consortium (UEC), un groupe qui travaille au développement de systèmes physiques, de liaison, de transport et de logiciels. les avancées de couche pour Ethernet pour le rendre plus capable de prendre en charge les infrastructures d’IA.

« Les organisations disposent d’énormes quantités de données qu’elles tentent de rendre plus accessibles et d’en tirer profit plus rapidement, et elles se tournent désormais vers la technologie de l’IA », a déclaré Thomas Scheibe, vice-président de la gestion des produits chez Cisco pour les réseaux cloud, Nexus et ACI. gamme de produits.

« Les clients veulent savoir ce qu’ils doivent faire maintenant du côté réseau pour pouvoir exécuter les énormes clusters de GPU dont ils ont besoin et gérer les volumes de données qu’ils créent. Et pour la plupart des clients, ce sera Ethernet », a déclaré Scheibe.

À cette fin, Cisco a élaboré un plan définissant comment les organisations peuvent désormais utiliser les réseaux Ethernet des centres de données existants pour prendre en charge les charges de travail d’IA.

Amélioration des fonctionnalités du Nexus 9000

Un composant essentiel du plan d’IA de Cisco est ses commutateurs de centre de données Nexus 9000, qui prennent en charge jusqu’à 25,6 Tbit/s de bande passante par ASIC et « disposent des capacités matérielles et logicielles disponibles aujourd’hui pour fournir la latence, les mécanismes de gestion de la congestion et la télémétrie appropriés pour répondre aux besoins. exigences des applications AI/ML », a écrit Cisco dans son Plan de mise en réseau du centre de données pour les applications IA/ML. « Associés à des outils tels que Cisco Nexus Dashboard Insights pour la visibilité et Nexus Dashboard Fabric Controller pour l’automatisation, les commutateurs Cisco Nexus 9000 deviennent des plates-formes idéales pour créer une structure réseau IA/ML hautes performances. »

Deux technologies qui permettent la mise en réseau basée sur Nexus AI sont la prise en charge du système d’exploitation NX-OS du commutateur pour l’accès direct à la mémoire à distance sur Ethernet convergé, version 2 (ROCEv2) et la notification explicite de congestion (ECN), a déclaré Scheibe.

ROCEv2 est une technologie informatique en réseau hautes performances qui permet le transfert de données directement entre la mémoire de deux appareils sans avoir à impliquer le processeur du serveur. Il permet de transférer ou d’acheminer plusieurs paquets simultanément sur une seule connexion, réduisant ainsi la latence et la complexité tout en augmentant le débit.

ECN permet essentiellement un réseau Ethernet sans perte en surveillant la congestion du réseau ou d’autres situations dans lesquelles des paquets pourraient être abandonnés et en limitant le réseau pour garantir que cela ne se produise pas. Les réseaux Ethernet sans perte constituent non seulement une exigence clé pour les réseaux IA, mais également pour les environnements VOIP ou vidéo actuels, a noté Scheibe.

Un autre outil, Priority Flow Control, peut aider à contrôler la congestion dans les réseaux basés sur la couche 3 et joue un rôle important dans la gestion globale de la congestion.

Ensemble, ces technologies peuvent donner à un réseau Ethernet la possibilité de prioriser certains ensembles de charges de travail, telles que les charges de travail d’IA qui ne peuvent tolérer aucune perte de paquets et qui auront toujours la priorité du réseau même en cas de congestion, a déclaré Scheibe.

« Ces technologies peuvent aujourd’hui être implémentées dans les réseaux Nexus, et les clients peuvent ajuster leurs environnements pour gérer la combinaison de leurs charges de travail », a déclaré Scheibe. « Des travaux sont en cours pour gérer des charges de travail d’IA plus importantes et plus nombreuses, et il existe d’autres techniques qui peuvent être utilisées pour garantir que les clients peuvent facilement les distribuer sur la bande passante disponible. »

Cisco a également publié des scripts permettant aux clients d’automatiser des paramètres spécifiques sur le réseau afin de configurer cette structure et de simplifier les configurations, a déclaré Scheibe.

De plus, les commutateurs Nexus 9000 sont dotés de capacités de télémétrie intégrées qui peuvent être utilisées pour corréler les problèmes du réseau et contribuer à l’optimiser pour le transport RoCEv2, a déclaré Cisco.

« La famille de commutateurs Cisco Nexus 9000 fournit des informations de télémétrie de flux matériel via une table de flux et des événements de table de flux. Grâce à ces fonctionnalités, chaque paquet traversant le commutateur peut être pris en compte, observé et corrélé à des comportements tels que des micro-rafales ou des pertes de paquets », a écrit Cisco. Les clients peuvent exporter ces données vers le package de gestion Cisco Nexus Dashboard Insights et afficher les données par appareil, par interface, jusqu’à la granularité par flux, selon Cisco.

Au-delà du Nexus 9000

Un autre élément de l’infrastructure réseau d’IA de Cisco est ses nouveaux processeurs Silicon One programmables haut de gamme, destinés aux infrastructures d’IA/ML à grande échelle pour les entreprises et les hyperscalers.

Cisco a ajouté le Silicon One G200 à 5 nm à 51,2 Tbps et le G202 à 25,6 Tbps à sa famille Silicon One, désormais composée de 13 membres. Les processeurs peuvent être personnalisés pour le routage ou la commutation à partir d’un seul chipset, éliminant ainsi le besoin d’architectures silicium différentes pour chaque fonction réseau. Ceci est accompli avec un système d’exploitation commun, un code de transfert programmable P4 et un SDK.

Les nouveaux appareils, positionnés au sommet de la famille Silicon One, apporteront des améliorations réseau qui les rendront idéaux pour les déploiements exigeants d’IA/ML ou d’autres applications hautement distribuées, a déclaré Cisco.

Le cœur du système Silicon One réside dans la prise en charge de fonctionnalités Ethernet améliorées, telles qu’un contrôle de flux amélioré, la détection des encombrements et l’évitement.

Le système comprend également des capacités avancées d’équilibrage de charge et de « pulvérisation de paquets » qui répartissent le trafic sur plusieurs GPU ou commutateurs pour éviter la congestion et améliorer la latence. Selon Cisco, la récupération matérielle en cas de défaillance de liaison contribue également à garantir que le réseau fonctionne avec une efficacité maximale.

En combinant ces technologies Ethernet améliorées et en les poussant un peu plus loin, les clients peuvent finalement mettre en place ce que Cisco appelle une structure planifiée. Dans une structure planifiée, les composants physiques (puces, optiques, commutateurs) sont reliés ensemble comme un grand châssis modulaire et communiquent entre eux pour fournir un comportement de planification optimal et un débit de bande passante beaucoup plus élevé, en particulier pour les flux comme l’IA/ML, a déclaré Cisco.

Priorité à la durabilité des centres de données

Si l’IA semble aujourd’hui globale, d’autres sujets posent problème aux opérateurs de réseaux de centres de données.

Par exemple, les clients cherchent à étendre efficacement les réseaux de centres de données existants pour gérer des charges de travail plus importantes. Ils souhaitent donc trouver le meilleur moyen d’intégrer la 400G dans le réseau, a déclaré Scheibe.

Deux autres défis majeurs consistent à réduire la consommation électrique des centres de données et à accroître les pratiques de développement durable, a déclaré Scheibe.

« Les organisations recherchent de l’aide pour obtenir une base de référence sur la quantité d’énergie qu’elles utilisent et connaître leur empreinte carbone actuelle afin de pouvoir prendre des décisions éclairées sur la façon d’aller de l’avant », a déclaré Scheibe.

Cisco Nexus Cloud propose un service d’utilisation de l’énergie du réseau qui donne aux clients une idée de l’impact environnemental d’un centre de données.

Récemment, Cisco a annoncé que le tableau de bord Nexus fournirait des informations historiques et en temps réel sur la consommation électrique de tous les équipements informatiques du centre de données et estimerait l’empreinte énergétique des opérations du centre de données.

Nexus Dashboard fournira également un modèle de centre de données IA pour la mise en réseau, qui offrira aux entreprises cherchant à développer des applications basées sur l’IA un moyen de configurer leurs réseaux pour gérer la charge de transaction supplémentaire. Par exemple, il détaillera comment mettre en œuvre des migrations de réseau InfiniBand vers Ethernet et des structures d’apprentissage automatique à grande échelle.