Éviter les problèmes de livraison d’applications à l’ère de l’IA
Aujourd’hui, 93 % des organisations déploient et s’appuient sur divers services de fourniture d’applications pour garantir l’évolutivité, les performances et disponibilité d’applications et d’API. Pourtant, les services disponibles aujourd’hui n’ont pas été conçus pour les applications d’IA ni pour les usines d’IA qui les alimentent.
Pire encore, peu d’efforts ont été déployés au fil des ans pour établir les meilleures pratiques en matière de fourniture d’applications, malgré son caractère essentiel pour faire évoluer les applications et garantir la disponibilité de tout, des applications aux Apis aux infrastructures de sécurité. Oh, il y a eu une vague de « n’utilisez pas le round robin ! » (généralement de ma part), mais la livraison d’applications n’a jamais été traitée comme la discipline formelle dont elle a besoin dans un monde numérique par défaut.
Lorsque nous examinons les applications d’IA et les usines remplies de serveurs d’inférence qui les alimentent, nous découvrons qu’un pilotage efficace du trafic (équilibrage de chargedistribution des demandes, peu importe comment vous voulez l’appeler) et une faible latence sont des caractéristiques essentielles des applications d’IA réussies.
Alors pourquoi tant d’organisations ont-elles du mal à y parvenir ?
Problèmes courants de performances de livraison d’applications liés à l’IA
Eh bien, aujourd’hui, nous allons mettre en évidence (exposer ?) certaines des raisons les plus courantes et les moyens d’y remédier. Prêt?
Sources courantes d’une gestion du trafic inefficace et de mauvaises performances :
-
Politiques de routage statique: S’appuyer sur des règles de routage immuables ne tient pas compte des conditions du réseau en temps réel, ce qui conduit à une utilisation inefficace des ressources et à des goulots d’étranglement potentiels. Et nous savons tous que les goulots d’étranglement introduisent de la latence, ce qui rend les utilisateurs mécontents. Il convient donc d’utiliser des approches plus modernes en matière d’itinéraires, intégrant une compréhension de la congestion et pouvant modifier les itinéraires si nécessaire. Je veux dire, si les joueurs savent comment utiliser des outils pour éliminer le décalage, alors les professionnels peuvent certainement le faire aussi.
-
Manque de prise de décision dynamique: Sans mécanismes adaptatifs pour répondre à l’état actuel du serveur et à la congestion du réseau, le trafic peut être dirigé vers des ressources surchargées ou défaillantes, entraînant des retards et une disponibilité réduite. Encore une fois, des utilisateurs en colère ! Celui-ci va avec le premier car aucun commutateur ou routeur n’a une visibilité sur la situation dans son ensemble. Il doit y avoir quelque chose – SDN, peu importe – qui supervise le trafic et puisse identifier quand il y a un problème – et faire quelque chose pour y remédier.
-
Algorithmes d’équilibrage de charge insuffisants: Des stratégies d’équilibrage de charge mal conçues peuvent entraîner une répartition inégale du trafic, certains serveurs étant débordés tandis que d’autres restent sous-utilisés, ce qui a un impact sur les performances et l’évolutivité. Celui-ci est généralement le plus difficile à mettre en œuvre car il nécessite de faire correspondre les algorithmes avec l’application vers laquelle le trafic est distribué. Au minimum, un petit test ici ne ferait pas de mal.
-
Bilans de santé inadéquats: Ne pas mettre en œuvre une surveillance robuste de l’état signifie que le trafic pourrait être envoyé vers des serveurs qui ne répondent pas ou dégradés, entraînant une latence accrue et des temps d’arrêt potentiels. Oh, observabilité sauve-nous ! La réactivité du réseau n’est pas un indicateur de la santé des applications. Répétez après moi, réactivité du réseau… Vous voyez l’image. Comme pour les choix d’algorithmes d’équilibrage de charge, quelques tests et la garantie que vous mesurez les mesures importantes contribueront grandement à satisfaire les utilisateurs.
-
Absence d’infrastructure programmable: Sans contrôleurs de distribution d’applications programmables (ADC), il est difficile de personnaliser la gestion du trafic pour l’aligner sur les exigences spécifiques des applications, ce qui entrave la réactivité aux conditions dynamiques. Celui-ci est vraiment important, plus que vous ne le pensez. En effet, il existe tellement d’applications existantes, traditionnelles et sur mesure que le simple choix d’un algorithme peut ne pas suffire à résoudre les problèmes de performances et de livraison. Des modèles de mise à l’échelle existent : la mise à l’échelle sur l’axe X utilise des techniques telles que le clustering et le clonage, la mise à l’échelle sur l’axe Y utilise un routage basé sur des variables identifiables et la mise à l’échelle sur l’axe Z utilise le partitionnement. Ces modèles ne concernent pas les algorithmes, mais s’associent aux architectures d’applications pour garantir les performances et l’évolutivité. Mais la mise à l’échelle des axes Y et Z nécessite une infrastructure programmable. C’est donc vraiment très important de l’avoir.
Un dernier mot pour répondre aux besoins de performances de livraison d’applications des utilisateurs d’IA
Il existe de nombreuses raisons pour lesquelles les organisations ont du mal à mettre en œuvre des politiques efficaces de gestion du trafic, la moindre d’entre elles étant une compréhension commune de les causes les plus courantes de problèmes de livraison et de performances– et un ensemble de bonnes pratiques pour les résoudre.
Le problème, bien sûr, c’est que l’IA n’attendra pas que ces meilleures pratiques soient établies. Les organisations vont avoir encore plus de difficultés en termes de performances et de routage lors de la construction de leur réseau et de la fourniture d’applications. architecture pour prendre en charge l’IA.
Les applications d’IA impliquent souvent un traitement de données à grande échelle et nécessitent un accès à faible latence aux ressources de calcul, des charges de travail qui peuvent être imprévisibles avec des pics de demande qui nécessitent une allocation adaptative des ressources, et les services d’IA dépendent souvent de plusieurs microservices et API.
Des pratiques de gestion du trafic plus efficaces permettront de résoudre ces pièges potentiels et garantiront que vos utilisateurs sont satisfaits des performances de leur expérience améliorée par l’IA.