Fêtes de fin d'année : comment l'observabilité a boosté les performances et la satisfaction client

Grâce à l’observabilité, les entreprises ont pu mesurer et comprendre leurs architectures, les optimiser et les dimensionner pour le jour J, et résoudre proactivement et rapidement les incidents qui auraient pu survenir. Les pratiques mises en place et les enseignements retirés lors de ces périodes de pointe ont également permis d’améliorer durablement l’efficacité opérationnelle et la performance globale de l’entreprise tout au long de l’année.

Fêtes de fin d’année : des campagnes promotionnelles de grande ampleur

Selon les prédictions de Salesforce, pour Noël 2021, plus de 1200 milliards de dollars devaient être dépensés au niveau mondial, soit une hausse de 7% par rapport à 2020, année d’ores et déjà historique en matière de ventes en ligne. L’enjeu était donc crucial pour les e-commerçants. Digital oblige, depuis fin octobre, nombre d’entre eux avaient lancé de larges campagnes promotionnelles, se chiffrant parfois en millions d’euros, afin d’attirer les clients en nombre sur leur site pendant la courte période qui s’étale de fin novembre à fin décembre. Les e-commerçants devaient donc maximiser leurs taux de conversion pour générer des niveaux de ventes exponentiels et rentabiliser leurs investissements marketing et leurs engagements sur des stocks ou des partenaires. Mais ce n’était pas aussi simple.

Le passage à l’échelle : un crash test qui prédit le succès ou l’échec

Au-delà de la montée en charge saisonnière, selon son degré d’attractivité, l’objectif d’une campagne promotionnelle est de multiplier par dix ou vingt l’intensité du trafic sur un site e-commerce. Ces pics de charge représentent plusieurs risques simultanés de résilience et de scalabilité de l’infrastructure, de saturation de l’architecture et de taux d’erreur qui peuvent tous mener à un effondrement de la disponibilité, de la fiabilité ou de la performance. L’architecture doit permettre la mise à disposition dynamique de ressources d’infrastructure pour répondre au pic de charge avec une marge suffisante et sans faire exploser le coût par transaction. La saturation va apparaître à la montée en charge sur les composants faibles ou sur-sollicités de l’architecture, et causer des dégradations de performance qui peuvent être subites et entraîner une dégradation en chaîne. De plus, lors de ces périodes promotionnelles, les sites et les parcours de navigation sont modifiés plus fréquemment pour intégrer les nouvelles offres et sont souvent moins testés et moins maîtrisés, introduisant un risque significatif sur les taux d’erreurs et la fiabilité. Pour supporter sans encombre le passage à l’échelle tout en offrant une expérience client fluide, les équipes doivent donc rendre leur architecture technique plus performante sur de nombreux points, ce qui implique anticipation, préparation, mais aussi une réactivité sans faille lors du pic.

Scénarios de référence, tests de charge, passage à l’échelle, chaos

Souvent dès la fin de l’été, les équipes aguerries définissent les scénarios de référence pour les volumes et la vitesse de montée en charge attendus et pour les objectifs à tenir en termes de disponibilité, fiabilité, performance et expérience client. Les équipes vont ainsi pouvoir dimensionner et exécuter leurs tests de charge et leurs scénarios de ‘chaos engineering’, qui vont permettre de valider le dimensionnement et la scalabilité de l’infrastructure et d’identifier les points de saturation et de faiblesse dans l’architecture’. Pour ce faire, les équipes s’appuient sur l’observabilité et la collecte de données de télémétrie sur l’ensemble du stack applicatif. Après avoir instrumenté leurs systèmes, elles élaborent des dashboards qui permettent, en temps réel, de visualiser le comportement et la performance de bout-en-bout de l’architecture, depuis l’infrastructure et le middleware à la performance applicative, l’expérience client et l’impact business: par exemple la consommation de ressources IT, les temps de réponse, le nombre de transactions, les taux d’erreurs, le niveau de revenu généré, le niveau de trafic de la campagne, le taux d’écoulement du stock ou la localisation des clients. Les sites partenaires fourniront de leur côté des informations de disponibilité des stocks ou les délais de livraison. Cette préparation permet donc de valider à la fois la capacité à tenir la charge et l’ensemble des mesures qui permettent de comprendre et de maîtriser le comportement et la performance sous stress, de mettre en évidence les ‘inconnues’ de l’architecture. Elles permettent ainsi la définition des d’alertes et des seuils d’alertes qui permettront le jour J, lors des montées en charge, de détecter les problèmes proactivement et de réagir très rapidement pour minimiser l’impact d’une dégradation de performance sur l’expérience client et les résultats business.

Architectures complexes et silos de données : des administrateurs systèmes aveugles

L’architecture doit être scalable et permettre l’augmentation des ressources informatiques au fur et à mesure que la demande augmente, afin de maintenir des critères de performance et d’expérience client élevés. Le cloud se prête particulièrement bien à ces montées en charge fortes et transitoires, le paiement à l’usage étant un vecteur important d’économie d’échelle et de gestion des coûts. De nombreuses d’entreprises s’appuient encore toutefois sur ces architectures on-premise ou hybrides qui impliquent généralement de sur-dimensionner les capacités, sur des temps de cycle et des budgets élevés. Quel que soit le modèle, ces architectures fortement scalables sont généralement plus complexes s’appuyant sur des architectures en microservices, plus volatiles avec les containers et le cloud, et plus véloces avec une augmentation forte du nombre de déploiement par les équipes de développement. Dans encore trop d’entreprises, les équipes Dev/Ops et les administrateurs systèmes sont « aveugles» face à cette nouvelle complexité. Leurs outils de monitoring, historiquement efficaces sur des architectures monolithiques 3-tier en régime nominal, s’avèrent impuissants à visualiser le comportement global du système, « le comment », et les raisons de la dégradation de la performance lorsque le trafic sur le site monte en puissance, « le pourquoi ». Les équipes, souvent structurées par couche technologique et applicatives, opèrent des silos disjoints de télémétrie, chacune ayant ses propres outils de monitoring et aucune vision globale et partagée n’est disponible. La collaboration, la compréhension profonde du comportement nominal et des problèmes, ainsi que les temps de réaction et de résolution en temps réel, sont donc largement compromis.

L’observabilité pour une vue globale et transparente, en temps réel

L’observabilité est une approche technologique qui permet d’instrumenter rapidement et économiquement l’ensemble de l’architecture afin de collecter des données de télémétrie et de les corréler dans un modèle de données unifié. Ces données temps-réel sont ensuite exploitées au travers d’outils puissant d’alerting, de visualisation, d’analyse et de troubleshooting. En favorisant une meilleure transparence et la collaboration entre les équipes, elle apporte non seulement une visibilité profonde et full-stack des systèmes applicatifs mais aussi une vue en temps réel de l’expérience client et du business en cours, pour comprendre ce qui se passe et réagir vite. Les corrélations entre les différents composants sont automatiques et les performances applicatives et métiers sont comparées et les bonnes décisions sont prises rapidement. L’observabilité supporte bien sûr les équipes Dev/Ops au quotidien, et bien utilisée en association avec les tests de charge et le « chaos engineering » tout au long de l’année, qui mettent en évidence les dysfonctionnements de façon contrôlée, les problèmes structurels sont résolus proactivement et l’architecture devient durablement plus résiliente, fiable et performante. L’observabilité profite également aux analyses « post mortem » des événements exceptionnels tels que les fêtes, le Black Friday ou les soldes pour tous les événements ayant impacté la production, les clients et le business, et traiter les problèmes de fond. Les entreprises peuvent ainsi installer un cercle vertueux et construire des réflexes durables pour éviter que les dysfonctionnements ne se reproduisent.

Dans le contexte actuel de transformation digitale, de communautés d’influenceurs, de des événements économiques, politiques et sanitaires, le trafic internet des entreprises peut désormais connaître des montées en puissance exceptionnelles à tout moment, sans que ces événements soient aussi prévisibles qu'une période de fêtes. En capitalisant sur la culture et sur la connaissance apportée par les outils d’observabilité, les entreprises peuvent bâtir des architectures plus résilientes et maîtriser leurs performances. Quelle que soit l’intensité du trafic, elles sont en mesure de réagir en temps réel et de fidéliser leurs clients, au travers d’une expérience en ligne optimale. In fine, elles peuvent déployer l’innovation plus rapidement et optimiser leur croissance.

Source link