Problemi di prestazioni del software: come influenzano il mondo digitale?

Anatomia di un disservizio a cura di Dynatrace

A cura di Michael Allen, VP and EMEA CTO di Dynatrace

Le aziende comprendono bene l'importanza di offrire ai clienti esperienze uniche, ma negli ultimi mesi abbiamo assistito a una crescente ondata di disservizi del servizio digitale e problemi di prestazioni del software. Mentre alcuni di questi problemi sono stati solo piccoli inconvenienti, come nel caso di servizi di streaming video online o siti di social media che si interrompono, altri hanno causato preoccupazioni molto più serie. Ci sono state interruzioni bancarie online che hanno impedito ai clienti di pagare le bollette in tempo. I problemi con i principali sistemi di pagamento hanno lasciato gli acquirenti non in grado di utilizzare le loro carte bancarie nel momento del checkout. Anche gli spostamenti quotidiani per andare al lavoro sono stato condizionati, con interruzioni delle biglietterie ferroviarie online che hanno lasciato le persone impossibilitate a comprare un biglietto per viaggiare. Questi problemi creano serie difficoltà nella vita quotidiana delle persone e stanno diventando una preoccupazione crescente sia per le aziende che per gli stessi i consumatori. Quindi, se le aziende hanno compreso l'importanza di prevenire questi scenari in modo così chiaro, perché stanno accadendo sempre più spesso?

Complessità convergente

La crescente complessità degli ecosistemi tecnologici è il maggiore contributo all'aumento delle interruzioni del servizio e dei problemi di prestazioni del software. I moderni servizi digitali risiedono in ambienti ibridi multi-cloud complessi, che abbracciano più piattaforme e tecnologie. Sono alimentati da applicazioni eseguite in microservizi e contenitori dinamici, creando cambiamenti costanti. Una singola transazione web o mobile ora supera una media di 35 diversi sistemi o componenti tecnologici, rispetto ai 22 di soli cinque anni fa. Con le transazioni digitali che attraversano una tale varietà di componenti in uno stack tecnologico dinamico, si è andati ben oltre la capacità umana di gestire le prestazioni in modo efficace. La lotta è per mantenere visibilità su tutto ciò che sta accadendo negli ambienti IT e per trovare la causa principale dei problemi di prestazioni che si presentano rapidamente. Si è andati oltre dal trovare un ago nel pagliaio, oggi si deve trovare un ago in mille mucchi di fieno durante un uragano.

Sfortunatamente, questa tendenza non mostra segni di inversione o addirittura di rallentamento. Gli ecosistemi digitali stanno diventando sempre più complessi e i team IT sono più che mai alla ricerca di una rapida individuazione e risoluzione delle cause alla radice di qualsiasi problema che si presenti, prima che i clienti ne avvertano l’impatto. Se non riescono a farlo, l'ondata di problemi di prestazioni digitali e interruzioni del servizio che abbiamo visto di recente diventeranno più evidenti e si verificheranno più spesso. Questa situazione diventerà sempre più critica con l'avvento di auto senza conducente e di dispositivi medici connessi, che potrebbero causare gravi danni se sono influenzati da problemi di performance.

Superare gli ostacoli di interruzione

Ci sono una serie di motivi per cui è diventato impossibile per le aziende gestire manualmente la complessità dei propri ecosistemi digitali. In primo luogo, nuove tecnologie, infrastrutture e piattaforme vengono costantemente stratificate su stack IT, richiedendo più strumenti di monitoraggio per fornire visibilità e consentire ai team IT di gestire le prestazioni. Tuttavia, anche gli ecosistemi digitali sorti attorno a questi stack IT sono altamente dinamici. Mentre questo crea l'agilità di cui le aziende hanno bisogno per crescere, rende però impossibile per le persone di rimanere al top delle prestazioni utilizzando strumenti di monitoraggio tradizionali, che sono stati realizzati per ambienti statici.

Inoltre, questi strumenti di monitoraggio tradizionali stanno bombardando i team con avvisi, la maggior parte dei quali sono solo “rumore bianco”. Ma capire cos'è il rumore bianco e cosa è importante significa perdere tempo – tempo che la maggior parte delle organizzazioni semplicemente non ha. Dato che è impossibile per gli umani superare questa sfida manualmente, le organizzazioni devono essere in grado di automatizzare il maggior numero possibile di processi operativi IT. Hanno bisogno della capacità di rilevare automaticamente i problemi in tempo reale e, soprattutto, utilizzare l'intelligenza artificiale per individuare con precisione la causa alla radice. Queste funzionalità possono anche aiutare le organizzazioni a intraprendere il percorso di remediation automatica, in modo che il loro sistema di monitoraggio possa rilevare i problemi e applicare le correzioni per prevenire o risolvere il problema prima che causi un'interruzione completa. A sua volta questo diminuirà la pressione sui team IT, consentendo loro di concentrarsi sull'innovazione piuttosto che trascorrere ore infinite nella stanza dei bottoni per capire da dove proviene un problema di performance.

Indietro non si torna

Mentre il passaggio al cloud ha reso le aziende molto più agili, ha aggiunto complessità esponenziale ai loro ecosistemi digitali. Ciò ha avuto un enorme impatto sulla capacità delle organizzazioni di monitorare con successo le prestazioni e correggere eventuali problemi in modo rapido ed efficiente. Abbiamo già assistito a un aumento costante dei problemi di prestazioni digitali e interruzioni di servizio che provocano un impatto sulle aziende e sui loro clienti. L'intelligenza artificiale è fondamentale per combattere il problema. Può rendere il processo di rilevamento e correzione dei problemi di performance del software molto più rapido ed efficace. In ultima analisi, questo consentirà ai team IT di fornire esperienze utente più coerenti e positive, scacciando l'incubo dei principali disservizi e delle nottate trascorse nelle stanze dei bottoni.