Fra passiv overvågning til intelligent AIOps med avanceret analyse

Vi er blevet mestre i at opsamle data – måske lidt for gode. Systemerne er nu mere distribuerede end nogensinde, og kompleksiteten i systemlandskabet er eksploderet. Principal Performance Engineer, Daniel von Tabouillot uddyber hvordan vi kan udnytte denne dataoverflod til vores fordel.

Værdien skal findes i analysen

Før i tiden var det hurtigere at gennemgå data manuelt, og det var normalt nemt at finde korrelationer og drage konklusioner. Sådan er det ikke længere, i dag er vi stand til dagligt at indsamle terabytes af data! Vi bliver ofte mindet om vigtigheden af databaserede beslutninger, men det er ikke helt så enkelt. Data i sig selv er blot rå information; det er først gennem grundig analyse, at vi kan omdanne dem til brugbar information eller endda dybere indsigt i vores systemers tilstand. Derfor fokuserer vores daglige arbejde nu mere på analyse gennem avanceret statistik, Machine learning og i sidste ende AI eller kunstig intelligens. Men hvilke datatyper inddrager vi og hvordan arbejder vi med designet af en avancerede analyse?

Typer af data i overvågningen

Monitoreringsdata, i form af tekstlogs, tidsserier, events og alarmer, er nøglen til dybere indsigt, der afslører effektiviseringsmuligheder. Med denne viden kan du skabe et proaktivt paradigme for en mere intelligent systemstyring.

Tekstlogs
For tekstbaserede data bruger vi standard OpenAI-embeddingvektorer, som vi gemmer i en vektordatabase. Dette gør det muligt at finde lignende data samt identificere afvigelser eller anomalier. Vi anvender retrieval augmented generation (RAG) til at hente relevant data og lader derefter OpenAI’s GPT-4 finde korrelationer – de såkaldte nåle i høstakken – og præsenterer resultaterne i et letforståeligt sprog. Når vi modtager et incident i ServiceNow, søger vi efter lignende incidents i vektordatabasen, hvor der allerede er beskrevet løsninger og konklusioner. Vi henter relevante data fra Splunk, Nexthink, via SNMP, SolarWinds, AppDynamics eller Dynatrace, baseret på de brugere, netværksenheder og computere, der er nævnt i incidenten.

Derefter anvender vi GPT-4 med foruddefinerede prompts til at analysere alle disse data. Resultatet er en detaljeret gennemgang af incidenten med en løsning, der bygger på tidligere erfaringer, aktuelle statusrapporter og fejlmeddelelser, samt eventuelt et script, der kan køres for at løse problemet. Dette kan reducere løsningstiden fra dage til minutter. Mange applikationer er baseret på bytecode-sprog som Java og C#. Disse kan dekompileres, og koden kan gemmes i en database. Vi kan derefter bede GPT-modellen om at finde de relevante metoder, der nævnes i loggen eller incidenten, og bruge dette i RAG. På den måde kan GPT-modellen sandsynliggøre, hvor i koden den rapporterede fejl stammer fra, og måske endda skrive den bug-rapport, der skal sendes til leverandøren.

Loggen indeholder ofte database-tabeller og primærnøgler til de rækker, der er påvirket af den rapporterede fejl. Når dette bruges i RAG, kan GPT-modellen også finde de data, der fremtvinger databasefejl, så de kan rettes, og databasen igen bliver konsistent.

Tidsserier

Tidsserier er overalt i overvågning: CPU-belastning, svartider, netværkstrafik osv. Det er supernyttigt at kunne forudsige nogle af disse. For eksempel er svartiden ofte afhængig af flere andre tidsserier med en vis forsinkelse. Hvis vi har tidsserier for CPU, hukommelse, disk, netværk, load og den nuværende svartid, kan vi forudsige svar tiden lidt ud i fremtiden.

Normalt ville man identificere de uafhængige tidsserier gennem korrelationsanalyse (auto- og krydskorrelation), egenværdier, principal component analysis osv., og derefter bruge en ARIMA- eller GARCH-model til forudsigelser. Men begge dele kan med fordel læres af et deep neural network (DNN) som en Transformer (samme som GPT).

Vi bruger TensorFlow eller PyTorch modeller, som vi træner på alle vores tidsserier. Disse modeller kan finde mønstre i data, som f.eks. mønstre der har været til stede før tidligere nedbrud. Ved at forudsige tidsserier sammen med forskellige entropimål kan vi skabe alarmer som: “Der er 78% sandsynlighed for, at server123 går ned om 6 til 8 timer. Sidste gang noget lignende skete, var løsningen xxx.”

Events og alarmer

Når IT-systemer fejler, opstår der ofte en storm af alarmer og fejlmeddelelser, der peger i alle retninger. At finde den egentlige root cause kan være som at lede efter en nål i en høstak. Her kommer graf neural netværk (GNN) ind i billedet, en avanceret form for deep neural network baseret på grafteori. Ved at kortlægge alarmer, fejl og hændelser i en graf, struktureret efter kronologi, lokation og andre parametre, kan GNN omskrive denne graf til et træ, der afslører root cause.
For at binde alle disse ender sammen, bruger vi GPT-4o, som kan samle trådene og kommunikere i et letforståeligt sprog, som du kender fra Copilot. Dette gør det muligt at “tale” med dataene fra et incident, en alarm eller lignende.

Vejen til fremtidens dataindsigter

At kunne identificere mønstre i de stadig stigende mængder af data og afvigelser er afgørende for at opdage ændringer eller uregelmæssigheder. Dette kan afsløre alt fra infrastrukturfejl og menneskelige fejl til igangværende angreb fra ondsindede aktører.

For os i Sentia er intelligence og AIOps ikke bare det næste skridt – det er den uundgåelige fremtid. Vi er på en mission for at tilvejebringe dybere indsigt, og vi inviterer alle, der tør tænke stort, til at følge med. Lad os sammen revolutionere måden, vi forstår og håndterer data på!

Daniel von Tabouillot

Principal Performance Engineer, med 30 års erfaring for neurale netværk, statistik og overvågning. Daniel er ualmindelig nysgering anlagt og med dyb erfaring med alle former for computer systemer, netværk, mv. kan han finde root cause bag næsten alle performanceproblemer.