Martin’s insteek met monitoring – 6 monitoringprincipes

Martin’s insteek met monitoring

Wat mij betreft schetst dit plaatje de context van monitoring. Het gaat daarbij om het meten/ detecteren/ waarnemen van gebeurtenissen in systemen. Systemen kunnen fysieke componenten zijn, ketens maar ook logisch of functionele services.. De waarnemingen worden vastgelegd/ gelogd en door het monitoring systeem geinterpreteerd tegen vooraf afgesproken drempelwaarden. Monitoring leidt enerzijds tot rapportage en anderzijds tot (realtime) alerts. Alerts kunnen leiden tot ‘ rode lampjes’ maar ook tot sms’jes of andere meldingen. Meldingen (net als rapportage) zouden tot, vooraf afgesproken, acties of beslissingen moeten leiden. Monitoringsprocesmodel.pdf

Als je kijkt naar het waarom van monitoring (eventregistratie) kom je al snel uit op de doelen en doelstellingen van ITIL-processen als

SLM: The objectives of SLM are to: Define, document, agree, monitor, measure, report and review the level of IT services provided
Availability Management should ensure the agreed level of availability is provided. The measurement and monitoring of IT availability is a key activity to ensure availability levels are being met consistently.
The ability to detect events, make sense of them and determine the appropriate control action is provided by Event Management. Event management is therefore the basis for Operational Monitoring and Control

Met monitoring kunnen we verschillende aspecten van dienstverlening meten:

Beschikbaarheid, QofS, performance, security, capaciteit van resources en services.

Meetbaarheid is hierbij bepalend. Direct meten is het meest recht-toe-rechtaan maar indirect meten geeft uiteraard ook informatie.

Martin’s uitgangspunten en 6 monitoringprincipes

Uitgangspunten bij monitoring

Overschrijding van thresholds leidt tot events ==> events kunnen leiden tot alerts, rapportage of ….
Events meten zonder alerts is zinloos.
Cross functionaliteit, cross Platform, cross silo, cross service, cross applicatie: focus op het geheel.
Zonder meten zul je niets weten.

Wat wel doen:

Onder ken het (poteniele) probleem: beschikbaarheid, performance, gebruik of wat we belangrijk vinden.
Doe dit bij voorkeur zo breed mogelijk dus op service e/o keten niveau en met een insteek zo dicht mogelijk bij de gebruikerservaring. Maak visueel wat je meet. Baken af wat je als ‘systeem’ beschouwd.
Zoek naar “een maat vóór ….het probleem” en maak het meetbaar.
Voer metingen uit en stel een baseline vast, dag/weekprofiel. Maar zorg ook dat je leert: als er een uitval is geweest en hij is niet geregistreerd: onderzoek / neem actie.
Relateer problemen aan tresholds. Maak helder wat de acties zijn bij het overschreiden van tresholds: informatief? correctief? Moet er een ProcessAutomation (PA) script getriggerd worden.
ITTT-IfThisThenThat
Start met bewaken van probleemgebieden / waar je problemen verwacht. Zorg voor e-2-e focus en beperk je tot cruciale metingen.
Schakel overbodige metingen uit. Met een hartslagmonitor loop je geen hardloopwedstrijd: metingen mogen het systeem niet beïnvloeden. Meten moeten nuttig zijn: als je ziek bent, opbouw van vertrouwen .. laten zien dat je in-control bent Als je gezond bent niet meten. Context is alles…..

Wat niet doen:

meten om het meten. Meten zonder vervolgactie is zinloos. Stop metingen zonder vervolgacties (en vervolg acties die niet op meten gebaseerd zijn)
meten van de verkeerde zaken: Met een diefstal-alarm detecteer je geen brand!!
meten als niet-lerend systeem

Om te komen tot monitoring is afstemming over de volgende informatie essentieel: Wat wordt gemeten, wat zijn de drempelwaarden en wat de te nemen acties.

Monitoringbouwstenen

Monitoring systeem

Monitoringsysteem

Toelichting

Loggingsysteem: (Elektronische) verslaglegging systeem om acties vanuit applicaties en infrastructurele componenten vast te leggen.
Logfiles: Bestanden die het resultaat van het loggingsysteem bevatten.
Drempel: Limiet voor het monitoren, die bepaalt of een actie legitiem is.
Waarneming: Een signaal vanuit de infrastructuur die aangeeft of onderdelen in de infrastructuur wel of niet in orde zijn.
Monitoring: Het systeem dat waarnemingen controleert ten opzicht van drempels.
Trigger: Het monitoringsysteem geeft een signaal af, indien een drempel wordt overschreden.
Alerting: Het systeem dat signalen afgeeft als er direct actie ondernomen moet worden, indien er iets mis is met beveiliging of beschikbaarheid van applicaties of netwerkcomponenten.
Reporting: Het systeem dat gegevens bewaart, ten behoeve van management, veiligheid, beheer en marketing. Aan de hand van analyse van de opgeslagen gegevens worden rapporten afgedrukt, waarmee op langere termijn acties genomen kunnen worden.

Met het meetsysteem zijn 2 manieren van monitoring mogelijk:

Active monitoring: probleemoplossend, korte termijn / actueel / .
Pasive monitoring: achteraf / trendsvaststellend / regelmatig / terugkijkend

Realisatie van een monitoringsomgeving is bij uitstek iets wat via een aantal sprints (gedefineerd in een roadmap / plateauplanning (Monitoringplateau) ingericht kan worden. Continual Improvement vormt hierin de basis. Ik verwijs hierbij naar mijn artikel over Capacity management op deze blogsite.