Difference between revisions of "HZW Monitoring"

From hzw wiki
Jump to navigation Jump to search
(First draft)
Line 1: Line 1:
Da wir noch kein "echtes" Monitoring haben (Karten dafür sind schon erstellt) macht es erst sinn das zu Dokumentieren, wenn es existiert.[[File:Telegraf.png|thumb|Grafana Monitoring]]
+
[[File:Telegraf.png|thumb|Grafana Monitoring|alt=|450x450px]]In der HZW Umgebung läuft auf den Linux VMs der [https://github.com/influxdata/telegraf Telegraf Service].
 +
 
 +
Dieser sammelt Informationen wie CPU Load, Plattennutzung etc. ein und schreibt sie in eine auf der [https://netbox.kabelsalat.it/virtualization/virtual-machines/154/ vm_grafana] gehostete [https://www.influxdata.com/ InfluxDB].
 +
 
 +
 
 +
Diese InfluxDB wird als Datenquelle an [https://grafana.com/ Grafana] angeschlossen, einer Datenvisualisierungsplattform.
 +
 
 +
Unser Grafana ist unter https://grafana.hackzenwerk.org gehostet.
 +
 
 +
 
 +
 
 +
<br />
 +
 
 +
= Schematische Darstellung der Funktionsweise =
 +
[[File:Grafanamon.png|873x873px]]
 +
 
 +
 
 +
 
 +
 
 +
= Informationen Grafana einsehen =
 +
In Grafana werden Informationen in Boards abgebildet, welche mehrere Dinge in einer übersicht zusammenfassen.
 +
 
 +
Wählt nach dem Login auf der linken '''Seite Dashboards > Manage''' aus um eine Liste der verfügbaren Boards anzuzeigen.
 +
 
 +
In dem Board '''Telegraf - system metrics''' sind die Metriken der virtuellen Maschinen zu finden.
 +
 
 +
[[File:Grafana1.png]]
 +
 
 +
 
 +
In diesem Board könnt Ihr in der Kopfzeile den Server auswählen, zu dem Ihr Statistiken einsehen wollt.
 +
 
 +
Wählt oben Rechts einen Zeitrahmen aus, zu dem Ihr informationen haben wollt.
 +
 
 +
 
 +
[[File:Grafana2.png]]
 +
 
 +
= InluxDB und Telegraf =
 +
Die Konfiguration von Telegraf, also die Einstellungen was wie eingesammelt werden soll, geschieht unter /etc/telegraf/telegraf.conf
 +
 
 +
Ich werde hier in dem Artikel nicht alle Settings dieser Konfig durchgehen, dafür ist [https://docs.influxdata.com/telegraf/v1.14/administration/configuration/ die offizielle Dokumentation] da.
 +
 
 +
Allerdings kann ich ein paar exemplarische Beispiele geben.
 +
 
 +
 
 +
Die im oberen Screenshot zu sehenden CPU Statistiken liegen folgender Config zugrunde.
 +
<nowiki>[[inputs.cpu]]</nowiki>
 +
  percpu = true
 +
    totalcpu = true
 +
    collect_cpu_time = false
 +
    report_active = false
 +
Das die Daten in der InfluxDB laden wird durch folgende config erreicht.
 +
[[outputs.influxdb]
 +
 
 +
 
 +
In folgendem Format werden die Informationen in der Datenbank abgelegt: [Messung] [Key=Value] [Timestamp]
 +
 
 +
Ihr könnt euch mit telegraf --test auf einer der VMs eine liste der eingesammelten Werte anzeigen lassen.
 +
<br />
 +
 
 +
= Prometheus =
 +
[https://prometheus.io/ Prometheus].

Revision as of 17:18, 27 May 2020

Grafana Monitoring

In der HZW Umgebung läuft auf den Linux VMs der Telegraf Service.

Dieser sammelt Informationen wie CPU Load, Plattennutzung etc. ein und schreibt sie in eine auf der vm_grafana gehostete InfluxDB.


Diese InfluxDB wird als Datenquelle an Grafana angeschlossen, einer Datenvisualisierungsplattform.

Unser Grafana ist unter https://grafana.hackzenwerk.org gehostet.



Schematische Darstellung der Funktionsweise

Grafanamon.png



Informationen Grafana einsehen

In Grafana werden Informationen in Boards abgebildet, welche mehrere Dinge in einer übersicht zusammenfassen.

Wählt nach dem Login auf der linken Seite Dashboards > Manage aus um eine Liste der verfügbaren Boards anzuzeigen.

In dem Board Telegraf - system metrics sind die Metriken der virtuellen Maschinen zu finden.

Grafana1.png


In diesem Board könnt Ihr in der Kopfzeile den Server auswählen, zu dem Ihr Statistiken einsehen wollt.

Wählt oben Rechts einen Zeitrahmen aus, zu dem Ihr informationen haben wollt.


Grafana2.png

InluxDB und Telegraf

Die Konfiguration von Telegraf, also die Einstellungen was wie eingesammelt werden soll, geschieht unter /etc/telegraf/telegraf.conf

Ich werde hier in dem Artikel nicht alle Settings dieser Konfig durchgehen, dafür ist die offizielle Dokumentation da.

Allerdings kann ich ein paar exemplarische Beispiele geben.


Die im oberen Screenshot zu sehenden CPU Statistiken liegen folgender Config zugrunde.

[[inputs.cpu]]
 percpu = true
   totalcpu = true
   collect_cpu_time = false
   report_active = false

Das die Daten in der InfluxDB laden wird durch folgende config erreicht.

[[outputs.influxdb]


In folgendem Format werden die Informationen in der Datenbank abgelegt: [Messung] [Key=Value] [Timestamp]

Ihr könnt euch mit telegraf --test auf einer der VMs eine liste der eingesammelten Werte anzeigen lassen.

Prometheus

Prometheus.