Difference between revisions of "HZW Monitoring"
(First draft) |
|||
Line 1: | Line 1: | ||
− | + | [[File:Telegraf.png|thumb|Grafana Monitoring|alt=|450x450px]]In der HZW Umgebung läuft auf den Linux VMs der [https://github.com/influxdata/telegraf Telegraf Service]. | |
+ | |||
+ | Dieser sammelt Informationen wie CPU Load, Plattennutzung etc. ein und schreibt sie in eine auf der [https://netbox.kabelsalat.it/virtualization/virtual-machines/154/ vm_grafana] gehostete [https://www.influxdata.com/ InfluxDB]. | ||
+ | |||
+ | |||
+ | Diese InfluxDB wird als Datenquelle an [https://grafana.com/ Grafana] angeschlossen, einer Datenvisualisierungsplattform. | ||
+ | |||
+ | Unser Grafana ist unter https://grafana.hackzenwerk.org gehostet. | ||
+ | |||
+ | |||
+ | |||
+ | <br /> | ||
+ | |||
+ | = Schematische Darstellung der Funktionsweise = | ||
+ | [[File:Grafanamon.png|873x873px]] | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | = Informationen Grafana einsehen = | ||
+ | In Grafana werden Informationen in Boards abgebildet, welche mehrere Dinge in einer übersicht zusammenfassen. | ||
+ | |||
+ | Wählt nach dem Login auf der linken '''Seite Dashboards > Manage''' aus um eine Liste der verfügbaren Boards anzuzeigen. | ||
+ | |||
+ | In dem Board '''Telegraf - system metrics''' sind die Metriken der virtuellen Maschinen zu finden. | ||
+ | |||
+ | [[File:Grafana1.png]] | ||
+ | |||
+ | |||
+ | In diesem Board könnt Ihr in der Kopfzeile den Server auswählen, zu dem Ihr Statistiken einsehen wollt. | ||
+ | |||
+ | Wählt oben Rechts einen Zeitrahmen aus, zu dem Ihr informationen haben wollt. | ||
+ | |||
+ | |||
+ | [[File:Grafana2.png]] | ||
+ | |||
+ | = InluxDB und Telegraf = | ||
+ | Die Konfiguration von Telegraf, also die Einstellungen was wie eingesammelt werden soll, geschieht unter /etc/telegraf/telegraf.conf | ||
+ | |||
+ | Ich werde hier in dem Artikel nicht alle Settings dieser Konfig durchgehen, dafür ist [https://docs.influxdata.com/telegraf/v1.14/administration/configuration/ die offizielle Dokumentation] da. | ||
+ | |||
+ | Allerdings kann ich ein paar exemplarische Beispiele geben. | ||
+ | |||
+ | |||
+ | Die im oberen Screenshot zu sehenden CPU Statistiken liegen folgender Config zugrunde. | ||
+ | <nowiki>[[inputs.cpu]]</nowiki> | ||
+ | percpu = true | ||
+ | totalcpu = true | ||
+ | collect_cpu_time = false | ||
+ | report_active = false | ||
+ | Das die Daten in der InfluxDB laden wird durch folgende config erreicht. | ||
+ | [[outputs.influxdb] | ||
+ | |||
+ | |||
+ | In folgendem Format werden die Informationen in der Datenbank abgelegt: [Messung] [Key=Value] [Timestamp] | ||
+ | |||
+ | Ihr könnt euch mit telegraf --test auf einer der VMs eine liste der eingesammelten Werte anzeigen lassen. | ||
+ | <br /> | ||
+ | |||
+ | = Prometheus = | ||
+ | [https://prometheus.io/ Prometheus]. |
Revision as of 17:18, 27 May 2020
In der HZW Umgebung läuft auf den Linux VMs der Telegraf Service.
Dieser sammelt Informationen wie CPU Load, Plattennutzung etc. ein und schreibt sie in eine auf der vm_grafana gehostete InfluxDB.
Diese InfluxDB wird als Datenquelle an Grafana angeschlossen, einer Datenvisualisierungsplattform.
Unser Grafana ist unter https://grafana.hackzenwerk.org gehostet.
Contents
Schematische Darstellung der Funktionsweise
Informationen Grafana einsehen
In Grafana werden Informationen in Boards abgebildet, welche mehrere Dinge in einer übersicht zusammenfassen.
Wählt nach dem Login auf der linken Seite Dashboards > Manage aus um eine Liste der verfügbaren Boards anzuzeigen.
In dem Board Telegraf - system metrics sind die Metriken der virtuellen Maschinen zu finden.
In diesem Board könnt Ihr in der Kopfzeile den Server auswählen, zu dem Ihr Statistiken einsehen wollt.
Wählt oben Rechts einen Zeitrahmen aus, zu dem Ihr informationen haben wollt.
InluxDB und Telegraf
Die Konfiguration von Telegraf, also die Einstellungen was wie eingesammelt werden soll, geschieht unter /etc/telegraf/telegraf.conf
Ich werde hier in dem Artikel nicht alle Settings dieser Konfig durchgehen, dafür ist die offizielle Dokumentation da.
Allerdings kann ich ein paar exemplarische Beispiele geben.
Die im oberen Screenshot zu sehenden CPU Statistiken liegen folgender Config zugrunde.
[[inputs.cpu]] percpu = true totalcpu = true collect_cpu_time = false report_active = false
Das die Daten in der InfluxDB laden wird durch folgende config erreicht.
[[outputs.influxdb]
In folgendem Format werden die Informationen in der Datenbank abgelegt: [Messung] [Key=Value] [Timestamp]
Ihr könnt euch mit telegraf --test auf einer der VMs eine liste der eingesammelten Werte anzeigen lassen.