告警管理
用户管理多个 TiDB 集群的时候,需要一个集中式的告警管理特性,来完成对于 TiDB 集群自身的告警规则配置、告警通道配置和告警订阅能力。以及 TiDB 周边的组件,例如:BR,主机的告警规则配置,告警通道配置和告警事件展示等功能。新版本的 TEM 在这个领域做了很多工作,帮助用户能够更加高效的管理多个集群的告警。
注意:当前版本只支持告警事件查看和告警规则查看功能。告警规则配置、告警事件操作、告警通道管理功能将在后续版本推出。
概念介绍
告警事件:是指针对某一个告警对象,当出现了满足某个告警规则的条件时产生的一次告警。
告警对象:是指告警所发生在的某一个具体的对象或资源,例如:某一个 TiKV 节点,某一个 TiDB 节点,某一个备份任务等。
告警规则:用于保存和告警相关的元数据,通常包含、告警的对象、触发的条件、发送告警相关配置等。
告警等级:目前TEM 支持“紧急”,“严重” 和 “警告”三个等级,其中:
- 紧急(emergency):通常是指需要立即处理、否则可能导致系统崩溃或数据丢失的告警。
- 严重(critical):通常是指需要在较短时间内进行处理,否则可能导致系统的性能受到影响或者业务出现异常的告警。
- 警告(warning):通常是指需要监控但不需要立即处理的告警,它们可能不会直接导致系统宕机或数据丢失,但如果忽略它们可能会对系统的稳定性和可靠性产生负面影响。
告警事件管理
当前版本若要在 TEM 界面显示告警事件,需要手动将 TEM 的 Alertmanager 配置到 TiDB 集群自带 Prometheus 的 prometheus.yaml 中,方法如下(下一个版本中,TEM 将提供页面操作功能):
查看 TEM 的 Alertmanager 地址
su - tidb TIUP_HOME=/tem-deploy/.tem tiup tem display tem-servers # 查看所有 alertmanager 的条目确定其 ip 和端口,例如 10.2.12.107:4112, 10.2.13.64:9097
创建或者纳管集群后,查看集群 ID ,例如 tidb-a075d99b
在 TEM 中控机上,通过 tiup 命令将 TEM 的 Alertmanager 配置到集群的 Prometheus 下
1. su - tidb 2. TIUP_HOME=/tem-deploy/.tem tiup cluster edit-config tidb-a075d99b # 以下是交互式结构体,将 Alertmanager 信息填在 external_alertmanagers,如果有多个 Prometheus,则均需要填写,最后类似 vim, 编辑完成后按 esc 和 : 号并输入 wq 保存退出。 monitoring_servers: - host: 172.18.4.4 ssh_port: 22 port: 9090 ng_port: 12020 deploy_dir: /tidb-deploy/prometheus-9090 data_dir: /tidb-data/prometheus-9090 log_dir: /tidb-deploy/prometheus-9090/log external_alertmanagers: - host: 10.2.13.64 web_port: 9097 - host: 10.2.12.107 web_port: 4112 arch: amd64 os: linux 3. TIUP_HOME=/tem-deploy/.tem tiup cluster reload tidb-a075d99b -R prometheus
验证是否添加成功,可以查看 TiDB 的 prometheus.yml 或者查看 prometheus UI 界面的配置。
告警事件页面用于帮助客户查看某一段时间内,不同级别和范围的告警事件相关的信息,其中: 搜索功能
- 关键字搜索:用于指定告警事件定义中的搜索关键字。
- 告警级别:根据告警级别筛选。
- 告警时间:根据告警时间的范围筛选。
- 告警状态:根据告警状态筛选。
- 搜索按钮:用于根据以上指定的搜索条件搜索告警事件。
- 重置按钮,用于重置所有的告警事件相关的搜索条件。
- 导出按钮,用于将搜索出来的告警事件信息导出成 csv 文件。
告警列表
- 告警事件:用于显示该告警事件的 summary 信息,对应于概念介绍部分中告警事件的 summary 部分。
- 告警对象:用于指定具体某一种类型的告警所涉及到的对象,例如:某一个 TiKV 节点,某一台主机等。其格式为 IP 地址,或者 IP:port。
- 告警状态:告警事件的状态,目前 TEM 支持:告警中,已恢复,已忽略三种状态。
- 告警级别:告警的紧急程度,目前 TEM 支持:紧急、严重、警告三种级别的告警。
- 告警时间:告警事件发生时间。
- 恢复时间:告警恢复时间。
另外,用户还可以通过选择某个告警事件对应的链接,来了解更多关于某一个告警事件的详细信息。
告警规则查看
通过这个页面,可以指定某个集群,查看此集群配置的告警规则。