运维监控系统实战笔记，从业务场景出发，搭建监控系统-nigaeanigaea

你会学到什么？

理论扫盲：监控领域专业知识一网打尽
选型指导：10 大开源监控方案横评对比
快速上手：搭建、增强、落地监控系统
实战指南：带你搞定 8 大常见监控需求

课程简介

可被监控和观测是我们开发软件时必须考虑的一环。优秀的软件，一定是考虑了各类故障的发现和应对手段的，因此它们都内置了监控数据的暴露方法，用户可以对其进行观测，了解其健康状况，及时感知系统出现的问题。

随着时代的发展，监控也从最开始的一句话需求——及时感知系统出现的问题，发展到了希望预知问题，并且可以洞察业务经营数据，越来越多的诉求让我们逐渐意识到监控的重要作用。

比如：

通过监控我们可以了解数据趋势，知道系统在未来的某个时刻可能出问题，预知问题。
通过监控我们可以了解系统的水位情况，为服务扩缩容提供数据支撑。
通过监控我们可以给系统把脉，感知到哪里需要优化，比如一些中间件参数的调优。
通过监控我们还可以洞察业务，提供业务决策的数据依据，及时感知业务异常。

因此，优秀的软件，一定会暴露完备的监控指标，或者用现在时髦的话讲，优秀的软件一定是可观测的。

就拿我们常见的数据库中间件来说，你会发现虽然大家的指标暴露方式不同，但没有哪个是缺失监控能力的。

监控领域相关的产品很多，监控数据采集器有 Telegraf、Grafana-agent、Datadog-agent、Categraf、Prometheus 生态的各种 Exporters，时序数据库有 M3DB、VictoriaMetrics、Thanos、InfluxDB、TimescaleDB 等，监控系统有 Zabbix、Open-Falcon、Prometheus、Nightingale 等，整个监控技术体系非常庞杂。

不同的监控目标应该选用哪个采集器？机器、中间件、数据库、应用程序分别应该怎么监控？应该着重关注哪些指标？时序数据量很大，应该选用什么样的存储？作为一个公司级的基础设施，需求各异，选用哪一款系统更便于扩展？

为了解答这些困惑，我们请到了快猫星云的联合创始人，同时也是 Open-Falcon、Nightingale、Categraf 的核心研发秦晓辉老师。他会结合自己在这一领域多年的经验和思考，介绍监控领域的产品及优缺点，带你搭建监控系统，实现业务、应用、组件、资源四大场景的监控需求。

课程设计

1. 基础知识概要介绍

学习监控知识，得先了解为什么，也就是监控是因何产生的，解决了什么问题，有哪些典型的方案，分别有什么优缺点，通用的监控系统架构是怎样的。通过这些内容，你可以了解监控及相关的概念，为接下来的正式学习打好铺垫。

2. 搭建并优化 Prometheus

这个部分老师会带你搭建 Prometheus 这个监控系统，剖析它的关键设计，并给出 Prometheus 薄弱环节的解决方案。让你有个感性认识的同时，帮助你理解监控系统的相关设计。

3. 监控实战，搞定常见的监控需求

操作系统、网络设备、MySQL、Redis、Kafka、ElasticSearch、Kubernetes、应用、日志等所有常见监控的需求统统搞定。这个部分讲解各个监控目标是如何采集监控数据的，有哪些指标最为关键。中间穿插一些问题排查手段，并提供配置好的仪表盘，让你开箱即用的同时，知其然并知其所以然。

4. 告警实战，设计良好的告警系统应该具备哪些能力

这个部分的重点就是甄别异常数据并发出告警，包括告警规则、屏蔽规则、抑制规则、订阅规则的管理，还有告警事件的管理以及告警事件触发后的自愈逻辑。

一般监控系统都支持配置告警规则，可以产生告警事件，但是针对告警事件后续的支持偏弱，没有很好的聚合收敛、事件闭环的能力。这个部分主要是为了让你了解告警部分相关的设计逻辑和考量点，帮助你选型这方面的商业产品。当然，如果你后续选择自研，这些思考也会大有裨益。

不管你是运维工程师，还是业务研发、架构师，抑或者是监控和稳定性系统建设人员，运维监控相关知识都是工作中必不可少的一部分。希望这个课程可以补齐你在监控领域缺失的“拼图”。

课程目录

监控概述
01 背景信息:监控需求以及开源方案的横评对比
02 基本概念:监控圈子有哪些行业黑话?
03 架构概述:监控系统的典型架构是怎样的?
搭建并增强 Prometheus
04 如何快速搭建 Prometheus系统?
05 Prometheus 中有哪些关键设计?
06 PromQL有哪些常见的使用场景?
07 如何解决Prometheus 的存储容量问题?
08 如何解决Prometheus 的告警管理问题?
监控实战
09 监控概论(上):监控数据采集相关的方法论
10 监控概论(下):监控数据的采集方式及原理
11 机器监控:操作系统有哪些指标需要重点关注?
12 网络监控:如何监控网络连通性和网络设备?
13 组件监控:MySQL的关键指标及采集方法有哪些?
14 组件监控:Redis 的关键指标及采集方法有哪些?
15 组件监控:Kafka 关键指标及采集方法有哪些?
16 组件监控:ElasticSearch 关键指标及采集方法有哪些?
17 组件监控:Kubernetes Node 组件的关键指标与数据采集
18 组件监控;Kubernetes 控制面组件的关键指标与数据采集
19 应用监控(上):如何使用埋点方式监控应用?
20 应用监控(下):如何使用日志监控应用?
监控告警
21 事件通知(上):事件降噪的几个典型手段
22 事件通知(下):如何保证事件的闭环处理?
结束语|弱水三千，只取一瓢饮

讲师介绍

秦晓辉，快猫星云联合创始人，Open-Falcon、Nightingale、Categraf 核心研发，拥有 10 余年运维研发经验，先后任职于百度、小米、金山云、滴滴，目前在快猫星云合伙创业，为客户提供监控和稳定性保障类产品，对监控和稳定性保障的方法论及实践路径有着深刻的洞见。同时他也是 Open-Falcon、Nightingale、Categraf 等开源软件的联合创始人和核心研发，多年笔耕不辍，活跃在代码前线。

运维监控系统实战笔记，从业务场景出发，搭建监控系统

你会学到什么？

课程简介

课程设计

课程目录

讲师介绍

相关推荐

发表回复