一份运维监控的秘籍！监控不到位，宕机两行泪

发布时间：2019-02-24 23:44:14 所属栏目：外闻来源：京东云

导读：副标题#e# 有很多文章都提到过白盒监控和黑盒监控，以及监控的四个黄金指标。关于白盒与黑盒监控的定义，这里不再赘述。一般来说，白盒与黑盒分别从内部和外部来监控系统的运行状况，例如机器存活、CPU 内存使用率、业务日志、JMX 等监控都属于白盒监控，而

在很多业务系统中，消息队列长度是一个比较重要的饱和度指标，除此之外 CPU、内存、磁盘、网络等系统资源利用率也可以作为饱和度的一种体现方式。

基础功能单元使用率，大多数系统对其基础的功能单元都有其处理能力的上限，接近或达到该上限时可能会导致服务的错误、延迟增大。例如 HDFS 的 Block 数量上升会导致 NameNode 堆内存使用率上升，Kafka 的 Topics 和 Partitions 的数量、Zookeeper 的 node 数的上升都会对系统产生压力。
消息队列长度，不少系统采用消息队列存放待处理数据，所以消息队列长度在一定程度上可以代表系统的繁忙程度。如 ElasticSearch、HDFS 等都有队列长度相关指标可供采集。

总结

以上总结了常见的监控指标采集方法，以及四个黄金指标所包含的常见内容。在实际工作中，不同的监控系统的设计多种多样，没有统一标准，并且不同的业务系统通常也有着特定的监控采集方法和不同的黄金指标定义，具体如何采集监控指标和添加告警都需要我们针对不同系统特点灵活应对。

（编辑：应用网_丽江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

Google更新搜索引擎核	巴基斯坦苏吉吉纳里水
Shopee与Lazada 东南亚	尼罗河泛滥节，埃及人