经过这些年在阿里运维工作磨练,深切意识到,监控和自动化是运维的两块基石。
没有持续可靠且 深入基础设施、基础服务和应用逻辑的监控
,运维工作几乎是无法进行的。
只有通过监控来自动发现和预测故障,才能使得运维人员能够不断改进和完善自动化系统,实现稳定的云计算平台。
注意 :
发现问题只是开始,及时发现问题只是好的开始! 真正的云计算是一切皆自动,从自动发现到自动处理,以及不断的演进才是根本!
个人见解,随工作发展不断完善
-
基础设施和基础服务监控 -- 基础设施和基础服务是没有业务逻辑的基础平台,涵盖了
IaaS
到PaaS
整个平台堆栈,- 服务器
- 网络
- 存储
- 虚拟化
- 数据库
-
应用逻辑的监控 -- 应用层指的是
SaaS
,需要对整个业务链路进行完整的数据分析,以分析和预测故障和隐患,不断优化平台。
通过大数据
分析,对整个应用全面而深刻的掌控,是整个运维工作的关键。
不会开发的监控不是好运维!
计划从以下方面来完善监控能力:
- 探索和比较开源的基础监控架构,部署并学习框架,以期能够融会贯通、综合所长。
- 结合
大数据
分析,对业务监控进行不断优化 - 自动化处理和优化,这是一个长期的迭代改进