doc

云监控告警平台

云监控告警平台是资源与服务一体化的监控告警平台,面向多云服务、现代应用,以ITIL流程为基础,以AIOps为驱动,集监控、告警、自动化运维、故障自愈的一体化监控告警平台。平台支提供面向多云和云原生服务的统一监控、提供端到端的应用监控体系并可扩展监控任意云对象、支持多平台统一告警收集、支持自动生成工单并拥有基于AI的故障自愈能力。

下面介绍云监控告警平台特有功能,平台通用功能请参考公共平台

监控告警和展示

通过SmartCMP,您可以查看所拥有的云资源的监控信息并自服务设置告警。 云资源的性能监控,助您了解云环境的整体使用情况。您可以通过监控状态图总览资源性能与健康状态。同时,SmartCMP支持丰富的告警类型、策略的设置,针对云主机、应用、容器等资源进行在线状态、性能指标的检测和趋势判断并通过多种方式通知到干系人,及时掌握云平台的运行情况。

监控仪表盘

监控仪表盘能够直观展示各类云组件的监控数据,方便您快速查找相关信息,协助您通过趋势和异常值分析指标。

查看系统内置仪表盘或新建自定义仪表盘的操作方法请参考监控仪表盘

资源状态图

资源状态图能够显示云主机、容器等云资源的健康状态,根据性能指标的状态显示不同的颜色。若该云资源未配置监控,默认显示灰色。浅绿到深绿到红色,颜色越深代表使用的资源越多。

查看资源状态图的操作方法请参考资源状态图

告警概览

告警概览菜单展示当前租户下的所有监控数据,监控的云资源类型包括云主机,OSS,RDS, 软件等。目前只有平台管理员和基础设施管理员有权限查看该告警概览菜单。

告警概览详细介绍请参考告警概览

组件监控

平台不仅能在部署或云资源的界面进行监控信息的展示,还能在全新的页面,统一展示监控信息。组件监控作为单独的页面,展示对云主机、Web Server、App Server、存储、数据库的监控。

安装组件监控的操作方法请参考组件监控

告警策略

告警策略用来定义所选的对象类型(如云主机/应用/容器等)触发警报的条件。

管理告警策略的操作方法请参考告警策略

告警

告警用来定义所选告警策略应用到的范围以及触发的通知和操作。

添加告警的操作方法请参考告警

告警集成

告警集成通过提供统一的WebHook的API,可以将第三方平台系统所发送的告警接入到系统中,实现告警的统一通知,统一分析和告警自愈。目前支持主流公有云平台,和业界常用的监控平台, 如Prometheus, Zabbix, SNMP等。

接入第三方告警的操作方法请参考告警集成

已触发警报

已触发警报列表包括警报级别、告警名称、触发告警对象以及告警状态等信息。可以对列表中的触发警报进行恢复、暂停、解除操作。

管理已触发警报的操作方法请参考已触发警报

服务设计

组件库

SmartCMP云管平台的云组件拥有“将任意资源”提供服务化的核心能力,不仅内置丰富的组件资源和常用的操作,同时还拥有高度可扩展的能力,根据用户需求灵活自定义添加组件资源和配置运维操作。

组件的定义采用面向对象的设计方法,使用统一的数据结构进行建模,并将配置属性标准化。支持使用Ansible, Terraform, Shell, Python, Json, Ruby等语言来自定义软件组件,并且自定义软件组件的生命周期操作(包含创建,配置,启动,停止,删除、备份、巡检等等),系统内置创建,配置和启动操作,在移除的时候调用停止和删除操作,并且支持灵活自定义操作,实现软件和应用的全生命周期管理。

管理组件库与创建组件的操作方法请参考组件库