文档中心 > 聚石塔

事件中心(告警)使用说明

更新时间:2023/05/04 访问次数:4534

一、事件中心开通


事件中心是由阿里云日志服务提供的免费应用,将K8S集群中产生的事件采集到SLS中(默认保存90天,无资费),另外还提供了事件报表、查询分析、事件告警等功能。聚石塔提供了一键集成和开通事件中心的能力,产品页面暂未开放。默认地,核心应用的集群均已开通,有需求请联系@杭羽


二、事件告警配置


对于已经开通事件中心的集群,可以为集群本身以及集群上运行的云应用配置上告警。产品页面暂未开放。


1. 告警范围


自由配置,可自己指定应用环境以及集群(前提是已经开通了事件中心)。默认地,针对此次618核心应用,我们已经默认给配置了如下告警范围:

1)各个核心应用的所有正式环境;

2)核心应用所在集群;

特别的,如果需要监控其他应用的其他环境,可以联系@杭羽后台配置,因为产品页面功能暂未上线。


2. 告警对象


1)应用事件

针对云应用,可以对每个应用设置相应的告警角色,从[负责人、开发、运维、测试]中选择N个。例如,针对应用A可以设置告警接收人为负责人+开发;针对应用B,可以设置告警接收人为负责人+运维。特别的,当前核心应用的告警接收人都设置为 负责人+开发+运维+测试,如果需要调整,请联系@杭羽后台修改。


2)集群事件

针对集群,告警对象目前为集群创建时指定的集群负责人。如果需要调整,请联系@杭羽后台修改。


3. 通知方式


1)淘宝账号绑定的邮箱;

2)钉钉账号工作通知;


告警发送的通知方式和角色对应的账号类型有关。淘宝账号会发送到邮箱,钉钉登录的账号会发送到钉钉的工作通知。淘宝账号的告警接收人请确保邮箱设置正确,否则无法收到告警信息。

例如,“聚石塔测试账号”为淘宝账号登录,改用户为应用A的负责人,当应用A发生告警时,会推送告警信息到该账号的邮箱。淘宝账号的邮箱设置:权限管理/我的账号/个人信息。


image.png


三、告警示例

1. 应用事件


主要是应用POD上的事件,例如容器重启(异常原因导致)、镜像拉取失败、健康检查失败、实例驱逐等。


[聚石塔事件告警]
类型:Pod
原因:Container Restart:Created container jck-container-13097-9016
告警项:K8s通用Warn警示事件(容器重启)
名称:jck-deployment-yacs-13097-9016-106932-55f7bbbf88-b5g9c
应用:test_webhook(13097)
环境:正式环境(9016)
主机:cn-zhangjiakou.192.168.49.240
集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4)
告警时间:2020-06-15 19:50:11
用户:杭羽测试账号33
备注:POD所在节点最近半小时内存在OOM事件
推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#lfIj5


2. 集群事件


主要是集群ECS节点、集群系统应用或组件上的事件。比如docker hung、OOM、节点不可调度、节点NTP不可用、集群组件如coredns异常等。


[聚石塔事件告警]
类型:Node
原因:Memory cgroup out of memory: Kill process 21417 (java) score 2012 or sacrifice childKilled process 21316 (java), UID 0, total-vm:2786708kB, anon-rss:253788kB, file-rss:13156kB, shmem-rss:0kB
告警项:K8s通用Warn警示事件
名称:cn-zhangjiakou.192.168.49.240
主机:cn-zhangjiakou.192.168.49.240
集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4)
告警时间:2020-06-15 19:50:11
用户:杭羽测试账号33
推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#08qwG


FAQ

关于此文档暂时还没有FAQ
返回
顶部