Ververica&Flink运维之二指标监控报警

B站Flink教程视频观看

为什么关注指标

1
2
3
4
5
6
7
8
指标
标准化
可量化
多维度
监控
易用
实时
可查询历史

监控报警链路

1
2
3
4
5
6
日志指标收集
统一化,集中化
解析展示
多维度,多种方式聚合
监控报警
个性化,可配置

指标展示

1
grafana

常用的指标

1
2
3
4
5
6
7
8
9
10
系统指标
可用性,流量,CPU,内存,GC,网络,CK,Connector

自定义指标
处理逻辑耗时打点
外部服务调用性能
缓存命中率
处理失败的数据占比
filter过滤的数据占比
超时丢弃的数据量

如何确定关注哪些监控项

1
2
3
4
5
6
7
8
9
10
11
12
13
14
作业状态相关
作业故障
运行不稳定
影响可用性的风险因素

作业性能相关
处理延迟
数据倾斜
性能瓶颈

业务逻辑相关
上游数据问题
新上逻辑问题
数据丢失

指标聚合方式

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
聚合维度 
Task
Operator
Job
Host
物理指标
Cluster
容量
流量
业务维度
大盘展示
粗粒度
故障排除
由粗到细
性能测试
细粒度

聚合方式
总和,均值,最大,最小
常规指标
消除统计误差
差值
上游数据量与下游处理量的差
最新offset与消费offset的差
99线
xx率
xx耗时
指标缺失
单个指标缺失
整个作业没有指标

多指标复杂聚合
时间线对比
同比
环比
持续时间
周期性
结合外部系统计算

指标监控的用途

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
作业异常报警
作业状态异常
作业无指标上报
指标达到阈值
处理量跌0
消费延迟
数量
时间
失败率,丢失率
个性化
报警时段
聚合方式
错误日志,关键词日志
需要考虑报警系统本身的稳定性
误报
漏报
延迟

指标大盘
反映平台整体的现状
异常值高亮
多维度聚合
时间线对比
及时发现并快速定位到故障
给出平台可优化的方向
便于统筹资源分配

自动化运维
无法运维
没有指标
黑盒作业
一群人围着看问题
手动运维
重启,扩容,回滚,迁移,降级
纠正错误代码
优化处理逻辑
辅助运维
使用指标量化
经验转化为建议
GC频繁->增大内存
数据量大->增大并发
智能运维
故障自动拉起
资源不足自动扩容
自动切换备用作业