0%
B站Flink教程视频观看
为什么关注指标
1 2 3 4 5 6 7 8
| 指标 标准化 可量化 多维度 监控 易用 实时 可查询历史
|
监控报警链路
1 2 3 4 5 6
| 日志指标收集 统一化,集中化 解析展示 多维度,多种方式聚合 监控报警 个性化,可配置
|
指标展示
常用的指标
1 2 3 4 5 6 7 8 9 10
| 系统指标 可用性,流量,CPU,内存,GC,网络,CK,Connector 自定义指标 处理逻辑耗时打点 外部服务调用性能 缓存命中率 处理失败的数据占比 filter过滤的数据占比 超时丢弃的数据量
|
如何确定关注哪些监控项
1 2 3 4 5 6 7 8 9 10 11 12 13 14
| 作业状态相关 作业故障 运行不稳定 影响可用性的风险因素
作业性能相关 处理延迟 数据倾斜 性能瓶颈
业务逻辑相关 上游数据问题 新上逻辑问题 数据丢失
|
指标聚合方式
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38
| 聚合维度 Task Operator Job Host 物理指标 Cluster 容量 流量 业务维度 大盘展示 粗粒度 故障排除 由粗到细 性能测试 细粒度
聚合方式 总和,均值,最大,最小 常规指标 消除统计误差 差值 上游数据量与下游处理量的差 最新offset与消费offset的差 99线 xx率 xx耗时 指标缺失 单个指标缺失 整个作业没有指标 多指标复杂聚合 时间线对比 同比 环比 持续时间 周期性 结合外部系统计算
|
指标监控的用途
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
| 作业异常报警 作业状态异常 作业无指标上报 指标达到阈值 处理量跌0 消费延迟 数量 时间 失败率,丢失率 个性化 报警时段 聚合方式 错误日志,关键词日志 需要考虑报警系统本身的稳定性 误报 漏报 延迟
指标大盘 反映平台整体的现状 异常值高亮 多维度聚合 时间线对比 及时发现并快速定位到故障 给出平台可优化的方向 便于统筹资源分配 自动化运维 无法运维 没有指标 黑盒作业 一群人围着看问题 手动运维 重启,扩容,回滚,迁移,降级 纠正错误代码 优化处理逻辑 辅助运维 使用指标量化 经验转化为建议 GC频繁->增大内存 数据量大->增大并发 智能运维 故障自动拉起 资源不足自动扩容 自动切换备用作业
|