Ververica&Flink运维之二指标监控报警

发表于 2019-08-16 更新于 2021-03-21 分类于大数据

B站Flink教程视频观看

为什么关注指标

指标
    标准化
    可量化
    多维度
监控
    易用
    实时
    可查询历史

监控报警链路

日志指标收集
    统一化,集中化
解析展示
    多维度,多种方式聚合
监控报警
    个性化,可配置

指标展示

grafana

常用的指标

系统指标
    可用性,流量,CPU,内存,GC,网络,CK,Connector
    
自定义指标
    处理逻辑耗时打点
    外部服务调用性能
    缓存命中率
    处理失败的数据占比
    filter过滤的数据占比
    超时丢弃的数据量

如何确定关注哪些监控项

作业状态相关
    作业故障
    运行不稳定
    影响可用性的风险因素

作业性能相关
    处理延迟
    数据倾斜
    性能瓶颈

业务逻辑相关
    上游数据问题
    新上逻辑问题
    数据丢失

指标聚合方式

聚合维度 
    Task
    Operator
    Job
    Host
        物理指标
    Cluster
        容量
        流量
    业务维度
    大盘展示
        粗粒度
    故障排除
        由粗到细
    性能测试
        细粒度

聚合方式
    总和,均值,最大,最小
        常规指标
        消除统计误差
    差值
        上游数据量与下游处理量的差
        最新offset与消费offset的差
    99线
        xx率
        xx耗时
    指标缺失
        单个指标缺失
        整个作业没有指标
        
多指标复杂聚合
    时间线对比
        同比
        环比
        持续时间
        周期性
    结合外部系统计算

指标监控的用途

作业异常报警
    作业状态异常
    作业无指标上报
    指标达到阈值
        处理量跌0
        消费延迟
            数量
            时间
        失败率,丢失率
    个性化
        报警时段
        聚合方式
    错误日志,关键词日志
需要考虑报警系统本身的稳定性
    误报
    漏报
    延迟

指标大盘
    反映平台整体的现状
        异常值高亮
        多维度聚合
        时间线对比
    及时发现并快速定位到故障
    给出平台可优化的方向
    便于统筹资源分配
    
自动化运维
    无法运维
        没有指标
        黑盒作业
        一群人围着看问题
    手动运维
        重启,扩容,回滚,迁移,降级
        纠正错误代码
        优化处理逻辑
    辅助运维
        使用指标量化
        经验转化为建议
            GC频繁->增大内存
            数据量大->增大并发
    智能运维
        故障自动拉起
        资源不足自动扩容
        自动切换备用作业