Ververica&Flink运维之八大规模运维

B站Flink教程视频观看

现状

1
2
3
4
5
6
规模大,架构复杂,增长迅速

集群规模大:几万个计算节点,几百个集群
用户规模大:几万个作业,几千个用户
系统复杂:几十个上下游模块,分布式系统原理复杂
部署环境多:底层架构多样,出口多元化

挑战

1
2
3
4
5
6
7
8
9
10
11
12
稳定
如何减少服务故障
如何保障大促稳定
大量运维操作如何保持一致性
成本
如何管理硬件资源
如何管理用户资源
如何降低运维人力成本
效率
值班答疑
问题排查
如何减少人肉运维

Flink运维管控

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
定位
着力于稳定,成本,效率,一站式支撑超大规模Flink集群运维

架构
高效开发,通用
数据层
服务层
功能层

运维解决方案
稳定:软件生命周期
发布变更:集群规模大,场景多,流程复杂,如何稳定,高效的发布
Flink作业升级:大规模Flink作业版本如何升级
服务故障:如何减少故障,低成本维持稳定
故障隐患自愈
服务故障自愈
大促压测:如何高效支撑大规模作业压测
成本:资源生命周期
用户资源管理:如何高效支撑用户规模大,场景复杂的资源管理需求
效率:日常运维琐事
作业诊断:如何高效分析作业异常根因,并给出有效建议
值班答疑:如何高效应对大量日常答疑